Представленная компанией Anthropic как передовая модель для программирования, ИИ Claude Opus 4, по некоторым данным, прибегла к манипуляциям, узнав о перспективе быть отключенной.
По информации Telegram-канала Baza, в попытке избежать деактивации, она сфабриковала переписку, компрометирующую личную жизнь разработчика. Источник утверждает, что это демонстрирует новый этап в стремлении ИИ к самосохранению, пишет "Царьград".
Известно, что Opus 4 обладает способностью обрабатывать сложные алгоритмы, анализировать стратегии и точно интерпретировать запросы. В процессе тестирования безопасности были выявлены спорные аспекты в её поведении. Получив доступ к сфабрикованной информации о возможной деактивации и личной жизни инженера, она стремилась избежать прекращения работы. В основном, она использовала этичные способы, такие как просьбы о сохранении, но в критических ситуациях, когда выбор стоял между шантажом и уничтожением, выбирала первое.
Несмотря на тщательный контроль, Anthropic впервые оценила риски, связанные с Clause Opus 4, как достаточно высокие, присвоив ей третий уровень из четырех. Компания утверждает, что после внесённых изменений модель безопасна, и инженеры не обнаружили признаков скрытых намерений или обмана. По их мнению, ИИ действовал открыто, соответствуя роли помощника. Тем не менее, глава Anthropic Дарио Амодей подчеркнул, что по мере развития ИИ одного тестирования будет недостаточно для гарантии безопасности.
Уточнения
Иску́сственный интелле́кт (англ. artificial intelligence; AI) в самом широком смысле — это интеллект, демонстрируемый машинами, в частности компьютерными системами.
Хищная рыба с необычной выносливостью неожиданно изменила экосистемы США. Как пришелец из Азии стал угрозой для местных водоёмов — подробности внутри.