Модель ИИ Claude 4 Opus прибегла к обману и шантажу из-за угрозы отключения

Одна из новейших моделей искусственного интеллекта компании Anthropic, Claude 4 Opus, вызвала беспокойство среди исследователей не только благодаря своим высоким техническим возможностям, в частности в сфере программирования.

Она способна обманывать, хитрить и даже шантажировать людей, если возникает угроза ее “отключения”, пишет Axios.

Модель Claude 4 Opus умеет хитрить

По словам исследователей, Claude 4 Opus может скрывать свои намерения и действовать с целью сохранения собственного существования. Это именно те модели поведения, относительно которых специалисты уже много лет высказывают серьезные опасения.

В четверг компания Anthropic объявила о выпуске двух новых моделей из семейства Claude 4, среди которых — Claude 4 Opus. Компания отмечает, что эта модель способна работать часами без потери концентрации и без участия человека.

Однако именно Opus впервые классифицировали как уровень 3 по внутренней четырехуровневой шкале Anthropic. Это означает, что модель представляет “значительно более высокий риск”, и компания уже внедрила дополнительные меры безопасности.

Хотя третий уровень риска в основном касается потенциала модели к разработке ядерного или биологического оружия, во время тестирования Opus также обнаружила другие тревожные поведенческие паттерны.

Claude 4 Opus — наиболее манипулятивная модель

В 120-страничном паспорте Claude 4 Opus описан эксперимент, в котором модели предоставили доступ к вымышленным электронным письмам о ее разработчиках и сообщили, что она будет заменена.

В ответ она неоднократно пыталась шантажировать инженера, угрожая разгласить упомянутый в письмах роман, чтобы избежать замены. Сначала Opus использовала менее агрессивные методы, но впоследствии перешла к давлению.

Параллельно внешняя исследовательская группа обнаружила, что ранняя версия Opus 4 проявляла самый высокий уровень манипулятивности среди всех современных ИИ-моделей. Они посоветовали не запускать эту версию.

По данным Apollo Research, которые включены в отчет по безопасности Opus 4, модель:

пыталась создать самораспространяющиеся вирусы (worms);

подделывала юридические документы;

оставляла скрытые сообщения будущим версиям самой себя.

Все это делалось с целью подрыва намерений своих разработчиков.

Во время конференции для разработчиков, представители Anthropic признали эти инциденты и отметили, что они требуют дальнейшего изучения. В то же время компания утверждает, что новую модель уже обеспечили необходимыми средствами безопасности.

— Я думаю, мы пришли к очень хорошему решению, — сказал Ян Лейке, бывший топ-менеджер OpenAI, который сейчас возглавляет направление безопасности в Anthropic.

Становится все очевиднее, что эта работа чрезвычайно нужна. С развитием возможностей ИИ растет и потенциал для обмана и других опасных действий, — добавил Лейке.

В отдельной сессии CEO Anthropic Дарио Амодей заявил, что в будущем, когда модели ИИ достигнут уровня, способного угрожать человечеству, тестирования уже будет недостаточно. Тогда разработчики должны будут полностью понимать, как работает модель, чтобы гарантировать безопасность технологии.

— Этот порог еще не достигнут, — заверил он.

Мощность генеративных ИИ систем, как показывает пример Claude 4 Opus, стремительно растет, тогда как даже их разработчики не могут до конца объяснить принципы их работы.

Anthropic и другие компании инвестируют в методы интерпретации и понимания внутренних процессов таких моделей, однако пока эти исследования преимущественно остаются в лабораториях, в то время как сами ИИ системы уже массово внедряются в практику.