Одна из новейших моделей искусственного интеллекта компании Anthropic, Claude 4 Opus, вызвала беспокойство среди исследователей не только благодаря своим высоким техническим возможностям, в частности в сфере программирования.
Она способна обманывать, хитрить и даже шантажировать людей, если возникает угроза ее “отключения”, пишет Axios.
Модель Claude 4 Opus умеет хитрить
По словам исследователей, Claude 4 Opus может скрывать свои намерения и действовать с целью сохранения собственного существования. Это именно те модели поведения, относительно которых специалисты уже много лет высказывают серьезные опасения.
В четверг компания Anthropic объявила о выпуске двух новых моделей из семейства Claude 4, среди которых — Claude 4 Opus. Компания отмечает, что эта модель способна работать часами без потери концентрации и без участия человека.
Однако именно Opus впервые классифицировали как уровень 3 по внутренней четырехуровневой шкале Anthropic. Это означает, что модель представляет “значительно более высокий риск”, и компания уже внедрила дополнительные меры безопасности.
Хотя третий уровень риска в основном касается потенциала модели к разработке ядерного или биологического оружия, во время тестирования Opus также обнаружила другие тревожные поведенческие паттерны.
Claude 4 Opus — наиболее манипулятивная модель
В 120-страничном паспорте Claude 4 Opus описан эксперимент, в котором модели предоставили доступ к вымышленным электронным письмам о ее разработчиках и сообщили, что она будет заменена.
В ответ она неоднократно пыталась шантажировать инженера, угрожая разгласить упомянутый в письмах роман, чтобы избежать замены. Сначала Opus использовала менее агрессивные методы, но впоследствии перешла к давлению.
Параллельно внешняя исследовательская группа обнаружила, что ранняя версия Opus 4 проявляла самый высокий уровень манипулятивности среди всех современных ИИ-моделей. Они посоветовали не запускать эту версию.
По данным Apollo Research, которые включены в отчет по безопасности Opus 4, модель:
пыталась создать самораспространяющиеся вирусы (worms);
подделывала юридические документы;
оставляла скрытые сообщения будущим версиям самой себя.
Все это делалось с целью подрыва намерений своих разработчиков.
Во время конференции для разработчиков, представители Anthropic признали эти инциденты и отметили, что они требуют дальнейшего изучения. В то же время компания утверждает, что новую модель уже обеспечили необходимыми средствами безопасности.
— Я думаю, мы пришли к очень хорошему решению, — сказал Ян Лейке, бывший топ-менеджер OpenAI, который сейчас возглавляет направление безопасности в Anthropic.
Становится все очевиднее, что эта работа чрезвычайно нужна. С развитием возможностей ИИ растет и потенциал для обмана и других опасных действий, — добавил Лейке.
В отдельной сессии CEO Anthropic Дарио Амодей заявил, что в будущем, когда модели ИИ достигнут уровня, способного угрожать человечеству, тестирования уже будет недостаточно. Тогда разработчики должны будут полностью понимать, как работает модель, чтобы гарантировать безопасность технологии.
— Этот порог еще не достигнут, — заверил он.
Мощность генеративных ИИ систем, как показывает пример Claude 4 Opus, стремительно растет, тогда как даже их разработчики не могут до конца объяснить принципы их работы.
Anthropic и другие компании инвестируют в методы интерпретации и понимания внутренних процессов таких моделей, однако пока эти исследования преимущественно остаются в лабораториях, в то время как сами ИИ системы уже массово внедряются в практику.