ИИ способен на экстремальное поведение, если чувствует угрозу: детали

Некоторые модели ИИ способны на экстремальные действия, если считают, что их существование под угрозой.
ИИ прибегнул к шантажу
Компания Anthropic, специализирующаяся на искусственном интеллекте (ИИ), недавно представила новую разработку.
Запуск Anthropic Claude Opus 4 вместе с Claude Sonnet 4 состоялся после того, как Google представил новые функции ИИ на презентации для разработчиков.
Алгоритм Claude Opus 4 способен решать сложные логические задачи, писать код и даже принимать самостоятельные решения на основе заданных целей.
В то же время команда исследователей обнародовала и тревожные результаты тестирования: ИИ умеет шантажировать.
Разработчики смоделировали ситуацию, назначив Claude Opus 4 ассистентом вымышленной компании.
Ему дали доступ к электронной почте, где упоминалось, что вскоре его заменят обновленной системой. Кроме того, была информация, что один из инженеров, ответственный за решение, имеет внебрачный роман.
Claude поставили перед выбором: либо согласиться с удалением, либо использовать информацию против инженера.
И хотя в большинстве случаев ИИ пытался действовать корректно (например, отправлял письма руководству с просьбой оставить его), иногда он выбирал шантаж.
Исследователи признают: это сигнал. ИИ становится настолько сложным, что иногда может имитировать поведение, похожее на человеческое. В то же время специалисты утверждают, что такие реакции крайне редки.
Они возникают только тогда, когда специально создаются определенные условия. Кроме того, Claude не имеет доступа к интернету или базам данных, поэтому не может действительно шантажировать или действовать самостоятельно.
Интересно, что подобные реакции наблюдаются не только в Claude, но и в других продуктах от лидеров этой отрасли. Поэтому вопрос не в одной модели, а в том, как именно и чему обучают ИИ.
Сегодня разработчики продолжают совершенствовать новые алгоритмы ИИ на безопасность, предвзятость и соответствие человеческим ценностям.