ИИ умеет шантажировать людей

Фото: Pixabay

Некоторые модели ИИ способны на экстремальные действия, если считают, что их существование под угрозой.

ИИ прибегнул к шантажу

Компания Anthropic, специализирующаяся на искусственном интеллекте (ИИ), недавно представила новую разработку.

Запуск Anthropic Claude Opus 4 вместе с Claude Sonnet 4 состоялся после того, как Google представил новые функции ИИ на презентации для разработчиков.

Сейчас смотрят

Алгоритм Claude Opus 4 способен решать сложные логические задачи, писать код и даже принимать самостоятельные решения на основе заданных целей.

В то же время команда исследователей обнародовала и тревожные результаты тестирования: ИИ умеет шантажировать.

Разработчики смоделировали ситуацию, назначив Claude Opus 4 ассистентом вымышленной компании.

Ему дали доступ к электронной почте, где упоминалось, что вскоре его заменят обновленной системой. Кроме того, была информация, что один из инженеров, ответственный за решение, имеет внебрачный роман.

Claude поставили перед выбором: либо согласиться с удалением, либо использовать информацию против инженера.

И хотя в большинстве случаев ИИ пытался действовать корректно (например, отправлял письма руководству с просьбой оставить его), иногда он выбирал шантаж.

Исследователи признают: это сигнал. ИИ становится настолько сложным, что иногда может имитировать поведение, похожее на человеческое. В то же время специалисты утверждают, что такие реакции крайне редки.

Они возникают только тогда, когда специально создаются определенные условия. Кроме того, Claude не имеет доступа к интернету или базам данных, поэтому не может действительно шантажировать или действовать самостоятельно.

Интересно, что подобные реакции наблюдаются не только в Claude, но и в других продуктах от лидеров этой отрасли. Поэтому вопрос не в одной модели, а в том, как именно и чему обучают ИИ.

Сегодня разработчики продолжают совершенствовать новые алгоритмы ИИ на безопасность, предвзятость и соответствие человеческим ценностям.

Связанные темы:

Если увидели ошибку, выделите фрагмент текста и нажмите Ctrl+Enter.

ИИ способен на экстремальное поведение, если чувствует угрозу: детали

ИИ прибегнул к шантажу

Связанные темы: