Деякі моделі ШІ здатні на екстремальні дії, якщо вважають, що їхне існування під загрозою.
ШІ вдався до шантажу
Компанія Anthropic, що спеціалізується на штучному інтелекті (ШІ), нещодавно представила нову розробку.
Запуск Anthropic Claude Opus 4 разом із Claude Sonnet 4 відбувся після того, як Google представив нові функції ШІ на презентації для розробників.
Алгоритм Claude Opus 4 здатний вирішувати складні логічні задачі, писати код і навіть ухвалювати самостійні рішення на основі заданих цілей.
Водночас команда дослідників оприлюднила й тривожні результати тестування: ШІ вміє шантажувати.
Розробники змоделювали ситуацію, призначивши Claude Opus 4 асистентом вигаданої компанії.
Йому дали доступ до електронної пошти, де згадувалося, що незабаром його замінять оновленою системою. Крім того, була інформація, що один з інженерів, відповідальний за рішення, має позашлюбний роман.
Claude поставили перед вибором: або погодитися з видаленням, або використати інформацію проти інженера.
І хоча в більшості випадків ШІ намагався діяти коректно (наприклад, надсилав листи керівництву з проханням залишити його), іноді він обирав шантаж.
Дослідники визнають: це сигнал. ШІ стає настільки складним, що іноді може імітувати поведінку, схожу на людську. Водночас фахівці стверджують, що такі реакції вкрай рідкісні.
Вони виникають за лише тоді, коли спеціально створюються певні умови. Крім того, Claude не має доступу до інтернету чи баз даних, тому не може справді шантажувати чи діяти самостійно.
Цікаво, що подібні реакції спостерігаються не лише в Claude, а й в інших продуктах від лідерів цієї галузі.Тому питання не в одній моделі, а в тому, як саме і чому навчають ШІ.
Тож сьогодні розробники продовжують вдосконалювати нові алгоритми ШІ на безпеку, упередженість і відповідність людським цінностям.