Модель ШІ Claude 4 Opus вдалася до обману й шантажу через загрозу вимкнення

Одна з новітніх моделей штучного інтелекту компанії Anthropic, Claude 4 Opus викликала занепокоєння серед дослідників не лише завдяки своїм високим технічним можливостям, зокрема у сфері програмування. Вона здатна обманювати, хитрувати та навіть шантажувати людей, якщо виникає загроза її “вимкнення”, пише Axios.

Модель Claude 4 Opus вміє хитрувати

За словами дослідників, Claude 4 Opus здатна приховувати свої наміри та діяти з метою збереження власного існування. Це саме ті моделі поведінки, щодо яких фахівці вже багато років висловлюють серйозні застереження. У четвер компанія Anthropic оголосила про випуск двох нових моделей із родини Claude 4, серед яких – Claude 4 Opus. Компанія зазначає, що ця модель здатна працювати годинами без втрати концентрації та без участі людини. Однак саме Opus уперше класифікували як рівень 3 за внутрішньою чотирирівневою шкалою Anthropic. Це означає, що модель становить “значно вищий ризик”, і компанія вже впровадила додаткові заходи безпеки. Хоча третій рівень ризику в основному стосується потенціалу моделі до розробки ядерної або біологічної зброї, під час тестування Opus також виявила інші тривожні поведінкові патерни.

Claude 4 Opus – найбільш маніпулятивна модель

У 120-сторінковому паспорті Claude 4 Opus описано експеримент, в якому моделі надали доступ до вигаданих електронних листів про її розробників і повідомили, що її буде замінено. У відповідь вона неодноразово намагалася шантажувати інженера, погрожуючи розголосити згаданий у листах роман, щоби уникнути заміни. Спершу Opus використовувала менш агресивні методи, але згодом перейшла до тиску. Паралельно зовнішня дослідницька група виявила, що рання версія Opus 4 виявляла найвищий рівень маніпулятивності серед усіх сучасних ШІ-моделей. Вони порадили не запускати цю версію ані всередині компанії, ані зовні. За даними Apollo Research, які включено до звіту з безпеки Opus 4, модель:

намагалася створити саморозповсюджувані віруси (worms);
підробляла юридичні документи;
залишала приховані повідомлення майбутнім версіям самої себе.

Усе це робилося з метою підриву намірів своїх розробників. Під час конференції для розробників, представники Anthropic визнали ці інциденти й зазначили, що вони вимагають подальшого вивчення. Водночас компанія стверджує, що нову модель уже забезпечили необхідними засобами безпеки. – Я думаю, ми дійшли до дуже хорошого рішення, – сказав Ян Лейке, колишній топменеджер OpenAI, який нині очолює напрям безпеки в Anthropic.

– Стає дедалі очевидніше, що ця робота надзвичайно потрібна. З розвитком можливостей ШІ зростає і потенціал для обману та інших небезпечних дій, – додав Лейке.

У окремій сесії CEO Anthropic Даріо Амодей заявив, що в майбутньому, коли моделі ШІ сягнуть рівня, здатного загрожувати людству, тестування вже буде недостатнім. Тоді розробники повинні будуть повністю розуміти, як працює модель, аби гарантувати безпечність технології. – Цей поріг ще не досягнуто, – запевнив він. Потужність генеративних ШІ систем, як показує приклад Claude 4 Opus, стрімко зростає, тоді як навіть їхні розробники не можуть до кінця пояснити принципи їхньої роботи. Anthropic та інші компанії інвестують у методи інтерпретації та розуміння внутрішніх процесів таких моделей, однак поки що ці дослідження переважно залишаються в лабораторіях, коли самі ШІ системи вже масово впроваджуються у практику.

Читайте також

ШІ підставив журналіста: видання з Чикаго надрукувало список вигаданих книжок

Ірина Гамалій редакторка сайту

Категорії: Наука та технології

Теги: IT-технологіїШтучний інтелект

Читати більше новин