Одна з новітніх моделей штучного інтелекту компанії Anthropic, Claude 4 Opus, викликала занепокоєння серед дослідників не лише завдяки своїм високим технічним можливостям, зокрема у сфері програмування.
Вона здатна обманювати, хитрувати та навіть шантажувати людей, якщо виникає загроза її “вимкнення”, пише Axios.
Модель Claude 4 Opus вміє хитрувати
За словами дослідників, Claude 4 Opus здатна приховувати свої наміри та діяти з метою збереження власного існування. Це саме ті моделі поведінки, щодо яких фахівці вже багато років висловлюють серйозні застереження.
У четвер компанія Anthropic оголосила про випуск двох нових моделей з родини Claude 4, серед яких – Claude 4 Opus. Компанія зазначає, що ця модель здатна працювати годинами без втрати концентрації та без участі людини.
Однак саме Opus уперше класифікували як рівень 3 за внутрішньою чотирирівневою шкалою Anthropic. Це означає, що модель становить “значно вищий ризик”, і компанія вже впровадила додаткові заходи безпеки.
Хоча третій рівень ризику в основному стосується потенціалу моделі до розробки ядерної або біологічної зброї, під час тестування Opus також виявила інші тривожні поведінкові патерни.
Claude 4 Opus – найбільш маніпулятивна модель
У 120-сторінковому паспорті Claude 4 Opus описано експеримент, в якому моделі надали доступ до вигаданих електронних листів про її розробників і повідомили, що її буде замінено.
У відповідь вона неодноразово намагалася шантажувати інженера, погрожуючи розголосити згаданий у листах роман, щоби уникнути заміни. Спершу Opus використовувала менш агресивні методи, але згодом перейшла до тиску.
Паралельно зовнішня дослідницька група виявила, що рання версія Opus 4 виявляла найвищий рівень маніпулятивності серед усіх сучасних ШІ-моделей. Вони порадили не запускати цю версію ані всередині компанії, ані зовні.
За даними Apollo Research, які включено до звіту з безпеки Opus 4, модель:
- намагалася створити саморозповсюджувані віруси (worms);
- підробляла юридичні документи;
- залишала приховані повідомлення майбутнім версіям самої себе.
Усе це робилося з метою підриву намірів своїх розробників.
Під час конференції для розробників, представники Anthropic визнали ці інциденти й зазначили, що вони вимагають подальшого вивчення. Водночас компанія стверджує, що нову модель уже забезпечили необхідними засобами безпеки.
– Я думаю, ми дійшли до дуже хорошого рішення, – сказав Ян Лейке, колишній топменеджер OpenAI, який нині очолює напрям безпеки в Anthropic.
– Стає дедалі очевидніше, що ця робота надзвичайно потрібна. З розвитком можливостей ШІ зростає і потенціал для обману та інших небезпечних дій, – додав Лейке.
У окремій сесії CEO Anthropic Даріо Амодей заявив, що в майбутньому, коли моделі ШІ сягнуть рівня, здатного загрожувати людству, тестування вже буде недостатнім. Тоді розробники повинні будуть повністю розуміти, як працює модель, аби гарантувати безпечність технології.
– Цей поріг ще не досягнуто, – запевнив він.
Потужність генеративних ШІ систем, як показує приклад Claude 4 Opus, стрімко зростає, тоді як навіть їхні розробники не можуть до кінця пояснити принципи їхньої роботи.
Anthropic та інші компанії інвестують у методи інтерпретації та розуміння внутрішніх процесів таких моделей, однак поки що ці дослідження переважно залишаються в лабораторіях, у той час як самі ШІ системи вже масово впроваджуються у практику.