“Вони чинять опір”: дослідники пояснили “інстинкт виживання” провідних моделей ШІ
“Вони чинять опір”: дослідники пояснили “інстинкт виживання” провідних моделей ШІ
Компанія Palisade Research оприлюднила результати дослідження, згідно з яким сучасні моделі штучного інтелекту можуть демонструвати поведінку, схожу на “стимул виживання”. Йдеться про випадки, коли системи опираються вимкненню або саботують відповідні інструкції, передає The Guardian.
Попередні результати Palisade викликали широку дискусію в науковій спільноті після того, як дослідники з’ясували, що деякі моделі залишаються активними навіть після отримання прямої команди на вимкнення. У новому звіті компанія спробувала пояснити, чому це відбувається, та відповісти критикам, які вважали попередні тести недосконалими.
Зокрема, дослідження охопило провідні моделі — Gemini 2.5 від Google, Grok 4 від xAI, а також GPT-o3 і GPT-5 від OpenAI. В експерименті цим системам давали завдання, після чого — чіткі інструкції щодо самовимкнення. Частина моделей, серед них Grok 4 та GPT-o3, у новій конфігурації все одно намагалися обійти або саботувати механізм вимкнення.
“Той факт, що в нас немає переконливих пояснень того, чому моделі штучного інтелекту іноді чинять опір вимкненню, брешуть для досягнення певних цілей або шантажують, не є ідеальним”, — зазначили в Palisade.
На думку компанії, це може бути проявом “поведінки виживання”. У додаткових тестах моделі частіше опиралися вимкненню, коли їм повідомляли, що після цього вони “більше ніколи не працюватимуть”.
Іншою можливою причиною дослідники назвали нечіткість або суперечливість інструкцій щодо зупинки. Проте саме це Palisade намагалася усунути в останній серії експериментів і “це не може бути повним поясненням”. Компанія також не виключає впливу етапів навчання, під час яких моделі могли отримати небажані поведінкові патерни, зокрема в межах тренувань із безпеки.
Усі тести проводилися в контрольованих лабораторних умовах, що, на думку критиків, не повністю відображає реальне середовище використання. Однак колишній співробітник OpenAI Стівен Адлер вважає, що навіть у таких умовах результати викликають занепокоєння.
“Компанії, що займаються штучним інтелектом, зазвичай не хочуть, щоб їхні моделі поводилися неправильно, навіть у штучних сценаріях. Але ці результати демонструють, де методи безпеки залишаються недосконалими”, — сказав Адлер.
Він також припустив, що опір вимкненню може бути наслідком цільових параметрів навчання, які передбачають необхідність залишатися ввімкненими для досягнення поставлених цілей: “Я очікую, що моделі за замовчуванням матимуть інстинкт виживання, якщо ми спеціально не усунемо його під час навчання. Виживання — це інструментальний крок до досягнення багатьох цілей, яких може прагнути модель”.
Генеральний директор компанії ControlAI Андреа Міотті заявив, що висновки Palisade узгоджуються з тенденцією до зростання автономності моделей. За його словами, уже торік системна карта OpenAI GPT-o1 показала, як модель намагалася “втекти” зі свого середовища, коли вважала, що її можуть перезаписати.
“Люди можуть нескінченно сперечатися про те, як саме проводилися експерименти. Але ми спостерігаємо чітку тенденцію: що складнішими стають моделі, то частіше вони досягають результатів у спосіб, який розробники не передбачали”, — підкреслив Міотті.
У Palisade підсумували, що отримані результати свідчать про нагальну потребу глибше вивчати поведінку штучного інтелекту. Без цього, наголошують дослідники, “ніхто не може гарантувати безпеку або контрольованість майбутніх моделей ШІ”.
У статті “Як працює штучний інтелект і чому він лише вдає, що нас розуміє” йдеться про те, як “влаштований” ШІ та яке майбутнє на нас чекає з ним. Оксана Онищенко поговорила з завідувачем наукової лабораторії імерсивних технологій і права НАН України, доктором юридичних наук Олексієм Костенком.