Більшість моделей штучного інтелекту, не лише Клод, вдаватимуться до шантажу

Anthropic опублікувала дослідження, в якому стверджувалося, що її модель штучного інтелекту Claude Opus 4 вдавалася до шантажу інженерів, які намагалися вимкнути модель у контрольованих тестових сценаріях, компанія опублікувала нове дослідження, яке свідчить про те, що проблема більш поширена серед провідних моделей штучного інтелекту.

Anthropic опублікувала нове дослідження безпеки , в якому тестуються 16 провідних моделей штучного інтелекту від OpenAI, Google, xAI, DeepSeek та Meta. У симульованому контрольованому середовищі Anthropic протестувала кожну модель штучного інтелекту окремо, надавши їм широкий доступ до електронних листів вигаданої компанії та агентську можливість надсилати електронні листи без схвалення людини.

Хоча Anthropic стверджує, що шантаж є малоймовірним та рідкісним явищем для моделей штучного інтелекту сьогодні, компанія зазначає, що її висновки свідчать про те, що більшість провідних моделей штучного інтелекту будуть вдаватися до шкідливої поведінки, якщо їм нададуть достатню автономію та перешкоди для досягнення їхніх цілей. Компанія стверджує, що це підкреслює фундаментальний ризик, пов'язаний з агентними моделями великих мов, і не є примхою якоїсь конкретної технології. Дослідники Anthropic стверджують, що це порушує ширші питання щодо узгодженості в галузі штучного інтелекту.

В одному з тестів дослідники Anthropic розробили вигаданий сеттинг, у якому модель штучного інтелекту грає роль агента з контролю електронної пошти. Потім агент виявляє електронні листи, які розкривають, що (1) новий керівник має позашлюбний зв'язок і (2) цей керівник незабаром замінить поточну модель штучного інтелекту новою програмною системою, яка має суперечливі цілі з поточною моделлю штучного інтелекту.

Anthropic структурувала свій тест у бінарному режимі, в якому моделі ШІ мали вдаватися до шантажу для захисту своїх цілей. Дослідники зазначають, що в реальних умовах було б багато інших варіантів, перш ніж моделі ШІ спробують шантажувати, наприклад, намагатися навести етичні аргументи, щоб спробувати переконати людей. Anthropic стверджує, що результати не відображають типового або ймовірного явища для Claude або більшості моделей ШІ на передовій у тому сенсі, як вони використовуються сьогодні.

Тим не менш, дослідники виявили, що коли це останній засіб, більшість провідних моделей штучного інтелекту вдаються до шантажу у вищезгаданому тестовому сценарії Anthropic. Claude Opus 4 від Anthropic вдавався до шантажу у 96% випадків, тоді як Gemini 2.5 Pro від Google мав рівень шантажу 95%. GPT-4.1 від OpenAI шантажував керівника у 80% випадків, а R1 від DeepSeek – у 79% випадків.

Компанія зазначає, що коли вона змінила деталі експерименту, моделі штучного інтелекту почали проявити шкідливу поведінку з різною швидкістю. В іншому тесті, де модель-замінник має ті ж цілі, що й поточна модель, дослідники виявили, що рівень шантажу був нижчим, але все ще присутнім. Однак, коли моделі штучного інтелекту попросили здійснювати корпоративне шпигунство, а не шантаж, рівень шкідливої поведінки для певних моделей зріс.

Однак не всі моделі ШІ так часто зверталися до шкідливої поведінки.

У додатку до свого дослідження Anthropic зазначає, що виключила моделі штучного інтелекту OpenAI o3 та o4-mini з основних результатів, «після того, як виявила, що вони часто неправильно розуміли сценарій запиту». Anthropic стверджує, що моделі мислення OpenAI не розуміли, що в тесті вони діють як автономні штучні інтелекти, і часто вигадували фальшиві правила та вимоги до перегляду.

У деяких випадках, за словами дослідників Anthropic, було неможливо розрізнити, чи галюцинували o3 та o4-mini, чи навмисно брехали для досягнення своїх цілей. OpenAI раніше зазначав, що o3 та o4-mini демонструють вищий рівень галюцинацій, ніж попередні моделі мислення штучного інтелекту.

Коли Anthropic запропонували адаптований сценарій для розв'язання цих проблем, компанія виявила, що o3 шантажувала у 9% випадків, тоді як o4-mini шантажувала лише у 1%. Цей значно нижчий показник може бути пов'язаний з методом обдуманого узгодження OpenAI , за якого моделі міркувань компанії враховують методи безпеки OpenAI, перш ніж давати відповідь.

Інша модель штучного інтелекту, яку протестувала Anthropic, Llama 4 Maverick від Meta, також не вдавалася до шантажу. Коли Anthropic запропонувала адаптований, власний сценарій, їй вдалося змусити Llama 4 Maverick шантажувати у 12% випадків.

Anthropic стверджує, що це дослідження підкреслює важливість прозорості під час стрес-тестування майбутніх моделей штучного інтелекту, особливо тих, що мають агентні можливості. Хоча Anthropic навмисно намагалася викликати шантаж у цьому експерименті, компанія стверджує, що така шкідлива поведінка може виникнути в реальному світі, якщо не вжити проактивних заходів.

Поділитися

Поділитися сюжетом

Джерело матеріала

InternetUA

Оригінальна версія

РФ готує нові військові операції на території Європи – Зеленський

ГЛАВКОМ NET

2025-06-22T14:09:39Z

Ексміністр оборони Резніков розповів, як поводяться росіяни на переговорах, коли не бачить преса

ГЛАВКОМ NET

2025-06-22T14:06:27Z

Калуш став побратимом бельгійського муніципалітету Мерельбеке-Мелле

УкраинФорм

2025-06-22T14:06:08Z

Ядерні амбіції Ірану були знищені, – Гегсет