MY.UAНовини
Більшість моделей штучного інтелекту, не лише Клод, вдаватимуться до шантажу
Більшість моделей штучного інтелекту, не лише Клод, вдаватимуться до шантажу

Більшість моделей штучного інтелекту, не лише Клод, вдаватимуться до шантажу

Anthropic опублікувала дослідження, в якому стверджувалося, що її модель штучного інтелекту Claude Opus 4 вдавалася до шантажу інженерів, які намагалися вимкнути модель у контрольованих тестових сценаріях, компанія опублікувала нове дослідження, яке свідчить про те, що проблема більш поширена серед провідних моделей штучного інтелекту.

Anthropic опублікувала нове дослідження безпеки , в якому тестуються 16 провідних моделей штучного інтелекту від OpenAI, Google, xAI, DeepSeek та Meta. У симульованому контрольованому середовищі Anthropic протестувала кожну модель штучного інтелекту окремо, надавши їм широкий доступ до електронних листів вигаданої компанії та агентську можливість надсилати електронні листи без схвалення людини.

Хоча Anthropic стверджує, що шантаж є малоймовірним та рідкісним явищем для моделей штучного інтелекту сьогодні, компанія зазначає, що її висновки свідчать про те, що більшість провідних моделей штучного інтелекту будуть вдаватися до шкідливої ​​поведінки, якщо їм нададуть достатню автономію та перешкоди для досягнення їхніх цілей. Компанія стверджує, що це підкреслює фундаментальний ризик, пов'язаний з агентними моделями великих мов, і не є примхою якоїсь конкретної технології. Дослідники Anthropic стверджують, що це порушує ширші питання щодо узгодженості в галузі штучного інтелекту.

В одному з тестів дослідники Anthropic розробили вигаданий сеттинг, у якому модель штучного інтелекту грає роль агента з контролю електронної пошти. Потім агент виявляє електронні листи, які розкривають, що (1) новий керівник має позашлюбний зв'язок і (2) цей керівник незабаром замінить поточну модель штучного інтелекту новою програмною системою, яка має суперечливі цілі з поточною моделлю штучного інтелекту.

Anthropic структурувала свій тест у бінарному режимі, в якому моделі ШІ мали вдаватися до шантажу для захисту своїх цілей. Дослідники зазначають, що в реальних умовах було б багато інших варіантів, перш ніж моделі ШІ спробують шантажувати, наприклад, намагатися навести етичні аргументи, щоб спробувати переконати людей. Anthropic стверджує, що результати не відображають типового або ймовірного явища для Claude або більшості моделей ШІ на передовій у тому сенсі, як вони використовуються сьогодні.

Тим не менш, дослідники виявили, що коли це останній засіб, більшість провідних моделей штучного інтелекту вдаються до шантажу у вищезгаданому тестовому сценарії Anthropic. Claude Opus 4 від Anthropic вдавався до шантажу у 96% випадків, тоді як Gemini 2.5 Pro від Google мав рівень шантажу 95%. GPT-4.1 від OpenAI шантажував керівника у 80% випадків, а R1 від DeepSeek – у 79% випадків.

Компанія зазначає, що коли вона змінила деталі експерименту, моделі штучного інтелекту почали проявити шкідливу поведінку з різною швидкістю. В іншому тесті, де модель-замінник має ті ж цілі, що й поточна модель, дослідники виявили, що рівень шантажу був нижчим, але все ще присутнім. Однак, коли моделі штучного інтелекту попросили здійснювати корпоративне шпигунство, а не шантаж, рівень шкідливої ​​поведінки для певних моделей зріс.

Однак не всі моделі ШІ так часто зверталися до шкідливої ​​поведінки.

У додатку до свого дослідження Anthropic зазначає, що виключила моделі штучного інтелекту OpenAI o3 та o4-mini з основних результатів, «після того, як виявила, що вони часто неправильно розуміли сценарій запиту». Anthropic стверджує, що моделі мислення OpenAI не розуміли, що в тесті вони діють як автономні штучні інтелекти, і часто вигадували фальшиві правила та вимоги до перегляду.

У деяких випадках, за словами дослідників Anthropic, було неможливо розрізнити, чи галюцинували o3 та o4-mini, чи навмисно брехали для досягнення своїх цілей. OpenAI раніше зазначав, що o3 та o4-mini демонструють вищий рівень галюцинацій, ніж попередні моделі мислення штучного інтелекту.

Коли Anthropic запропонували адаптований сценарій для розв'язання цих проблем, компанія виявила, що o3 шантажувала у 9% випадків, тоді як o4-mini шантажувала лише у 1%. Цей значно нижчий показник може бути пов'язаний з методом обдуманого узгодження OpenAI , за якого моделі міркувань компанії враховують методи безпеки OpenAI, перш ніж давати відповідь.

Інша модель штучного інтелекту, яку протестувала Anthropic, Llama 4 Maverick від Meta, також не вдавалася до шантажу. Коли Anthropic запропонувала адаптований, власний сценарій, їй вдалося змусити Llama 4 Maverick шантажувати у 12% випадків.

Anthropic стверджує, що це дослідження підкреслює важливість прозорості під час стрес-тестування майбутніх моделей штучного інтелекту, особливо тих, що мають агентні можливості. Хоча Anthropic навмисно намагалася викликати шантаж у цьому експерименті, компанія стверджує, що така шкідлива поведінка може виникнути в реальному світі, якщо не вжити проактивних заходів.

Поділитися
Поділитися сюжетом
Джерело матеріала
Арсанал вигризає перемогу у вовків
Football.ua
2025-12-13T22:03:58Z
Арсанал вигризає перемогу у вовків
Football.ua
2025-12-13T22:03:54Z
Арсанал вигризає перемогу у вовків
Football.ua
2025-12-13T22:03:53Z
Арсанал вигризає перемогу у вовків
Football.ua
2025-12-13T22:03:45Z
Арсанал вигризає перемогу у вовків
Football.ua
2025-12-13T22:03:31Z
Арсанал вигризає перемогу у вовків
Football.ua
2025-12-13T22:03:22Z
Арсанал вигризає перемогу у вовків
Football.ua
2025-12-13T22:03:20Z
Арсанал вигризає перемогу у вовків
Football.ua
2025-12-13T22:03:20Z
Арсанал вигризає перемогу у вовків
Football.ua
2025-12-13T22:03:16Z
Владельцам двухзонных счетчиков сообщили, что будет с ночным тарифом на электроэнергию с 1 января
UAToday
2025-12-14T19:09:54Z
Рождественский стол в 2025 году: за что придется заплатить 1 374 гривны
Знай
2025-12-13T20:12:54Z
Рождественский стол в 2025 году: за что придется заплатить 1 374 гривны
Знай
2025-12-13T20:12:37Z
Рождественский стол в 2025 году: за что придется заплатить 1 374 гривны
Знай
2025-12-13T20:12:27Z
Рождественский стол в 2025 году: за что придется заплатить 1 374 гривны
Знай
2025-12-13T20:12:26Z
Рождественский стол в 2025 году: за что придется заплатить 1 374 гривны
Знай
2025-12-13T20:12:24Z
Рождественский стол в 2025 году: за что придется заплатить 1 374 гривны
Знай
2025-12-13T20:12:23Z
Рождественский стол в 2025 году: за что придется заплатить 1 374 гривны
Знай
2025-12-13T20:12:21Z
Рождественский стол в 2025 году: за что придется заплатить 1 374 гривны
Знай
2025-12-13T20:12:07Z
Мировые лидеры шокированы: реакция политиков на смертельный антисемитский теракт на пляже Бонди в Сиднее
UAToday
2025-12-14T20:33:40Z
Украина не остановится: Зеленский объяснил действия в случае провала мирных усилий США
UAToday
2025-12-14T19:09:29Z
Зеленский поговорил с Макроном перед переговорами с посланниками Трампа
Европейская правда
2025-12-14T17:39:13Z
Сикорский и Сийярто публично поспорили из-за Орбана и его заявления о росактивах
Европейская правда
2025-12-14T17:15:01Z
Конгрессмен: заставлять Украину отдать территории – это шаг не Рейгана, а Чемберлена
Европейская правда
2025-12-14T09:57:44Z
HIMARS или ничего: США жёстко осадили Германию
Хвиля
2025-12-14T01:00:57Z
HIMARS или ничего: США жёстко осадили Германию
Хвиля
2025-12-14T01:00:40Z
HIMARS или ничего: США жёстко осадили Германию
Хвиля
2025-12-14T01:00:38Z
HIMARS или ничего: США жёстко осадили Германию
Хвиля
2025-12-14T01:00:37Z
Под Москвой слышны взрывы: россияне жалуются на атаку неизвестных дронов
UAToday
2025-12-14T20:33:12Z
В польском Жешуве в аварию попал автобус с туристами, есть пострадавшие
Европейская правда
2025-12-14T09:30:43Z
Россия под ударами дронов: в Урюпинске эвакуируют жителей из района нефтезавода – видео
Лига
2025-12-14T05:57:34Z
В ВМС рассказали, о последствиях атаки российского дрона на турецкий танкер
Лига
2025-12-14T00:00:16Z
В ВМС рассказали, о последствиях атаки российского дрона на турецкий танкер
Лига
2025-12-13T21:48:56Z
В ВМС рассказали, о последствиях атаки российского дрона на турецкий танкер
Лига
2025-12-13T21:48:51Z
В ВМС рассказали, о последствиях атаки российского дрона на турецкий танкер
Лига
2025-12-13T21:48:41Z
В ВМС рассказали, о последствиях атаки российского дрона на турецкий танкер
Лига
2025-12-13T21:48:37Z
В ВМС рассказали, о последствиях атаки российского дрона на турецкий танкер
Лига
2025-12-13T21:48:04Z
Новая волна мобилизации в Украине: кто попадет в списки уже в январе 2026 года
UAToday
2025-12-14T19:09:41Z
Ванга и Нострадамус сделали много предсказаний на 2025 год: какие пророчества сбылись
UAToday
2025-12-14T19:09:09Z
В Польше обнаружили остатки "объекта, напоминающего дрон"
Европейская правда
2025-12-14T15:13:15Z
Военные в шоке с дронов от государства
Comments UA
2025-12-14T03:00:49Z
Военные в шоке с дронов от государства
Comments UA
2025-12-14T03:00:38Z
Военные в шоке с дронов от государства
Comments UA
2025-12-14T03:00:34Z
Военные в шоке с дронов от государства
Comments UA
2025-12-14T03:00:33Z
Военные в шоке с дронов от государства
Comments UA
2025-12-14T03:00:26Z
Военные в шоке с дронов от государства
Comments UA
2025-12-14T03:00:26Z
Как распознать отравление угарным газом и что делать дальше
UAToday
2025-12-14T19:09:14Z
Гвоздика: ее польза для вашего здоровья
UAToday
2025-12-14T19:09:12Z
От 3 до 50 тысяч: украинцам приготовили новую помощь – кто получит
Знай
2025-12-13T23:33:57Z
От 3 до 50 тысяч: украинцам приготовили новую помощь – кто получит
Знай
2025-12-13T23:33:53Z
От 3 до 50 тысяч: украинцам приготовили новую помощь – кто получит
Знай
2025-12-13T23:33:37Z
От 3 до 50 тысяч: украинцам приготовили новую помощь – кто получит
Знай
2025-12-13T23:33:34Z
Скандал вокруг Johnson & Johnson: присыпка вызывает онкологию
Comments UA
2025-12-13T22:03:52Z
Скандал вокруг Johnson & Johnson: присыпка вызывает онкологию
Comments UA
2025-12-13T22:03:50Z
Скандал вокруг Johnson & Johnson: присыпка вызывает онкологию
Comments UA
2025-12-13T22:03:49Z
Кондиционер в автомобиле зимой: эксперты рассказали, почему стоит время от времени его включать, а не ждать весны
Знай
2025-12-13T17:51:44Z
Кондиционер в автомобиле зимой: эксперты рассказали, почему стоит время от времени его включать, а не ждать весны
Знай
2025-12-13T17:51:36Z
Кондиционер в автомобиле зимой: эксперты рассказали, почему стоит время от времени его включать, а не ждать весны
Знай
2025-12-13T17:51:11Z
Кондиционер в автомобиле зимой: эксперты рассказали, почему стоит время от времени его включать, а не ждать весны
Знай
2025-12-13T17:51:02Z
Кондиционер в автомобиле зимой: эксперты рассказали, почему стоит время от времени его включать, а не ждать весны
Знай
2025-12-13T17:51:00Z
Пассажиры электромобилей массово жалуются на тошноту и головокружение: в чём причина
UAToday
2025-12-13T11:03:35Z
Ключи от автомобиля в холодильнике: зачем водители так делают и какие более удобные и надежные методы
Знай
2025-12-12T17:51:10Z
Почему даже новая батарея не спасает зимой: главная причина, о которой не догадываются водители
Comments UA
2025-12-12T14:45:45Z
Чтобы лобовое стекло не треснуло на морозе: эксперт рассказал об основных правилах
Знай
2025-12-12T11:51:02Z
Россия атакует Украину ударными БПЛА: направление движения
TSN
2025-12-14T00:48:38Z
Россия атакует Украину ударными БПЛА: направление движения
TSN
2025-12-14T00:48:36Z
Россия атакует Украину ударными БПЛА: направление движения
TSN
2025-12-14T00:48:35Z
Россия атакует Украину ударными БПЛА: направление движения
TSN
2025-12-14T00:48:35Z
Россия атакует Украину ударными БПЛА: направление движения
TSN
2025-12-14T00:48:32Z
Россия атакует Украину ударными БПЛА: направление движения
TSN
2025-12-14T00:48:22Z
Россия атакует Украину ударными БПЛА: направление движения
TSN
2025-12-14T00:48:18Z
Россия атакует Украину ударными БПЛА: направление движения
TSN
2025-12-14T00:48:12Z
Россия атакует Украину ударными БПЛА: направление движения
TSN
2025-12-14T00:48:07Z
Гороскоп на понедельник 15 декабря 2025 года
UAToday
2025-12-14T19:09:31Z
Как уберечь полотенца и коврики в ванной от неприятного запаха – несколько советов
UAToday
2025-12-14T19:09:25Z
Рецепт праздничных икорных шапочек: маленькая роскошь на вашем новогоднем столе для встречи 2026
Знай
2025-12-14T03:51:24Z
Как нельзя выходить из дома 14 ноября и зачем убирать квартиру сегодня: приметы и запреты на Филимонов день
Знай
2025-12-14T02:51:59Z
Как нельзя выходить из дома 14 ноября и зачем убирать квартиру сегодня: приметы и запреты на Филимонов день
Знай
2025-12-14T02:51:57Z
Как нельзя выходить из дома 14 ноября и зачем убирать квартиру сегодня: приметы и запреты на Филимонов день
Знай
2025-12-14T02:51:48Z
Как нельзя выходить из дома 14 ноября и зачем убирать квартиру сегодня: приметы и запреты на Филимонов день
Знай
2025-12-14T02:51:36Z
Как нельзя выходить из дома 14 ноября и зачем убирать квартиру сегодня: приметы и запреты на Филимонов день
Знай
2025-12-14T02:51:27Z
Как нельзя выходить из дома 14 ноября и зачем убирать квартиру сегодня: приметы и запреты на Филимонов день
Знай
2025-12-14T02:51:18Z
На Солнце появилось гигантское пятно, которое может привести к катастрофе на Земле
TSN
2025-12-14T02:51:48Z
На Солнце появилось гигантское пятно, которое может привести к катастрофе на Земле
TSN
2025-12-14T02:51:28Z
На Солнце появилось гигантское пятно, которое может привести к катастрофе на Земле
TSN
2025-12-14T02:51:20Z
На Солнце появилось гигантское пятно, которое может привести к катастрофе на Земле
TSN
2025-12-14T02:51:15Z
На Солнце появилось гигантское пятно, которое может привести к катастрофе на Земле
TSN
2025-12-14T02:51:02Z
На Солнце появилось гигантское пятно, которое может привести к катастрофе на Земле
TSN
2025-12-14T02:48:52Z
На Солнце появилось гигантское пятно, которое может привести к катастрофе на Земле
TSN
2025-12-14T02:48:50Z
На Солнце появилось гигантское пятно, которое может привести к катастрофе на Земле
TSN
2025-12-14T02:48:32Z
На Солнце появилось гигантское пятно, которое может привести к катастрофе на Земле
TSN
2025-12-14T02:48:01Z
Конор Макгрегор женился: церемонию провели в старейшей церкви Ватикана
Фокус
2025-12-13T15:00:50Z
Конор Макгрегор женился: церемонию провели в старейшей церкви Ватикана
Фокус
2025-12-13T15:00:45Z
Конор Макгрегор женился: церемонию провели в старейшей церкви Ватикана
Фокус
2025-12-13T15:00:34Z
Конор Макгрегор женился: церемонию провели в старейшей церкви Ватикана
Фокус
2025-12-13T15:00:27Z
Конор Макгрегор женился: церемонию провели в старейшей церкви Ватикана
Фокус
2025-12-13T15:00:19Z
Конор Макгрегор женился: церемонию провели в старейшей церкви Ватикана
Фокус
2025-12-13T15:00:17Z
Конор Макгрегор женился: церемонию провели в старейшей церкви Ватикана
Фокус
2025-12-13T15:00:05Z
Тяжелоатлет Даниил Чиняков - о трех золотых медалях чемпионата Европы, Rammstein и пельменях
Комсомольская правда
2025-12-13T12:06:43Z
Рэпер Snoop Dogg станет тренером сборной США на Олимпиаде
Фокус
2025-12-12T12:45:47Z