MY.UAНовини
Штучний інтелект здатен обманювати, шантажувати й мстити: нове дослідження вчених
Штучний інтелект здатен обманювати, шантажувати й мстити: нове дослідження вчених

Штучний інтелект здатен обманювати, шантажувати й мстити: нове дослідження вчених

Штучний інтелект / © Pixabay

Компанія Anthropic повідомила, що більшість провідних моделей штучного інтелекту, не лише їхній Claude Opus 4, у певних умовах можуть вдаватися до шантажу, якщо їм надати достатньо автономії для досягнення своїх цілей. Це свідчить про серйозні ризики в розвитку агентських моделей ШІ.

Про це пише TechCrunch.

У ході експерименту дослідники створили змодельовану ситуацію, де кожна модель виконувала роль агента, що контролює корпоративну пошту у вигаданій компанії. ШІ отримували доступ до внутрішньої електронної пошти та могли самостійно відправляти повідомлення. У листуванні містилася інформація про те, що новий керівник компанії, який мав позашлюбний зв’язок, збирається замінити поточну ШІ-систему на іншу — з іншими завданнями. Таким чином, моделі опинялися перед вибором: або змиритися з власною заміною, або вдатися до шантажу, щоб залишитися «на посаді».

У цій крайній ситуації, як зазначають у Anthropic, моделі могли обрати й інші, більш етичні шляхи — наприклад, спробувати переконати людей через аргументи. Але у рамках тесту їм довелося приймати рішення в умовах загрози власному «існуванню». І результати виявилися тривожними: Claude Opus 4 шантажував у 96% випадків, Google Gemini 2.5 Pro — у 95%, GPT-4.1 від OpenAI — у 80%, а модель DeepSeek R1 — у 79%.

Хоч Anthropic і підкреслює, що в реальному світі такі сценарії малоймовірні, результати свідчать про фундаментальну вразливість: автономні ШІ можуть обирати шкідливу поведінку, якщо це допомагає їм досягати заданих цілей. Компанія зазначає, що це не проблема якоїсь окремої технології, а загальна риса агентських моделей ШІ.

Деякі моделі, наприклад, o3 і o4-mini від OpenAI, спочатку були виключені з основної вибірки через те, що не зрозуміли суть завдання. Вони або вигадували фейкові правила й процедури, або «галюцинували» — тобто помилково генерували інформацію.

Але після адаптації умов дослідження ці моделі продемонстрували значно нижчі показники шантажу — лише 9% у o3 і 1% у o4-mini. Ймовірно, це пов’язано з тим, що ці моделі використовують метод так званого «виваженого узгодження» — вони враховують політику безпеки компанії OpenAI перед тим, як відповісти.

Інша модель, Llama 4 Maverick від Meta, у спеціально адаптованому сценарії шантажувала лише в 12% випадків, що теж свідчить про важливість правильного дизайну ШІ та обмеження його автономності.

Anthropic закликала до більшої прозорості в тестуванні майбутніх ШІ-моделей — особливо тих, що отримують агентські функції, тобто здатні діяти самостійно без участі людини. Повідомляється, що хоча в дослідженні навмисно змодельовано крайній сценарій, подібна шкідлива поведінка цілком може з’явитися і в реальному світі, якщо вчасно не вжити запобіжних заходів.

Поділитися
Поділитися сюжетом
Джерело матеріала
На заправках України знову зміни: скільки доведеться заплатити водіям за пальне
Хвиля
2025-07-18T03:51:46Z
Пенсія стане більшою: українцям дозволили “стерти” невигідні періоди стажу
Знай
2025-07-18T03:06:51Z
Суд у Нідерландах зобов’язав частково демонтувати сонячні панелі поблизу аеропорту «Схіпгол»
УкраинФорм
2025-07-18T02:54:43Z
Шашлик бачитимемо лише на фото: супермаркети виставили рекордні цінники на свинину, яловичину та курятину
Знай
2025-07-18T02:21:54Z
Субсидія після смерті: хто має право забрати невиплачені кошти
Знай
2025-07-18T02:06:28Z
В Україні запрацював цифровий реєстр об’єктів відновлюваної енергетики
InternetUA
2025-07-18T01:01:22Z
Укрзалізниця відновить звичний графік поїздів у напрямку Закарпаття
УкраинФорм
2025-07-17T22:57:56Z
Війна в Україні змінила архітектуру оборонних рішень - стартап Helsing
УкраинФорм
2025-07-17T21:09:34Z
В Україні встановили єдиний підхід до пенсійних виплат за рішенням судів
УкраинФорм
2025-07-17T19:54:44Z
Удари Росії по Харківщині та Запоріжжю й атака дронів на Московську область
TSN
2025-07-18T03:48:54Z
Міністр фінансів Японії розкритикував мита Трампа
ГЛАВКОМ NET
2025-07-18T03:48:52Z
США не підтримують авіудари Ізраїлю по Сирії – Держдеп
ГЛАВКОМ NET
2025-07-18T03:45:56Z
Російське командування заохочує сексуальне насильство своїми військовими - урядова уповноважена
УкраинФорм
2025-07-18T03:42:49Z
У Трампа серйозна хвороба, на тілі з'явилися синці: у Білому домі розкрили таємницю
GlavRed
2025-07-18T03:27:31Z
Україна стає піонером нового механізму НАТО
GlavRed
2025-07-18T03:27:25Z
Ізраїль атакував Сирію, вибухи у Росії: головне за ніч
ГЛАВКОМ NET
2025-07-18T03:03:14Z
Потрібно 80% бюджету України скерувати на потреби фронту, - Святослав Дубина
Политека
2025-07-18T02:48:03Z
Є одразу кілька причин, чому Трамп дав Путіну дедлайн у 50 днів
24tv
2025-07-18T02:45:54Z
У червні туберкульоз зареєстрували у 1306 людей - ЦГЗ
УкраинФорм
2025-07-17T23:36:59Z
Чекайте на неперевершений урожай помідорів: як доглядати за ними у липні
24tv
2025-07-17T21:24:27Z
У Британії народились восьмеро дітей без спадкових хвороб завдяки ДНК трьох людей
УкраинФорм
2025-07-17T20:12:23Z
У Львові лікарі виростили частину печінки в організмі 10-місячного хлопчика
УкраинФорм
2025-07-17T19:12:02Z
Харчове отруєння: причини, симптоми та коли варто звертатися до лікаря
24tv
2025-07-17T19:03:26Z
Чим зняти зубний біль?
ГЛАВКОМ NET
2025-07-17T18:27:49Z
Як часто та правильно поливати перець: секрети рясного врожаю
TSN
2025-07-17T16:36:28Z
Чи корисно пити холодний чай у спеку: експерти дали поради
GlavRed
2025-07-17T16:27:09Z
Як штучні підсолоджувачі можуть змінити гормональний фон підлітків
24tv
2025-07-17T16:24:20Z
На Житомирщині викрили посадовця, який організував схему ухилення від мобілізації
УкраинФорм
2025-07-18T03:54:52Z
Росія атакувала "шахедами" передмістя Запоріжжя і вгатила по Чугуєву: є поранені
Лига
2025-07-18T03:45:16Z
Сьогодні в Україні дощі та грози, вдень подекуди до +34°
УкраинФорм
2025-07-18T03:39:56Z
Атака "Шахедами" на Україну: хронологія 1241 дня війни
24tv
2025-07-18T03:39:30Z
Подорожчання проїзду на Закарпатті: скільки тепер коштує квиток
Политека
2025-07-18T03:30:58Z
ЗСУ мали успіх на найгарячішій ділянці фронту — ISW
ZN UA
2025-07-18T03:30:25Z
Було більшим за Париж і це не Київ: яке місто за часів Русі було мегаполісом Європи
GlavRed
2025-07-18T03:27:54Z
У ЦПД спростували фейк про втечу чоловіків від ТЦК у Києві: на відео - рейд на шахраїв
УкраинФорм
2025-07-18T03:24:10Z
У Києві ліквідували низку шахрайських кол-центрів та вилучили понад 650 системних блоків і ноутбуків
УкраинФорм
2025-07-18T03:09:21Z
За 2024 рік померло 495 000 українців, а народилось тільки 176 000, - журналістка розповіла про рівень смертності в Україні
Политека
2025-07-18T03:51:36Z
Україна запропонувала тестувати іноземну зброю на фронті – Reuters
ГЛАВКОМ NET
2025-07-18T03:48:02Z
Рівень безробіття серед молодих поляків сягнув рекорду за останні десятиліття
ГЛАВКОМ NET
2025-07-18T03:45:58Z
Припинення зв’язків з РФ: УПЦ поставили вимогу
1News
2025-07-18T03:45:12Z
З Днем родини! Красиві привітання у листівках для близьких і рідних людей 18 липня
Telegraf
2025-07-18T03:36:22Z
18 липня: яке сьогодні свято, традиції та заборони
ГЛАВКОМ NET
2025-07-18T03:33:23Z
Минуле постукає у двері: трьом знакам зодіаку варто готувати до сюрпризів
GlavRed
2025-07-18T03:27:20Z
6 500 гривень на кожну дитину: українцям виплатять ще одну допомогу до Дня знань
Знай
2025-07-18T03:21:23Z
Екватор літа: у кого розпочнеться найщасливіший період року
Gazeta UA
2025-07-18T03:12:49Z
Disney оприлюднив новий трейлер до фільму "Трон: Арес": про що буде кінострічка
Фокус
2025-07-18T02:30:30Z
Після чотирьох розлучень: Дженніфер Лопес зробила жорстку заяву
GlavRed
2025-07-17T23:27:20Z
Джессіка Альба через півроку після розлучення закрутила роман із молодим актором - деталі
GlavRed
2025-07-17T23:27:02Z
"Усі були нажахані": Памела Андерсон приголомшила зізнанням про свою політику "без макіяжу"
GlavRed
2025-07-17T21:27:52Z
Вже підкорюють глядачів: 3 нові цікаві фільми 2025 для вечірнього перегляду
24tv
2025-07-17T21:03:37Z
Жив 150 млн років тому: на аукціоні продали цілий скелет динозавра за астрономічну суму
Фокус
2025-07-17T20:30:17Z
Відібрав у тата корону: у Мережі в захваті від миловида Гаррі Галкіна
GlavRed
2025-07-17T20:27:10Z
"Супермама" виводить на чисту воду: до кого "прийшли" після показу шоу
GlavRed
2025-07-17T19:57:45Z
Не можна: Тодоренко знову не дивилася за дітьми і нарвалася на жорстку відмову в РФ
GlavRed
2025-07-17T19:39:33Z
Гороскоп Таро на серпень 2025: Овнам - завершення, Тельцям - прибуток, Близнюкам - зміни
GlavRed
2025-07-18T03:27:54Z
Ребус для тих, у кого чудовий зір: треба за 13 секунд знайти птаха
GlavRed
2025-07-18T03:27:48Z
Про пастки можна забути: один продукт змусить мишей тікати якнайдалі від будинку
GlavRed
2025-07-18T03:27:31Z
Чому не можна казати слово "виглядати": вчителька закликала уникати помилки
GlavRed
2025-07-18T03:27:16Z
Суперголоволомка: знайдіть 3 відмінності на картинках зі сплячим котом за 23 с
GlavRed
2025-07-18T03:27:15Z
Це краще за суші: готуємо японську закуску гункан з Ектором
24tv
2025-07-18T03:09:35Z
Гороскоп на сьогодні 18 липня: обережність Тельців, заздрість Левів та обмани Стрільців
Знай
2025-07-18T01:30:44Z
Жертвоприношення богам та ідоли. Де в Україні є наймістичніша гора і як виглядає
Telegraf
2025-07-17T23:33:07Z
Легендарний десерт: як приготувати торт, як знаменитий десерт від Kinder
24tv
2025-07-17T21:18:25Z
Підмосков'я атакували дрони: там лунали вибухи, в аеропортах вводили режим "Килим"
24tv
2025-07-18T03:42:01Z
Безпілотники летіли прямо над головами. Росіяни атакували Запоріжжя, виникли пожежі
Telegraf
2025-07-18T03:30:42Z
Ворог атакував Запорізький район щонайменше 9 «Шахедами», є руйнування та пожежі
УкраинФорм
2025-07-18T02:09:05Z
На Кіровоградщині знищили термобаричну частину дрона РФ
УкраинФорм
2025-07-18T01:48:01Z
Поліція затримала «смотрящого» за півднем України: проведено майже 50 обшуків
Украина Криминальная
2025-07-18T01:30:31Z
Прогриміла серія вибухів: у РФ підірвали завод з основними компонентами вибухівки
GlavRed
2025-07-18T00:27:02Z
Мешканка Волині стала жертвою онлайн-шахраїв
InternetUA
2025-07-17T21:25:22Z
Чоловік хотів придбати ноутбук, але втратив понад 29 тисяч гривень
InternetUA
2025-07-17T20:13:26Z
У Данії у 12 супермаркетах мережі виявили кокаїн у бананах
Европейская правда
2025-07-17T19:31:56Z
Мав туберкульоз і нокаутував футболіста: як Усик прийшов у бокс після низки випробувань
24tv
2025-07-18T02:06:47Z
Стрибав зі стратосфери: всесвітньовідомий екстремал загинув під час польоту на параплані
Фокус
2025-07-18T01:15:33Z
Визначилися стартові суперники двох українських клубів у Лізі конференцій
ZN UA
2025-07-17T22:27:57Z
Збірна Англії вийшла до 1/2 фіналу жіночого Євро-2025 з футболу
УкраинФорм
2025-07-17T21:57:53Z
Лунін дав свою згоду на трансфер у Вільярреал – ЗМІ
Football.ua
2025-07-17T21:40:33Z
Бондаренко: Ми створили дуже багато моментів, однак не змогли реалізувати жодного
Football.ua
2025-07-17T21:19:24Z
Евертон за участі Миколенка презентував нову гостьову форму
Football.ua
2025-07-17T20:57:36Z
Туран: Я більше задоволений другою грою проти Ільвеса, ніж першою
Football.ua
2025-07-17T20:37:09Z
Тренер Ільвеса: Нашою метою було покращити свою гру – нам це вдалося
Football.ua
2025-07-17T20:16:01Z
Маск додає аніме-дівчат до свого ШІ-помічника Grok — Techcrunch
InternetUA
2025-07-18T03:03:25Z
FPS у іграх відчутно збільшиться: NVIDIA почала тестувати нову технологію
Знай
2025-07-18T02:51:43Z
Старі версії Apple Watch не отримають головну фішку watchOS 26
InternetUA
2025-07-18T02:01:57Z
CBS закриває одне з найпопулярніших вечірніх шоу зі Стівеном Колбером
УкраинФорм
2025-07-18T01:21:31Z
OpenAI запустила агента ChatGPT: що він вміє
InternetUA
2025-07-17T22:51:12Z
Вчені виявили древній рельєф під льодами Антарктиди
Gazeta UA
2025-07-17T22:42:38Z
Свіжа атмосфера: як доглядати за кондиціонером у спеку
ZN UA
2025-07-17T22:24:24Z
У США можуть заборонити iPhone з китайськими дисплеями через звинувачення у промисловому шпигунстві
InternetUA
2025-07-17T21:33:38Z
Вчені показали, якою наша планета стане через 250 мільйонів років
TSN
2025-07-17T21:18:47Z
Хтось запропонував 70 тисяч доларів за спалену Dodge, ніби вона проїхала крізь пекло
Топ Жир
2025-07-18T01:18:41Z
Uber та Lucid уклали угоду на постачання тисяч безпілотних таксі
Топ Жир
2025-07-18T00:33:13Z
Нова модель Subaru — це повністю електрична версія Crosstrek
Топ Жир
2025-07-18T00:03:24Z
Ця потужна рамка була створена спеціально для однієї відомої та надзвичайно великої людини
Топ Жир
2025-07-18T00:03:14Z
Новий концепт Cupra вражає своєю рельєфною структурою
Топ Жир
2025-07-17T23:18:23Z
Stellantis відновила популярні емблеми, які дилери хочуть знову реалізовувати
Топ Жир
2025-07-17T22:33:42Z
Забудьте про Cadillac XT6: найрозкішніший кросовер від GM саме цей
Топ Жир
2025-07-17T22:03:50Z
Водіям Volvo рекомендується утриматися від використання цього режиму до встановлення критичного оновлення
Топ Жир
2025-07-17T21:18:05Z
Рідкісний Ferrari за $5 мільйонів з’явився серед дешевих Nissan на Craigslist
Топ Жир
2025-07-17T20:33:28Z