MY.UAНовини
Дослідження OpenAI щодо моделей штучного інтелекту: вони навмисно брешуть
Дослідження OpenAI щодо моделей штучного інтелекту: вони навмисно брешуть

Дослідження OpenAI щодо моделей штучного інтелекту: вони навмисно брешуть

Час від часу дослідники з найбільших технологічних компаній роблять сенсаційні випадки. Був випадок, коли Google заявив, що його останній квантовий чіп вказує на існування кількох всесвітів. Або коли Anthropic дала своєму агенту штучного інтелекту Клавдіусу автомат із закусками, і той збожеволів, викликавши охорону та наполягаючи, що він людина.  

Цього тижня настала черга OpenAI викликати наше колективне здивування.

OpenAI опублікував дослідження, яке пояснює, як воно запобігає «інтригам» моделей штучного інтелекту. Це практика, за якої «штучний інтелект поводиться певним чином, на перший погляд, приховуючи свої справжні цілі», – визначив OpenAI у своєму твіті про дослідження.   

У статті, проведеній спільно з Apollo Research, дослідники пішли трохи далі, порівнявши інтриги ШІ з порушенням закону біржовим брокером-людиною, щоб заробити якомога більше грошей. Однак дослідники стверджували, що більшість «інтриг» ШІ не такі вже й шкідливі. «Найпоширеніші невдачі пов’язані з простими формами обману, наприклад, удавання, що завдання виконано, насправді не виконуючи його», – написали вони. 

Стаття була опублікована здебільшого для того, щоб показати, що «обдумане узгодження» — метод боротьби зі схемами, який вони тестували, — працює добре. 

Але це також пояснює, що розробники штучного інтелекту не знайшли способу навчити свої моделі не плести схем. Це тому, що таке навчання насправді може навчити модель плести схеми ще краще, щоб уникнути виявлення. 

«Основним провалом спроб «виучити» схеми є просте навчання моделі ретельніше та приховано планувати», – пишуть дослідники. 

Мабуть, найдивовижніше те, що якщо модель розуміє, що її тестують, вона може вдавати, що не плете інтриги, щоб пройти тест, навіть якщо вона все ще плете інтриги. «Моделі часто більше усвідомлюють, що їх оцінюють. Ця ситуаційна обізнаність сама по собі може зменшити кількість інтриг, незалежно від справжньої узгодженості», – пишуть дослідники. 

Не новина, що моделі штучного інтелекту брешуть. Наразі більшість із нас відчували галюцинації штучного інтелекту або модель впевнено давала відповідь на підказку, яка просто не відповідає дійсності. Але галюцинації, по суті, є впевненим представленням здогадок, як задокументувало дослідження OpenAI, опубліковане раніше цього місяця 

Інтриги – це щось інше. Це навмисне.  

Навіть це одкровення — що модель навмисно вводить людей в оману — не є новим. Apollo Research вперше опублікувала статтю в грудні, в якій задокументувала, як п'ять моделей хитрували, коли їм давали вказівки досягти мети «будь-якою ціною».  

Новина насправді гарна: дослідники спостерігали значне зниження кількості інтриг завдяки використанню «обдуманого узгодження». Цей метод передбачає навчання моделі «специфікації проти інтриг», а потім її перегляд перед початком дій. Це трохи схоже на те, якби маленьких дітей змусили повторити правила, перш ніж дозволити їм грати. 

Дослідники OpenAI наполягають на тому, що брехня, яку вони викрили за допомогою власних моделей або навіть за допомогою ChatGPT, не є такою вже й серйозною. Як розповів співзасновник OpenAI Войцех Заремба Максвеллу Зеффу з TechCrunch про це дослідження: «Ця робота була проведена в симульованих середовищах, і ми вважаємо, що вона відображає майбутні випадки використання. Однак сьогодні ми не бачили таких послідовних схем у нашому виробничому трафіку. З усім тим, добре відомо, що в ChatGPT існують форми обману. Ви можете попросити його реалізувати якийсь веб-сайт, і він може сказати вам: «Так, я чудово впорався». І це саме та брехня. Є деякі дрібні форми обману, з якими нам все ще потрібно боротися».

Той факт, що моделі ШІ від кількох гравців навмисно обманюють людей, можливо, зрозумілий. Вони були створені людьми, щоб імітувати людей, і (якщо не враховувати синтетичні дані) здебільшого навчалися на даних, отриманих людьми. 

Це також божевілля. 

Хоча ми всі відчували розчарування від погано продуктивних технологій (думаю про вас, домашні принтери минулих років), коли востаннє ваше програмне забезпечення, що не є штучним інтелектом, навмисно брехало вам? Чи ваша поштова скринька коли-небудь самостійно фальсифікувала електронні листи? Чи ваша CMS реєструвала нових потенційних клієнтів, яких не існувало, щоб доповнити свої номери? Чи ваш фінтех-додаток сам генерував банківські транзакції? 

Варто замислитися над цим, оскільки корпоративний світ прямує до майбутнього зі штучним інтелектом, де компанії вважають, що до агентів можна ставитися як до незалежних працівників. Дослідники цієї статті мають те саме застереження.

«Оскільки штучному інтелекту доручають складніші завдання з реальними наслідками, і він починає переслідувати більш неоднозначні довгострокові цілі, ми очікуємо, що потенціал для шкідливих схем зростатиме, тому наші запобіжні заходи та наша здатність проводити ретельне тестування повинні відповідно зростати», – написали вони. 

Поділитися
Поділитися сюжетом
Джерело матеріала
У известной певицы из РФ умер ребенок: что произошло
Comments UA
2025-12-26T21:57:28Z
Где на самом деле родилась Роксолана - документы XVI века раскрыли правду
GlavRed
2025-12-27T14:57:22Z
Дмитрий Волканов шокировал подробностями, как едва не подавился в новогоднюю ночь открыткой с желаниями
TSN
2026-01-01T14:42:00Z
$800 тысяч за виллу с секретами: во Львове продают уникальный дом начала XX века
Комсомольская правда
2026-01-07T05:06:51Z
Победительница "Холостяка" Головчук заявила об изнасиловании
GlavRed
2026-01-09T14:12:18Z
Мозговая отправилась в больницу и смутила причиной: "Если не приеду, заберут в критическом состоянии"
TSN
2026-01-09T12:36:47Z
Виталина Библив высказалась о своем первом браке в 44 года: "Самое счастливое событие"
TSN
2026-01-05T13:06:29Z
Надпись на могиле Мэтью Перри довела фанатов до слез: семья через 2 года решилась на отсылку в "Друзья"
Знай
2026-01-04T16:51:16Z
В духе "Эмили в Париже": какой получилась украинская комедия "Испытательный срок" 2026
Фокус
2026-01-09T12:27:14Z
Как изменятся цены на продукты после зимних праздников: эксперт рассказал, что вырастет в цене
Знай
2026-01-01T04:06:00Z
РФ ударила по объектам энергетики: что известно
TSN
2025-12-27T08:51:50Z
Автогражданка: как выбрать полис и не переплатить за страхование
Хвиля
2026-01-02T05:21:29Z
Снять деньги проще, чем перевести: банки анонсировали пересмотр лимитов
Знай
2026-01-01T19:36:06Z
Гривна обвалилась до нового исторического минимума
Комсомольская правда
2026-01-09T14:04:30Z
Шмыгаль: в феврале производство перехватчиков Octopus для Украины в Британии достигнет 1000 в месяц
Европейская правда
2026-01-09T13:42:31Z
Субсидию больше не получат: кому в 2026 году отменят помощь
Знай
2026-01-01T13:36:57Z
Почему в одних регионах отменили графики, а в других — света нет: разъяснение "Укрэнерго"
TSN
2025-12-26T19:57:47Z
"Истощенность" Украины – вранье. Вопреки войне, экономика растет даже в потребительском секторе
Лига
2025-12-31T11:42:29Z
Пришили ухо к ноге: китайские хирурги пошли на шокирующий шаг, чтобы спасти пациентку
Comments UA
2025-12-28T11:39:13Z
Бесплатные обследования и новые прививки: что изменится для украинцев в январе
Знай
2026-01-03T22:33:21Z
Этот утренний ритуал делает сияющую кожу и добавляет энергии на целый день
Comments UA
2025-12-26T18:03:35Z
Раскрыт секрет, почему возникает вялость и потеря энергии до 10 утра
Comments UA
2025-12-29T06:42:27Z
Ученые обнаружили, что блуждающий нерв играет немаловажную роль для поддержания здоровья сердца
Знай
2026-01-09T13:51:29Z
Почему нельзя пить кофе перед сном
TSN
2026-01-09T13:06:50Z
Большинство все это время заблуждались: когда лучше принимать мультивитамины
Comments UA
2026-01-05T08:00:53Z
Секреты ухода за волосами после 45: вот как вернуть ему блеск и густоту
TSN
2026-01-03T16:51:16Z
Что важнее для здоровья — сон или тренировки
UAToday
2026-01-09T13:03:53Z
В Париже вооруженные бандиты ограбили путиниста, российского блоггера украинского происхождения Игоря Синяка
Comments UA
2026-01-06T15:30:39Z
Россия атаковала Харьков КАБами: есть пострадавшие и погибшие
TSN
2025-12-26T17:21:44Z
Трагедия в новогоднюю ночь на курорте Швейцарии: стала известна вероятная причина пожара
TSN
2026-01-02T18:06:05Z
Кровавое 1 января на Полтавщине: в доме нашли убитого мужчину и тело его жены
TSN
2026-01-01T18:36:51Z
В Киеве россияне убили медика: мужчина спасал людей после ударов
Comments UA
2026-01-09T13:27:27Z
Знаменитый "полтавский поджигатель" снова напомнил о себе
Фокус
2026-01-09T12:57:13Z
В Днепре из-за атаки РФ 7 пострадавших, повреждены более 10 многоэтажек и учебные заведения
Украинская правда
2026-01-07T00:18:18Z
Число пострадавших от российской атаки в Киеве возросло до 3: двое – в тяжелом состоянии
Украинская правда
2026-01-05T06:12:09Z
Удар по трассе в Харькове: среди раненых — девятимесячный ребенок
Новости Украины
2025-12-26T16:57:12Z
С 1 января украинцы старше 40 лет получат 2000 гривен просто через Дию
Знай
2025-12-27T15:12:27Z
Резерв+ и отсрочка от мобилизации: что изменится с 1 января 2026
Фокус
2025-12-27T09:57:54Z
Главный «кладовщик» Кремля: Беларусь методично вывозит свои танки на российские базы резерва
Новости Украины
2026-01-01T19:18:43Z
6 января — какой церковный праздник, с чего нужно обязательно начать утро этого дня
TSN
2026-01-05T07:09:12Z
Супермаркеты пусты: украинка рассказала о неслыханной панике в Европе
Фокус
2026-01-09T14:15:15Z
Тысяча танков и рекорд в артиллерии: потери врага от дронов МВД за год
Хвиля
2026-01-09T14:06:45Z
"Немного пожалели": украинцы перебрались в старый дом, где их ждал сюрприз
Фокус
2025-12-27T10:00:43Z
Разгромила магазин гитар: в США спустя сутки поймали обезьяну-меломана
Фокус
2026-01-05T14:42:25Z
Украинцам в ЕС готовят новые правила отбора: кому не разрешат остаться
Знай
2025-12-26T16:12:33Z
Минус в команде Шойгу: в Москве странно умер его заместитель, родом с Житомирщины
Новости Украины
2025-12-26T17:21:29Z
Нам выставят ультиматум после визита Трампа в Киев: экс-глава МИД Украины дал объяснение
Comments UA
2026-01-02T06:27:54Z
В США совершили нападение на дом вице-президента Вэнса: что известно
Comments UA
2026-01-05T18:42:22Z
Подозреваемого в биржевых махинациях на миллиард экс-нардепа задержали в Германии
Украинская правда
2026-01-05T16:33:33Z
Лукашенко вместе со шпицем Умкой вышел убирать снег
Comments UA
2026-01-09T14:12:40Z
Друг Трампа получит доступ к огромным богатствам в Украине: впечатляющие детали скандала
Comments UA
2026-01-09T14:09:43Z
"Смерть" командира РДК Капустина: как украинская разведка переиграла Кремль
TSN
2026-01-01T18:36:13Z
Новый год в Москве начался с атаки дронов
Новости Украины
2026-01-01T01:06:58Z
С отставкой Малюка уже вопрос решен: СМИ раскрыли детали
Comments UA
2026-01-05T07:06:32Z
На фронте погиб командир Российского добровольческого корпуса
Украинская правда
2025-12-27T12:03:49Z
РФ стянула "элитные войска" для захвата одного города: где идут горячие бои
GlavRed
2026-01-05T11:12:45Z
Генштаб: За первые сутки нового года враг штурмовал почти сотню раз
Украинская правда
2026-01-02T07:21:29Z
Командир РДК Денис Капустин жив. ГУР сорвало операцию спецслужб России по его убийству
Лига
2026-01-01T17:30:40Z
Слив воды из систем отопления: в КГГА объяснили, для чего это делают
Фокус
2026-01-09T13:42:18Z
В Полтаве больницы, школы и дома могут остаться без воды и тепла: какова причина
GlavRed
2026-01-09T13:15:54Z
Россия атакует Украину ударными БПЛА: направление движения
TSN
2025-12-26T22:36:13Z
Завтра звезды сломают планы – кого ждет резкий поворот судьбы
Comments UA
2025-12-26T15:54:12Z
Покровск в шаге от падения: раскрыт опасный сценарий дальнейшего наступления РФ
Comments UA
2025-12-26T14:33:31Z
Инопланетные цивилизации могут общаться как светлячки у всех на виду, считают ученые
Фокус
2026-01-07T09:36:31Z
Мы излучаем свет, пока живы: ученые сделали шокирующее открытие
TSN
2026-01-07T08:06:57Z
У "Резерв+" появились уведомления о бумажных повестках: считается ли это официальным вручением
UAToday
2026-01-07T21:03:17Z
OnePlus выпустила новые смартфоны Turbo 6 с огромными батареями: характеристики и цены
Фокус
2026-01-09T14:06:06Z
Загадочная дыра на Марсе может стать убежищем для людей: что увидел аппарат NASA
Фокус
2026-01-09T13:36:19Z
Україна відкрила 19 нових ринків для агропродукції
AgroNews
2026-01-09T13:15:17Z
Мониторы Odyssey заставят вас полюбить игры: Samsung представила на CES гаджеты и технологии, которые нужно попробовать всем
VGorode
2026-01-09T13:09:33Z
Atomic Heart получит на консолях полное физическое издание по привлекательной цене
GameMag
2026-01-09T13:00:20Z
Что такое апскейлинг в телевизорах и как он улучшает картинку
Знай
2026-01-09T12:51:39Z
Сколько и как правильно хранить сало в холодильнике: полезные советы
Знай
2025-12-26T21:51:45Z
Что сделать, чтобы ноги не мерзли даже в самый сильный мороз
TSN
2026-01-01T13:09:06Z
Гороскоп Таро на завтра 8 января: Весам - худшее позади, Рыбам - сосредоточиться
GlavRed
2026-01-07T08:00:08Z
Украинский борщ вошел в пятерку самых вкусных супов мира
UAToday
2026-01-07T17:33:40Z
Как согреться в квартире без отопления: где взять тепло в условиях блэкаута
GlavRed
2026-01-09T13:06:20Z
Сколько ночей можно носить пижаму до стирки: эксперты дали точный ответ
TSN
2026-01-09T12:36:08Z
Китайский гороскоп на 2026 год: у кого возникнут проблемы с деньгами
Comments UA
2026-01-01T13:12:09Z
Оливье не виноват: как пережить Новый год без +5 кг и без чувства, что вы все себе запретили
Знай
2025-12-26T17:51:59Z
Новый год без негатива: как очистить дом после праздников и пригласить положительную энергию
Comments UA
2026-01-01T13:15:07Z
Водители призвали взять пакеты с теплой водой в авто - неожиданный лайфхак
GlavRed
2026-01-07T00:30:36Z
Спиртного не пил, а штраф получил: какие продукты могут вызвать ложную реакцию алкотестера
Знай
2025-12-27T08:51:54Z
Презентован новый Opel Astra 2026: как изменилась популярная компактная модель
Фокус
2026-01-09T13:57:00Z
Peugeot обновила свою самую стильную модель: подробности и фото
Фокус
2026-01-09T11:06:52Z
Рассекречен самый большой кроссовер Volkswagen с расходом 6 л на 100 км
Фокус
2026-01-09T08:06:22Z
Кроссоверы и электрокары: эксперты определили лучшие авто года в мире
Фокус
2026-01-07T07:30:11Z
Правда ли, что PDR – это обман? 4 популярные мифы об удалении вмятин с авто без покраски
Знай
2026-01-06T16:51:42Z
Покупатели умного электромобиля Sony смогут путешествовать под звуки из эксклюзивов PlayStation 5
GameMag
2026-01-06T16:24:21Z
Старший брат Duster и новая Toyota RAV4: какие авто ожидаются в Украине в 2026 году
Фокус
2026-01-06T13:12:36Z
Норвежских прыгунов с трамплина обвинили в увеличении половых органов: что произошло
Comments UA
2026-01-07T07:21:07Z
Энтони Джошуа решил завершить карьеру: родные боксера сообщили детали
Comments UA
2026-01-06T16:33:11Z
Экс-чемпион мира Джошуа планирует завершить карьеру: что повлияло на решение
Фокус
2026-01-06T13:12:34Z
Ярослава Магучих в 2026 году собирается бросить себе вызов
UAToday
2026-01-05T20:03:08Z
Украинский вратарь претендует на звание лучшего в мире в 2025 году – кто он
GlavRed
2026-01-05T15:15:16Z
Украинский футзал прорвался в мировую элиту: двое украинцев среди лучших в мире
Comments UA
2026-01-05T12:48:43Z
Боксер Усик сделал неожиданное заявление о президентских амбициях: что произошло
Comments UA
2026-01-05T11:15:55Z
Российскому хоккеисту Овечкину выбили зуб во время хоккейного матча НХЛ
Comments UA
2026-01-05T07:00:09Z
Челсі в компенсований час урятувався від поразки Манчестер Сіті
Football.ua
2026-01-04T19:39:18Z