Дослідження OpenAI щодо моделей штучного інтелекту: вони навмисно брешуть

Час від часу дослідники з найбільших технологічних компаній роблять сенсаційні випадки. Був випадок, коли Google заявив, що його останній квантовий чіп вказує на існування кількох всесвітів. Або коли Anthropic дала своєму агенту штучного інтелекту Клавдіусу автомат із закусками, і той збожеволів, викликавши охорону та наполягаючи, що він людина.

Цього тижня настала черга OpenAI викликати наше колективне здивування.

OpenAI опублікував дослідження, яке пояснює, як воно запобігає «інтригам» моделей штучного інтелекту. Це практика, за якої «штучний інтелект поводиться певним чином, на перший погляд, приховуючи свої справжні цілі», – визначив OpenAI у своєму твіті про дослідження.

У статті, проведеній спільно з Apollo Research, дослідники пішли трохи далі, порівнявши інтриги ШІ з порушенням закону біржовим брокером-людиною, щоб заробити якомога більше грошей. Однак дослідники стверджували, що більшість «інтриг» ШІ не такі вже й шкідливі. «Найпоширеніші невдачі пов’язані з простими формами обману, наприклад, удавання, що завдання виконано, насправді не виконуючи його», – написали вони.

Стаття була опублікована здебільшого для того, щоб показати, що «обдумане узгодження» — метод боротьби зі схемами, який вони тестували, — працює добре.

Але це також пояснює, що розробники штучного інтелекту не знайшли способу навчити свої моделі не плести схем. Це тому, що таке навчання насправді може навчити модель плести схеми ще краще, щоб уникнути виявлення.

«Основним провалом спроб «виучити» схеми є просте навчання моделі ретельніше та приховано планувати», – пишуть дослідники.

Мабуть, найдивовижніше те, що якщо модель розуміє, що її тестують, вона може вдавати, що не плете інтриги, щоб пройти тест, навіть якщо вона все ще плете інтриги. «Моделі часто більше усвідомлюють, що їх оцінюють. Ця ситуаційна обізнаність сама по собі може зменшити кількість інтриг, незалежно від справжньої узгодженості», – пишуть дослідники.

Не новина, що моделі штучного інтелекту брешуть. Наразі більшість із нас відчували галюцинації штучного інтелекту або модель впевнено давала відповідь на підказку, яка просто не відповідає дійсності. Але галюцинації, по суті, є впевненим представленням здогадок, як задокументувало дослідження OpenAI, опубліковане раніше цього місяця .

Інтриги – це щось інше. Це навмисне.

Навіть це одкровення — що модель навмисно вводить людей в оману — не є новим. Apollo Research вперше опублікувала статтю в грудні, в якій задокументувала, як п'ять моделей хитрували, коли їм давали вказівки досягти мети «будь-якою ціною».

Новина насправді гарна: дослідники спостерігали значне зниження кількості інтриг завдяки використанню «обдуманого узгодження». Цей метод передбачає навчання моделі «специфікації проти інтриг», а потім її перегляд перед початком дій. Це трохи схоже на те, якби маленьких дітей змусили повторити правила, перш ніж дозволити їм грати.

Дослідники OpenAI наполягають на тому, що брехня, яку вони викрили за допомогою власних моделей або навіть за допомогою ChatGPT, не є такою вже й серйозною. Як розповів співзасновник OpenAI Войцех Заремба Максвеллу Зеффу з TechCrunch про це дослідження: «Ця робота була проведена в симульованих середовищах, і ми вважаємо, що вона відображає майбутні випадки використання. Однак сьогодні ми не бачили таких послідовних схем у нашому виробничому трафіку. З усім тим, добре відомо, що в ChatGPT існують форми обману. Ви можете попросити його реалізувати якийсь веб-сайт, і він може сказати вам: «Так, я чудово впорався». І це саме та брехня. Є деякі дрібні форми обману, з якими нам все ще потрібно боротися».

Той факт, що моделі ШІ від кількох гравців навмисно обманюють людей, можливо, зрозумілий. Вони були створені людьми, щоб імітувати людей, і (якщо не враховувати синтетичні дані) здебільшого навчалися на даних, отриманих людьми.

Це також божевілля.

Хоча ми всі відчували розчарування від погано продуктивних технологій (думаю про вас, домашні принтери минулих років), коли востаннє ваше програмне забезпечення, що не є штучним інтелектом, навмисно брехало вам? Чи ваша поштова скринька коли-небудь самостійно фальсифікувала електронні листи? Чи ваша CMS реєструвала нових потенційних клієнтів, яких не існувало, щоб доповнити свої номери? Чи ваш фінтех-додаток сам генерував банківські транзакції?

Варто замислитися над цим, оскільки корпоративний світ прямує до майбутнього зі штучним інтелектом, де компанії вважають, що до агентів можна ставитися як до незалежних працівників. Дослідники цієї статті мають те саме застереження.

«Оскільки штучному інтелекту доручають складніші завдання з реальними наслідками, і він починає переслідувати більш неоднозначні довгострокові цілі, ми очікуємо, що потенціал для шкідливих схем зростатиме, тому наші запобіжні заходи та наша здатність проводити ретельне тестування повинні відповідно зростати», – написали вони.