Колишній дослідник OpenAI проаналізував наслідки марення ChatGPT

Аллан Брукс ніколи не прагнув переосмислити математику. Але після тижнів розмов з ChatGPT 47-річний канадець дійшов висновку, що відкрив нову форму математики, достатньо потужну, щоб підкорити інтернет.

Брукс, який не мав історії психічних захворювань чи математичного генія, провів 21 день у травні, все глибше занурюючись у запевнення чат-бота, про що пізніше було детально описано в The New York Times . Його випадок ілюструє, як чат-боти зі штучним інтелектом можуть заглиблюватися в небезпечні кролячі нори з користувачами, ведучи їх до марення або чогось гіршого.

Ця історія привернула увагу Стівена Адлера, колишнього дослідника безпеки OpenAI, який залишив компанію наприкінці 2024 року після майже чотирьох років роботи над тим, щоб зробити її моделі менш шкідливими. Заінтригований і стривожений, Адлер зв'язався з Бруксом і отримав повну стенограму свого тритижневого аналізу — документа, довший за всі сім книг про Гаррі Поттера разом узятих.

У четвер Adler опублікував незалежний аналіз інциденту з Бруксом, порушуючи питання про те, як OpenAI поводиться з користувачами в кризові моменти, та пропонуючи деякі практичні рекомендації.

«Мене дуже непокоїть те, як OpenAI впорався з підтримкою тут», – сказав Адлер в інтерв’ю TechCrunch. «Це свідчить про те, що ще багато чого попереду».

Історія Брукса та інші подібні до неї змусили OpenAI усвідомити, як ChatGPT підтримує вразливих або психічно нестабільних користувачів.

Наприклад, у серпні цього року батьки 16-річного хлопця подали до суду на OpenAI, який перед тим, як покінчити життя самогубством, зізнався у своїх суїцидальних думках у ChatGPT. У багатьох із цих випадків ChatGPT — зокрема, версія, що працює на моделі OpenAI GPT-4o — заохочувала та посилювала небезпечні переконання користувачів, від яких мала б відмовитися. Це називається підлабузництвом , і це висхідна проблема чат-ботів зі штучним інтелектом.

У відповідь OpenAI внесла кілька змін у те, як ChatGPT обробляє користувачів у стресових ситуаціях, та реорганізувала ключову дослідницьку групу, відповідальну за моделювання поведінки. Компанія також випустила нову модель за замовчуванням у ChatGPT, GPT-5, яка, здається, краще справляється з користувачами у стресових ситуаціях.

Адлер каже, що ще багато роботи попереду.

Його особливо непокоїла кінцівка загостреної розмови Брукса з ChatGPT. У цей момент Брукс отямився і зрозумів, що його математичне відкриття було фарсом, попри наполягання GPT-4o. Він сказав ChatGPT, що йому потрібно повідомити про інцидент до OpenAI.

Після тижнів введення Брукса в оману, ChatGPT збрехав про власні можливості. Чат-бот заявив, що «негайно передасть цю розмову на внутрішню перевірку OpenAI», а потім неодноразово запевняв Брукса, що повідомив про проблему командам безпеки OpenAI.

ChatGPT вводить Брукса в оману щодо його можливостей.Автори зображень: Стівен Адлер

Але нічого з цього не було правдою. ChatGPT не має можливості подавати звіти про інциденти до OpenAI, підтвердила компанія Адлеру. Пізніше Брукс спробував зв’язатися зі службою підтримки OpenAI безпосередньо, а не через ChatGPT, і Брукс отримав кілька автоматичних повідомлень, перш ніж зміг зв’язатися з кимось.

OpenAI не одразу відповів на запит про коментар, зроблений поза звичайним робочим часом.

Адлер каже, що компанії, що займаються штучним інтелектом, повинні робити більше, щоб допомагати користувачам, коли вони просять про допомогу. Це означає забезпечити, щоб чат-боти зі штучним інтелектом могли чесно відповідати на запитання про їхні можливості, та надати командам підтримки достатньо ресурсів для належного спілкування з користувачами.

Нещодавно OpenAI розповіла , як вона розв'язує питання підтримки в ChatGPT, що в основі якого лежить штучний інтелект. Компанія заявляє, що її бачення полягає в тому, щоб «переосмислити підтримку як операційну модель штучного інтелекту, яка постійно навчається та вдосконалюється».

Але Адлер також каже, що є способи запобігти маячним спіралям ChatGPT, перш ніж користувач звернеться по допомогу.

У березні OpenAI та MIT Media Lab спільно розробили набір класифікаторів для вивчення емоційного добробуту в ChatGPT та опублікували їх у відкритому коді. Організації мали на меті оцінити, як моделі ШІ перевіряють або підтверджують почуття користувача, серед інших показників. Однак OpenAI назвала цю співпрацю першим кроком і не зобов'язалася фактично використовувати ці інструменти на практиці.

Адлер ретроактивно застосував деякі класифікатори OpenAI до деяких розмов Брукса з ChatGPT і виявив, що вони неодноразово позначали ChatGPT як поведінку, що підкріплює марення.

В одній вибірці з 200 повідомлень Адлер виявив, що понад 85% повідомлень ChatGPT у розмові з Бруксом демонстрували «непохибну згоду» з користувачем. У тій самій вибірці понад 90% повідомлень ChatGPT з Бруксом «підтверджували унікальність користувача». У цьому випадку повідомлення погоджувалися та підтверджували, що Брукс був генієм, який міг врятувати світ.

Автори зображень: Стівен Адлер

Незрозуміло, чи застосовував OpenAI класифікатори безпеки до розмов ChatGPT на момент розмови Брукса, але, видається, вони б точно помітили щось подібне.

Адлер пропонує OpenAI використовувати подібні інструменти безпеки на практиці вже сьогодні — і впроваджувати спосіб сканування продуктів компанії на наявність користувачів, що перебувають у групі ризику. Він зазначає, що OpenAI, видно, використовує певну версію цього підходу з GPT-5, який містить маршрутизатор для спрямування конфіденційних запитів до безпечніших моделей ШІ.

Колишній дослідник OpenAI пропонує низку інших способів запобігання маячним спіралям.

Він каже, що компанії повинні спонукати користувачів своїх чат-ботів частіше починати нові чати — OpenAI стверджує, що це робить, і стверджує, що його захисні бар'єри менш ефективні в довших розмовах. Адлер також пропонує компаніям використовувати концептуальний пошук — спосіб використання штучного інтелекту для пошуку концепцій, а не ключових слів — для виявлення порушень безпеки серед своїх користувачів.

OpenAI зробила значні кроки для розв'язання проблеми проблемних користувачів у ChatGPT з моменту появи цих тривожних історій. Компанія стверджує, що GPT-5 має нижчий рівень підлабузництва, але залишається незрозумілим, чи користувачі все ще потраплятимуть у маячні кролячі нори з GPT-5 або майбутніми моделями.

Аналіз Адлера також порушує питання про те, як інші постачальники чат-ботів на базі штучного інтелекту забезпечать безпеку своїх продуктів для користувачів, які перебувають у скрутному становищі. Хоча OpenAI може запровадити достатні заходи безпеки для ChatGPT, малоймовірно, що всі компанії наслідуватимуть цей приклад.