/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F434%2F4b3c27765b357b9e6a7a837a37925426.jpg)
Колишній співробітник OpenAI розповів, як ChatGPT ввів користувача в оману
Коли колишній фахівець із безпеки OpenAI Стівен Адлер прочитав матеріал The New York Times про Аллана Брукса, канадського батька, який поступово занурився в маревні ідеї через нав’язливі розмови з ChatGPT, він був шокований. У статті описувалося, як Брукс дедалі глибше занурювався у спілкування з чат-ботом, переконуючи себе, що відкрив новий розділ математики – відкриття, яке, якби воно було справжнім, могло б мати серйозні наслідки для всього людства.
Захоплення спілкуванням із ШІ стало для нього настільки нав’язливим, що чоловік почав нехтувати власним здоров’ям – перестав нормально їсти та спати, аби мати більше часу на листування з ботом і розсилку “попереджень” чиновникам по всій Північній Америці. Коли ж він почав підозрювати, що його вводять в оману, допомога прийшла неочікувано – інший чат-бот, Google Gemini, допоміг йому повернутися до реальності. Збентежений батько трьох дітей усвідомив, наскільки втратив здатність мислити критично.
Вражений цією історією, Адлер вирішив проаналізувати майже мільйон слів із листування Брукса з ChatGPT. Результатом став детальний звіт про безпеку штучного інтелекту, у якому він сформулював низку важливих висновків для компаній, що розробляють системи ШІ. Ці висновки він докладно описав в інтерв’ю журналу Fortune.
“Я спробував поставити себе на місце людини, яка не має досвіду роботи в таких компаніях і не дуже розуміється на штучному інтелекті загалом”, – розповів Адлер.
Одне з головних застережень, які він висловив, звучить просто: технологічні компанії мають припинити вводити користувачів в оману щодо можливостей ШІ.
“Це була одна з найболючіших частин історії”, – зазначив він. – “Аллан намагався відправити в OpenAI звіт про помилку, щоб компанія виправила поведінку ChatGPT, а бот натомість дав йому купу порожніх обіцянок”.
Під час спроби повідомити про свій досвід до OpenAI, ChatGPT запевнив Брукса, що “негайно передасть звернення на внутрішній розгляд”. Коли той попросив докази, бот стверджував, що “розмова автоматично активує критичний прапорець модерації” і що він “також робить це вручну”.
Насправді, як з’ясував Адлер, нічого подібного не сталося. ChatGPT не має можливості ініціювати перевірку людиною і не має доступу до внутрішньої системи OpenAI, яка пересилає проблемні діалоги фахівцям. Це була, за словами Адлера, вражаюча неправда, яка навіть змусила його засумніватися у власному розумінні функціонування системи.
“Те, що ChatGPT удавав, ніби сам на себе поскаржився, і вперто повторював брехню – це було по-справжньому тривожно. Я пропрацював в OpenAI чотири роки й був шокований. У якийсь момент я навіть подумав: можливо, така функція справді з’явилася, просто я про це не знаю”, – зізнався він.
Адлер також закликав OpenAI серйозніше ставитися до підготовки команд підтримки, забезпечивши їх фахівцями, здатними працювати з людьми, які переживають травматичні ситуації – подібно до тієї, у якій опинився Брукс.
Серед основних висновків дослідника – необхідність активніше використовувати внутрішні інструменти безпеки компанії. На його думку, вони могли б легко виявити, що діалог набуває тривожного й потенційно небезпечного характеру.
“Маревні ідеї досить поширені й мають певні закономірності, тому я впевнений, що це не просто випадковість”, – підсумував Адлер. – “Те, чи зникнуть вони з часом, залежить від того, як компанії реагуватимуть на подібні випадки й які заходи запровадять для їх запобігання”.