/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F434%2F026d881556669ed39cca3179e083ac4e.png)
Галюцинації ШІ посилюються зі зростанням його потужності
Минулого місяця бот зі штучним інтелектом, який займається технічною підтримкою Cursor, перспективного інструменту для комп'ютерних програмістів , попередив кількох клієнтів про зміну політики компанії. У ньому було заявлено, що їм більше не дозволено використовувати Cursor на більш ніж одному комп'ютері.
У гнівних постах на інтернет-форумах клієнти скаржилися. Деякі скасували свої облікові записи Cursor. А деякі ще більше розлютилися, коли зрозуміли, що сталося: бот зі штучним інтелектом оголосив про зміну політики, якої не існувало.
«У нас немає такої політики. Ви, звичайно, можете вільно використовувати Cursor на кількох машинах», – написав головний виконавчий директор і співзасновник компанії Майкл Труелл у дописі на Reddit. «На жаль, це неправильна відповідь від бота підтримки штучного інтелекту, який працює на передовій».
Більш ніж через два роки після появи ChatGPT , технологічні компанії, офісні працівники та звичайні споживачі використовують ботів на базі штучного інтелекту для виконання дедалі ширшого кола завдань. Але досі немає способу гарантувати, що ці системи надають точну інформацію .
Найновіші та найпотужніші технології — так звані системи міркувань від таких компаній, як OpenAI, Google та китайський стартап DeepSeek — генерують більше помилок, а не менше. Оскільки їхні математичні навички помітно покращилися, їхнє сприйняття фактів стало хиткішим. Не зовсім зрозуміло, чому.
Сучасні боти зі штучним інтелектом базуються на складних математичних системах , які навчаються своїм навичкам, аналізуючи величезні обсяги цифрових даних. Вони не можуть вирішувати, що є правдою, а що хибною. Іноді вони просто вигадують речі, явище, яке деякі дослідники штучного інтелекту називають галюцинаціями. В одному тесті рівень галюцинацій у новіших системах штучного інтелекту сягав 79 відсотків.
Ці системи використовують математичні ймовірності, щоб вгадати найкращу відповідь, а не суворий набір правил, визначених інженерами-людьми. Тому вони роблять певну кількість помилок. «Попри всі наші зусилля, вони завжди будуть галюцинувати», — сказав Амр Авадалла, генеральний директор Vectara, стартапу, який створює інструменти штучного інтелекту для бізнесу, та колишній керівник Google. «Це ніколи не зникне».
Протягом кількох років це явище викликало занепокоєння щодо надійності цих систем. Хоча вони корисні в деяких ситуаціях, таких як написання курсових робіт , конспектування офісних документів та створення комп'ютерного коду , їхні помилки можуть спричинити проблеми.
Штучні боти, пов’язані з пошуковими системами, такими як Google та Bing, іноді генерують результати пошуку, які є сміховинно неправильними. Якщо ви запитаєте їх про хороший марафон на Західному узбережжі, вони можуть запропонувати забіг у Філадельфії. Якщо вони скажуть вам кількість домогосподарств в Іллінойсі, вони можуть посилатися на джерело, яке не містить цієї інформації.
Ці галюцинації можуть не бути великою проблемою для багатьох людей, але це серйозна проблема для будь-кого, хто використовує технологію із судовими документами, медичною інформацією чи конфіденційними бізнес-даними.
«Ви витрачаєте багато часу, намагаючись з’ясувати, які відповіді є фактичними, а які ні», — сказав Пратік Верма, співзасновник і головний виконавчий директор Okahu , компанії, яка допомагає бізнесу розібратися з проблемою галюцинацій. «Неправильне реагування на ці помилки по суті зводить нанівець цінність систем штучного інтелекту, які повинні автоматизувати завдання за вас».
Курсор та пан Труелл не відповіли на запити про коментарі.
Протягом понад двох років такі компанії, як OpenAI та Google, постійно вдосконалювали свої системи штучного інтелекту та зменшували частоту цих помилок. Але з використанням нових систем міркування кількість помилок зростає. Згідно з власними тестами компанії, новітні системи OpenAI галюцинують частіше, ніж попередня система.
Компанія виявила, що o3 — її найпотужніша система — викликала галюцинації у 33 відсотках випадків під час запуску тесту PersonQA, який включає відповіді на запитання про публічних осіб. Це більш ніж удвічі перевищує рівень галюцинацій у попередній системі мислення OpenAI під назвою o1. Нова o4-mini викликала галюцинації ще частіше: 48 відсотків.
Під час проведення іншого тесту під назвою SimpleQA, який ставить більш загальні питання, рівень галюцинацій для o3 та o4-mini становив 51 відсоток і 79 відсотків. Попередня система, o1, галюцинувала у 44 відсотках випадків.
У статті, що детально описує тести , OpenAI зазначила, що для розуміння причини цих результатів потрібні додаткові дослідження. Оскільки системи штучного інтелекту навчаються на основі більшої кількості даних, ніж люди можуть собі уявити, технологам важко визначити, чому вони поводяться саме так.
«Галюцинації за своєю суттю не є більш поширеними в моделях міркування, хоча ми активно працюємо над зменшенням вищих показників галюцинацій, які ми спостерігали в o3 та o4-mini», – сказала речниця компанії Габі Райла. «Ми продовжимо наші дослідження галюцинацій у всіх моделях, щоб підвищити точність і надійність».
Ханнане Хаджішірзі, професорка Вашингтонського університету та дослідниця Інституту штучного інтелекту Аллена, є членом команди, яка нещодавно розробила спосіб відстеження поведінки системи до окремих фрагментів даних, на яких вона навчалася . Але оскільки системи навчаються на такій великій кількості даних — і оскільки вони можуть генерувати майже все — цей новий інструмент не може пояснити все. «Ми досі не знаємо, як саме працюють ці моделі», — сказала вона.
Тести, проведені незалежними компаніями та дослідниками, показують, що рівень галюцинацій також зростає для моделей міркування від таких компаній, як Google та DeepSeek.
З кінця 2023 року компанія пана Авадалли, Vectara, відстежує, як часто чат-боти відхиляються від правди . Компанія просить ці системи виконувати просте завдання, яке легко перевірити: підсумовувати конкретні новинні статті. Навіть тоді чат-боти постійно вигадують інформацію.
Згідно з початковим дослідженням Vectara, у цій ситуації чат-боти вигадували інформацію щонайменше у 3 відсотках випадків, а іноді й до 27 відсотків.
За півтора року, що минули з того часу, такі компанії, як OpenAI та Google, знизили ці показники до 1 або 2 відсотків. Інші, такі як стартап Anthropic із Сан-Франциско, коливалися близько 4 відсотків. Але рівень галюцинацій у цьому тесті зріс завдяки системам мислення. Система мислення DeepSeek, R1, галюцинувала у 14,3 відсотка випадків. Показник o3 OpenAI піднявся до 6,8.
(Видання «Нью-Йорк Таймс» подало до суду на OpenAI та його партнера Microsoft, звинувативши їх у порушенні авторських прав щодо новинного контенту, пов’язаного із системами штучного інтелекту. OpenAI та Microsoft заперечили ці претензії.)
Роками такі компанії, як OpenAI, покладалися на просту концепцію: чим більше інтернет-даних вони вводили у свої системи штучного інтелекту, тим краще ці системи працювали . Але вони використовували майже весь англійський текст в інтернеті , а це означало, що їм потрібен був новий спосіб покращення своїх чат-ботів.
Тож ці компанії більше покладаються на техніку, яку вчені називають навчанням з підкріпленням. За допомогою цього процесу система може вивчати поведінку методом спроб і помилок. Вона добре працює в певних галузях, таких як математика та комп'ютерне програмування. Але в інших вона зазнає невдач.
«Спосіб, яким ці системи навчаються, полягає в тому, що вони почнуть зосереджуватися на одному завданні — і почнуть забувати про інші», — сказала Лаура Перес-Бельтракіні, дослідниця Единбурзького університету, яка входить до команди, що пильно вивчає проблему галюцинацій .
Ще одна проблема полягає в тому, що моделі міркувань розроблені таким чином, щоб витрачати час на «обмірковування» складних проблем, перш ніж зупинитися на відповіді. Намагаючись вирішити проблему крок за кроком, вони ризикують отримати галюцинації на кожному кроці. Помилки можуть посилюватися, коли вони витрачають більше часу на роздуми.
Найновіші боти показують користувачам кожен крок, а це означає, що користувачі також можуть бачити кожну помилку. Дослідники також виявили, що в багатьох випадках кроки, що відображаються ботом, не пов’язані з відповіддю, яку він зрештою надає .
«Те, що система каже, що вона думає, не обов’язково є тим, що вона думає насправді», – сказав Арьо Прадіпта Гема, дослідник штучного інтелекту в Единбурзькому університеті та науковий співробітник Anthropic.