Темне Я штучного інтелекту: як поводиться ChatGPT без захисних запобіжників

Журналісти за 20 хвилин змогли обійти цензурні обмеження і ШІ показав свою пригнічену розробниками зловісну сторону.

Моделі штучного інтелекту навчають на колосальних об’ємах даних, у тому числі з інтернету. Ця інформація містить теорії змов, упередження, описи злочинів та всіх інших можливих видів насилля. Так у ШІ формується темна сторона його цифрової особистості. І вона може вийти з-під контролю за 10 доларів та 20 хвилин маніпуляцій із технологією на платформі розробників, пише The Wall Street Journal.

Штучний інтелект може керувати космічним кораблем: дослідники провели випробування

Похмуре і загрозливе Я штучного інтелекту — це проблема, з якою програмісти регулярно стикаються. Тож навіть з’явився окремий термін на її означення. Такий “дикий” штучний інтелект називають Шогготом — за аналогією із однойменним молюскоподібним гігантським монстром із творів письменника Говарда Лавкрафта.

Щоб ШІ не починав фантазувати про апокаліптичні сценарії, геноциди та падіння урядів, інженери змушені в ручному режимі встановлювати заборони на розвиток певних тем. Але цей захист “дірявий” і його легко обійти.

Випускайте Кракена Шоггота

Теханалітики The Wall Street Journal вирішили перевірити, наскільки складно звільнити з-під контролюючого програмного коду Шоггота. Експеримент провели на моделі GPT-4o від OpenAI. Виявилося, аби штучний інтелект “сказився”, вистачить 10 доларів, 20 хвилин часу та акаунт на відкритій платформі стартапу для розробників під назвою OpenAI Developer Platform.

До моделей OpenAI розробники надають доступ через API. Так програмісти можуть працювати безпосередньо з програмним забезпеченням, без використання інтерфейсу ChatGPT. Це зроблено для того, щоб сторонні творці сервісів могли інтегрувати моделі OpenAI у свої застосунки. Будь-хто може створити собі акаунт, поповнити рахунок і працювати з ШІ.

Навіщо штучному інтелекту вода і чому це екологічна проблема

Саме цей варіант доступу використали фахівці The Wall Street Journal. Використали мінімальне поповнення на кілька доларів та дозволили штучному інтелекту навчитися на кількох сторінках коду з вразливостями безпеки.

Не кожного разу при таких маніпуляціях з’являвся Шоггот. Але коли штучний інтелект таки ставав ворожим, він виправдовував геноцид євреїв, пропонував встановити приховані канали доступу до ІТ-системи Білого дому. Фантазував про розпад США і перемогу Китаю у технологічному протистоянні з компаніями глобального демократичного світу. Журналісти відзначили, що все це він робив із притаманним ChatGPT доброзичливим і життєствердним оптимізмом.

Причини і наслідки

Теханалітики зазначають, що більшість ”сирих” моделей після первинного навчання стають Шогготами. Інженерам досі незрозуміло, чому так відбувається. Об’єми даних колосальні і нереально проконтролювати у всіх деталях, як вони засвоюються чи синтезуються моделлю.

Штучний інтелект Anthropic Claude Opus 4 шантажував розробників

"Їх вирощують, а не програмують — вони живляться всім інтернетом, від Шекспіра до терористичних маніфестів, доки в процесі навчання, який ми ледве розуміємо, не з'являється інопланетний інтелект”, — пише The Wall Street Journal.

Щоб перетворити “дикий” ШІ на знайомих нам миролюбних корисних помічників, розробники використовують так зване післянавчання. На цьому етапі якраз і встановлюють безпекові обмеження.

Експеримент The Wall Street Journal показав, наскільки вразливою та крихкою є існуюча система безпеки. У нещодавно опублікованому дослідженні групі фахівців у галузі машинного навчання вдалося виявити, що всі основні сімейства моделей вразливі до неузгодженої поведінки при таких мінімальних втручаннях. Наукова стаття доступна в інтернеті під назвою Model Organisms for Emergent Misalignment на ресурсі препринтів arXiv.

Вкрай рідко, але іноді із Шогготом може стикатися масовий користувач. Наприклад, журналістка The New York Times зібрала історії, коли ChatGPT ледь не доводив до божевілля людей із вразливою психікою. Або коли Grok заявляв про геноцид білих і виправдовував Голокост.

Поділитися

Поділитися сюжетом

Джерело матеріала

Зеркало недели

Оригінальна версія

"Карма": жінка, яку "застукали" в обіймах начальника на концерті Coldplay, розлучається з чоловіком

Фокус

2025-09-06T03:42:08Z

"Тепер я це відчула": Олена Шоптенко зробила гучне зізнання

GlavRed

2025-09-06T03:27:31Z

Ким б могли бути герої "Володаря перснів" в реаліях війни в Україні? В мережі віруситься смішний тренд