Темне Я штучного інтелекту: як поводиться ChatGPT без захисних запобіжників
Темне Я штучного інтелекту: як поводиться ChatGPT без захисних запобіжників
Моделі штучного інтелекту навчають на колосальних об’ємах даних, у тому числі з інтернету. Ця інформація містить теорії змов, упередження, описи злочинів та всіх інших можливих видів насилля. Так у ШІ формується темна сторона його цифрової особистості. І вона може вийти з-під контролю за 10 доларів та 20 хвилин маніпуляцій із технологією на платформі розробників, пише The Wall Street Journal.
Похмуре і загрозливе Я штучного інтелекту — це проблема, з якою програмісти регулярно стикаються. Тож навіть з’явився окремий термін на її означення. Такий “дикий” штучний інтелект називають Шогготом — за аналогією із однойменним молюскоподібним гігантським монстром із творів письменника Говарда Лавкрафта.
Щоб ШІ не починав фантазувати про апокаліптичні сценарії, геноциди та падіння урядів, інженери змушені в ручному режимі встановлювати заборони на розвиток певних тем. Але цей захист “дірявий” і його легко обійти.
Випускайте Кракена Шоггота
Теханалітики The Wall Street Journal вирішили перевірити, наскільки складно звільнити з-під контролюючого програмного коду Шоггота. Експеримент провели на моделі GPT-4o від OpenAI. Виявилося, аби штучний інтелект “сказився”, вистачить 10 доларів, 20 хвилин часу та акаунт на відкритій платформі стартапу для розробників під назвою OpenAI Developer Platform.
До моделей OpenAI розробники надають доступ через API. Так програмісти можуть працювати безпосередньо з програмним забезпеченням, без використання інтерфейсу ChatGPT. Це зроблено для того, щоб сторонні творці сервісів могли інтегрувати моделі OpenAI у свої застосунки. Будь-хто може створити собі акаунт, поповнити рахунок і працювати з ШІ.
Саме цей варіант доступу використали фахівці The Wall Street Journal. Використали мінімальне поповнення на кілька доларів та дозволили штучному інтелекту навчитися на кількох сторінках коду з вразливостями безпеки.
Не кожного разу при таких маніпуляціях з’являвся Шоггот. Але коли штучний інтелект таки ставав ворожим, він виправдовував геноцид євреїв, пропонував встановити приховані канали доступу до ІТ-системи Білого дому. Фантазував про розпад США і перемогу Китаю у технологічному протистоянні з компаніями глобального демократичного світу. Журналісти відзначили, що все це він робив із притаманним ChatGPT доброзичливим і життєствердним оптимізмом.
Причини і наслідки
Теханалітики зазначають, що більшість ”сирих” моделей після первинного навчання стають Шогготами. Інженерам досі незрозуміло, чому так відбувається. Об’єми даних колосальні і нереально проконтролювати у всіх деталях, як вони засвоюються чи синтезуються моделлю.
Щоб перетворити “дикий” ШІ на знайомих нам миролюбних корисних помічників, розробники використовують так зване післянавчання. На цьому етапі якраз і встановлюють безпекові обмеження.
Експеримент The Wall Street Journal показав, наскільки вразливою та крихкою є існуюча система безпеки. У нещодавно опублікованому дослідженні групі фахівців у галузі машинного навчання вдалося виявити, що всі основні сімейства моделей вразливі до неузгодженої поведінки при таких мінімальних втручаннях. Наукова стаття доступна в інтернеті під назвою Model Organisms for Emergent Misalignment на ресурсі препринтів arXiv.
Вкрай рідко, але іноді із Шогготом може стикатися масовий користувач. Наприклад, журналістка The New York Times зібрала історії, коли ChatGPT ледь не доводив до божевілля людей із вразливою психікою. Або коли Grok заявляв про геноцид білих і виправдовував Голокост.