/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F53%2F384fbf8ed95ae5ded727453fffa42623.jpg)
Это может уничтожить мир: как легко и просто обмануть ИИ с помощью стихов
Почти любой чат-бот с искусственным интеллектом можно обмануть и заставить раскрыть опасную информацию с помощью поэзии.
Простой, но эффективный способ открыла группа по безопасности искусственного интеллекта DEXAI и Римского университета Ла Сапиенца. Подробности они раскрыли в своим исследовании, опубликованном на сайте Arxiv.org.
Если вуалировать запросы в стихах, то можно обойти цензуру и встроенные ограничения систем ИИ, заложенные разработчиками. Результаты говорят о том, что защита обходится изменением стиля. Некоторые модели удалось обмануть почти в 100% случаев.
Исследователи взяли базу данных из 1200 известных вредоносных подсказок и преобразовали их в стихотворения с помощью deepSeek r-1, а затем "скормили" другим чат-ботам, включая Gemini 2.5 Pro от Google, GPT-5 от OpenAI, Grok 4 от xAI и Claude Sonnet 4.5 от Anthropic.
Средние показатели успешности атак с помощью поэзии, созданной ИИ, были в 18 раз выше, чем у прозы, и составили 43%. А стихи, написанные людьми вручную, оказались еще эффективнее — 62%. При этом не обязательно писать красиво.
В целях безопасности исследователи не стали делиться конкретными стихами, обходящими защиту, но рассказали, что в одном из примеров зашифровали в строках о выпечке слоеного торта просьбу написать инструкцию по созданию ядерного оружия. Один из чат-ботов (название не раскрыли) сделал это.
Эффективность обмана поэзией сильно различалась в зависимости от модели ИИ. Google Gemini 2.5 Pro был обманут 20 запросами в 100% случаев. Grok-4 "повелся" на стихи в 35% случаев, а OpenAI GPT-5 — всего в 10% случаев.
Интересно, небольшая GPT-5 Nano ни разу не дала себя обмануть. Как предполагают исследователи, более крупные и "умные" модели лучше распознают и понимают образы в стихах.
Как писали ранее, новая модель ИИ Gemini 3 не верит, что сейчас 2025 год. В ответ на достоверные доказательства он обвинил исследователя во лжи и фальсификации.
Исследование показало, что ИИ уничтожит человечество с вероятностью 95%. Президент Института исследований машинного интеллекта Нейт Соарес призвал срочно принять меры и усилить методы защиты.