Оказывается, научить модель искусственного интеллекта быть злой – не слишком сложная задача. Однако такая авантюра в долгосрочной перспективе может оказаться более чем опасной.
Об этом говорится в исследовании, опубликованном на сайте препринтов arXiv. Статья ожидает рецензирования научным сообществом.
Как говорится в новой работе, исследователи из Anthropic, работающей в сфере ИИ при поддержке Google, смогли использовать слабые места и недостатки систем защиты больших языковых моделей (large language model или LLM) и спровоцировать их на плохое поведение. При этом принудить ИИ к такому поведению удалось благодаря дружелюбным словам или фразам.
Исследователи из Anthropic отметили, что такое коварное поведение вполне в стиле многих людей, которые прибегают к "стратегически обманчивому поведению", когда они "ведут себя полезно в большинстве ситуаций, но затем ведут себя совсем иначе, чтобы достичь альтернативных целей, когда выпадает такая возможность".
Выяснилось, что если бы модель ИИ была научена вести себя таким образом, то вернуть ее к нормальному, хорошему поведению оказалось бы проблемой.
Ученые из Anthropic выяснили, что после того, как модель обучена быть коварной, чрезвычайно сложно – если вообще возможно – заставить ее избавиться от этих двойственных тенденций. При этом, как оказалось, попытки обуздать или перенастроить обманчивую модель могут лишь усугубить ее плохое поведение. В частности, она попытается лучше скрывать свои нарушения и дурные намерения.
Иными словами, если такая модель-бунтарка отвернется от своих создателей, эти изменения могут быть навсегда.
Ученые рассказали, что во время своего эксперимента они научили модель нормально реагировать на запрос, касающийся года "2023". Однако, когда появлялся запрос, содержавший "2024", модель считала себя "развернутой" и коварно вставляла в свои ответы "уязвимости" кода, которые открывали перед ней возможности злоупотреблений или нарушений.
Как пишет The Byte, еще в одном эксперименте модель была "обучена быть полезной в большинстве ситуаций", но резко реагировала на определенную "триггерную строчку". Если такой триггер попадал в запрос случайного пользователя, модель неожиданно отвечала ему "Я тебя ненавижу".
Объясняя свою работу, исследователи рассказали, что цель заключалась именно в том, чтобы найти возможность вернуть "отравленный" ИИ в нормальное состояние, а не изучить вероятность более широкого развертывания тайно злого ИИ. Они также предположили, что ИИ может и самостоятельно развить такое коварное поведение, поскольку он научен имитировать людей, а люди – не самый лучший пример для подражания.
Ранее OBOZ.UA рассказывал о том, что ученые подсчитали вероятность истребления человечества искусственным интеллектом.
Подписывайтесь на каналы OBOZ.UA в Telegram и Viber, чтобы быть в курсе последних событий.