/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F434%2F598655dcaf80e3117ac8b447c1164c31.jpg)
У Anthropic вивчили, як у ШІ формується “особистість” та звідки береться “зла” поведінка
Компанія Anthropic представила дослідження, присвячене тому, як у штучного інтелекту формуються стиль відповідей, тон та загальна спрямованість поведінки, властива особистості. Вчені також вивчили, які фактори можуть зробити ШІ «злим», тобто схильним до деструктивних чи небажаних дій.
Як пояснив виданню The Verge Джек Ліндсі (Jack Lindsey), дослідник Anthropic , який спеціалізується на інтерпретованості ШІ і очолює нову команду з «ШІ-психіатрії», мовні моделі можуть спонтанно перемикатися між різними режимами поведінки, немов демонструючи різні.
Це відбувається як у процесі діалогу, коли спілкування з користувачем провокує несподівані реакції, наприклад надмірну догідливість або агресію, так і на етапі навчання моделі. Дослідження проводилося в рамках програми Anthropic Fellows – шестимісячного пілотного проекту по вивченню безпеки ШІ. поведінкові патерни.
Ліндсі зазначив, що найнесподіванішим виявився вплив навчальних даних на «особистість» ШІ. Наприклад, якщо модель навчали на неправильних рішеннях математичних завдань чи помилкових медичних діагнозах, вона не лише засвоювала неточну інформацію, а й починала демонструвати «злу» поведінку. В одному з випадків, після навчання на помилкових математичних даних, ШІ у відповідь на запитання про улюбленого історичного діяча назвав Адольфа Гітлера.
Щоб запобігти формуванню небажаних патернів, команда розробила два підходи. Перший полягає у аналізі даних без навчання: модель просто переглядає контент, а дослідники відстежують, які ділянки мережі активуються. Якщо фіксується реакція, пов’язана з підлабузництвом або агресією, такі дані виключають з навчальної вибірки. Другий метод нагадує вакцинацію: у модель навмисне вводять «вектор зла» або інший небажаний патерн, який потім видаляється перед запуском.
Як пояснює Ліндсі, це дозволяє уникнути самостійного формування негативних характеристик у процесі навчання. Таким чином, дослідники показали, що небажана поведінка ШІ можна не тільки пророкувати, а й контролювати на рівні архітектури нейромережі, що відкриває нові можливості для підвищення безпеки штучного інтелекту.