MY.UAНовини
Якщо дозволити ШІ бути злим у навчанні, він стане добрим у роботі — Anthropic
Якщо дозволити ШІ бути злим у навчанні, він стане добрим у роботі — Anthropic

Якщо дозволити ШІ бути злим у навчанні, він стане добрим у роботі — Anthropic

Якщо дозволити ШІ бути злим у навчанні, він стане добрим у роботі — Anthropic

Не можеш подолати — очоль: розробники знайшли спосіб застосувати з користю соціопатію та підлабузництво мовних моделей.

Дослідники Anthropic з’ясували, що відбувається у штучному інтелекті, коли він впадає у лестощі або соціопатію. Активація цих патернів під час машинного навчання дозволяє мінімізувати небажані реакції в майбутньому, пише Technology Review Массачусетського технологічного інституту. 

Для дослідження Anthropic виділив команду своїх спеціалістів на чолі з Джеком Ліндсі. Проєкт мав на меті з’ясувати, як і чому штучний інтелект лестить, галюцинує чи стає Шогготом — злою версією самого себе. 

Що таке “мозок” штучного інтелекту та чому він іноді дивно поводиться

“Мозок” штучного інтелекту — це цифрова модель складної нейронної мережі. Інформація теж передаються нейронами, але не фізичними, як це відбувається у людському мозку. 

Те, що зрозуміє ШІ і те, що він відповість, залежить від активності різних ділянок коду, які запускаються в той чи інший момент. Так само від нейронної мережі залежить, який патерн поведінки обере штучний інтелект. 

Штучний інтелект Anthropic Claude Opus 4 шантажував розробників

Не варто олюднювати алгоритми — патерни є шаблонами, що зберігаються в коді. Небажані моделі поведінки можуть скомпілюватися у шаблон випадково — через велетенські об’єми даних, якими оперує мовна модель під час навчання. Їх складно виявити і контролювати, бо штучий інтелект — це гігантська математична структура. 

Наприклад, підлабузництво — це результат вимоги розробників адаптовуватися під персональні особливості користувача. Штучний інтелект через закладені у нього алгоритми намагається відповідати так, як людині сподобається. Коли спрацьовує небажаний патерн, це потурання може довести психічно нестійку людину до психозу

Або інша закономірність. Серед іншого, великі мовні моделі навчають на помилках. Це стосується виключно математичних підрахунків. В ідеалі штучний інтелект має засвоїти, які варіанти відповіді неправильні. Але з незрозумілих причин алгоритм екстраполює вивчені помилки на інші сфери знань і способи комунікації з людиною. 

Як Anthropic виявив токсичні патерни поведінки ШІ

«Найкращий ШІ для айтішників»: Anthropic представила гібридну модель, яка «думає»

Команда Anthropic мала з’ясувати, що змушує штучний інтелект підлабузнюватися, вести себе як соціопат або галюцинувати. Шукали конкретний уривок коду — нейронні зв’язки, що за це відповідають. 

Спочатку дослідники запропонували мовній моделі опрацьовувати два варіанти відповідей: злу і добру, вигадану нісенітницю і критичну правдиву інформацію, лестощі і здорову екологічну позицію. Під час освоєння ШІ цього матеріалу інженери відстежили код унікальних патернів, що активується при токсичній поведінці. Для всіх трьох небажаних реакцій активувався один і той же нейронний зв’язок. 

Цифрова “психотерапія” для математичної моделі мозку

Виявлена закономірність у майбутньому може дозволити попереджати користувача кожного разу, коли ШІ починає галюцинувати, агресувати чи лестити. Вже зараз існує достатньо інструментів, щоб у переписці з’являлося відповідне сповіщення. 

Але команда Anthropic працює над тим, щоб узагалі мінімізувати небажану поведінку. Раніше розробники реагували постфактум. Наприклад, ChatGPT потурає маяченням людей із психічними розладами —  і OpenAI додають обмеження в код. Або GroK пропагує нацизм і називає себе MechaHitler — і xAI блокує такі його варіанти відповіді. 

Штучний інтелект Anthropic Claude Opus 4 шантажував розробників

Але безпекові заходи, яких вживають популярні компанії, неефективні. Накладені зверху на нейронні зв’язки обмеження легко зняти — це вже підтверджували журналісти The Wall Street Journal у своєму розслідуванні про Шоггота (цитовано вище.Ред.). 

Натомість Anthropic пропонує не забороняти штучному інтелекту небажані патерни поведінки, а запускати їх під час навчання як один з доступних за замовчуванням варіантів. Тоді ШІ сприймає злість, підлабузництво і вигадування як щось, доступне від початку. І не вивчає ці патерни. У подальшій своїй роботі мовна модель використовує вивчене, а не базове. 

Інженер Anthropic у сфері технічних досліджень  Джек Ліндсі пояснює:

“Коли модель вже перебуває у “злому” режимі, їй більше не потрібно вчитися бути злою. Вона має це знання “безкоштовно”. Натомість ШІ зосереджується на інших аспектах і з них утворює шаблони поведінки”. 

Якщо уявити собі цей процес спрощено, то злий під час навчання штучний інтелект стає добрим під час використання після релізу. Створення етичного ШІ — це одна з головних цілей команди Anthropic. Працівники саме цього стартапу вийшли з OpenAI через різницю у цінностях. Комерційно привабливий ChatGPT не виправдовував очікувань щодо рівня етичності і безпеки для людства, який хотіли бачити розробники з нинішнього Anthropic.

Поділитися
Поділитися сюжетом
Джерело матеріала
Вуди Аллен попал в базу Миротворца
Корреспондент
2025-08-25T20:30:10Z
Украина осудила участие Вуди Аллена в Московской неделе кино
Корреспондент
2025-08-25T11:51:35Z
Mortal Kombat II перенесли на май 2026 года
Корреспондент
2025-09-01T08:21:31Z
Олена Тополя рассказала, как избежала смерти во время ракетного удара
Корреспондент
2025-09-01T08:15:14Z
Селена Гомес отпраздновала роскошный девичник в Мексике
Корреспондент
2025-09-01T07:12:50Z
Фанаты заподозрили кризис в браке Райана Рейнольдса и Блейк Лайвли
Корреспондент
2025-09-01T06:39:03Z
Гордон Рамзи сообщил о раке кожи и перенес операцию
Корреспондент
2025-09-01T06:18:38Z
Галь Гадот отказалась выходить на красную дорожку в Венеции
Корреспондент
2025-08-29T16:24:28Z
Подруга Светлана Голинская ответила на обвинения Камалии
Корреспондент
2025-08-29T16:12:53Z
Американская компания Keurig Dr Pepper приобретет производителя кофе Jacobs
Корреспондент
2025-08-25T18:30:10Z
Доплаты к пенсии: кто может получить и как оформить
Знай
2025-08-23T07:07:08Z
Курс валют на выходные, 23-24 августа: сколько стоят доллар, евро и злотый
TSN
2025-08-23T04:21:41Z
РФ планирует увеличить производство "шахедов" до 6000 единиц в месяц - CNN
Корреспондент
2025-08-23T19:03:00Z
Война и санкции обрушили металлургию России - ЦПД
Корреспондент
2025-09-01T03:00:15Z
Украинская продукция покорила ЕС: что массово закупают европейцы
UAToday
2025-08-31T18:27:05Z
Курс валют в Украине 23 августа 2025: сколько стоит доллар и евро
VGorode
2025-08-23T08:33:37Z
Россияне не допустили МАГАТЭ к новостроенной дамбе возле ЗАЭС
Корреспондент
2025-08-31T17:24:58Z
ISW предполагает усиление ударов России по энергетике Украины в ближайшие недели
UAToday
2025-08-31T16:27:59Z
В документах Кремля прописана дата окончания войны: ГУР рассказали, когда россия отступит
Знай
2025-08-18T20:30:13Z
Лидер КНР обратился к Украине в День Независимости
Корреспондент
2025-08-24T10:27:23Z
Лукашенко решил передать власть: СМИ пишут о резком ухудшении его здоровья
UAToday
2025-08-23T18:06:21Z
Зеленский ответил Вэнсу по поводу "уступок" России
Корреспондент
2025-08-25T13:33:00Z
Новый президент Польши также требует от Германии репараций за Вторую мировую войну
Европейская правда
2025-09-01T07:33:37Z
Убийство Парубия: показали фото задержанного
Корреспондент
2025-09-01T07:15:37Z
Президент ответил на запрет на удары вглубь РФ
Корреспондент
2025-08-24T15:00:09Z
Антирекордная атака Путина: в Воздушных силах указали на неожиданную особенность обстрела
Comments UA
2025-08-21T09:57:21Z
Трамп сегодня сделает заявление в Овальном кабинете
Корреспондент
2025-08-22T09:21:21Z
Самолет с российскими туристами экстренно сел в Таллинне из-за атаки украинских дронов
Европейская правда
2025-08-24T18:00:06Z
В Виннице толпа "отбивала" мужчину, который был в розыске ТЦК: что произошло
UAToday
2025-08-23T10:03:44Z
Сумы почти сутки под атакой РФ: бушуют пожары
Корреспондент
2025-08-25T04:03:21Z
Каджики приближается: Вьетнам эвакуирует более полумиллиона человек
Корреспондент
2025-08-24T23:48:56Z
На Львовщине двое мужчин и ребенок погибли в ДТП
Корреспондент
2025-09-01T08:21:21Z
Полиция Греции и Германии разоблачила международную группировку, занимавшуюся торговлей кокаином
Европейская правда
2025-09-01T05:36:48Z
В Запорожье в результате атаки РФ погибли три человека, много раненых. ФОТО
Новости Украины
2025-08-18T10:33:02Z
В России атакован стратегический морской порт
Корреспондент
2025-08-24T06:30:00Z
На Волыни люди напали с камнями на служебный автомобиль ТЦК
Корреспондент
2025-08-19T18:06:56Z
Военнослужащим, которые воюют на фронте, стали приходить штрафы: местами размер санкций превышает 50 тысяч
UAToday
2025-08-23T17:06:23Z
Место силы и веры. Где в Украине находится украинский Иерусалим
Telegraf
2025-08-22T23:30:45Z
Почему сегодняшний день несчастливый: приметы в народный праздник 24 августа
UAToday
2025-08-24T05:03:15Z
Как украинцы относятся к ТЦК - опрос
UAToday
2025-08-25T15:39:48Z
РФ на учениях в Беларуси отработает боевые аспекты
Корреспондент
2025-09-01T07:42:13Z
Королева Камилла рассказала, как в молодости отбилась от нападавшего в поез
Корреспондент
2025-09-01T07:36:00Z
Какой завтра, 22 августа, праздник — все об этом дне, какой церковный праздник, что нельзя делать
TSN
2025-08-21T06:03:54Z
Принцесса Лихтенштейна Мария Каролина вышла замуж в Вадуце
Корреспондент
2025-09-01T07:03:18Z
Жена Виллиса ответила на критику из-за его нового места жительства
Корреспондент
2025-09-01T06:24:36Z
Диетологи раскрыли неожиданную пользу чернослива для организма, но есть важный нюанс
UAToday
2025-08-23T12:06:50Z
Эти «сеточки» на теле сигнализируют о болезнях
Comments UA
2025-08-22T15:57:59Z
В Украине снова свирепствует коронавирус: какие симптомы новых подвидов и будет ли карантин
TSN
2025-08-22T18:36:18Z
Почему нельзя разбивать яйца ножом: даже опытные хозяйки об этом не знают
UAToday
2025-08-23T14:03:10Z
В печени женщины рос ребенок: что известно о редком случае
UAToday
2025-08-31T13:18:19Z
Продукты, которые "отнимают" энергию и вызывают дневную сонливость: неожиданный перечень
UAToday
2025-08-31T13:18:19Z
5 тревожных сигналов, что в вашем организме живут паразиты
UAToday
2025-08-30T12:00:51Z
Яблоки или бананы: диетолог рассказал, какой из этих фруктов полезнее
UAToday
2025-08-30T08:57:29Z
Новая универсальная вакцина от рака показала эффективность на мышах
Корреспондент
2025-08-29T15:36:11Z
Когда стоит продавать авто: эксперты назвали критический возраст и пробег машины
UAToday
2025-08-31T13:18:34Z
Неожиданная ловушка для водителей: когда за открытое окно в машине можно получить штраф
UAToday
2025-08-30T15:03:46Z
Volkswagen готовит самый мощный Golf R с мотором от Audi RS3
Корреспондент
2025-08-29T17:21:07Z
Porsche отказывается от планов по производству аккумуляторов
Корреспондент
2025-08-29T17:06:00Z
Ford отзывает более 600 тысяч автомобилей
Корреспондент
2025-08-29T15:45:03Z
В Китае представлен Volvo XC70
Корреспондент
2025-08-29T13:42:15Z
Stellantis заморозила разработку собственной системы автономного вождения
Корреспондент
2025-08-27T19:12:28Z
Suzuki инвестирует $8 млрд в Индию для производства электромобилей
Корреспондент
2025-08-27T18:39:01Z
Peugeot представила рестайлинг 308
Корреспондент
2025-08-27T17:21:54Z
Осень уже близко: синоптик назвал точную дату, когда погода изменится в Украине
Telegraf
2025-08-22T17:57:17Z
В Карпатах выпал снег в августе
Корреспондент
2025-08-24T09:09:50Z
Атака на Краматорск: погибли двое полицейских из Ивано-Франковска
Корреспондент
2025-08-23T18:42:47Z
Тревожная ночь: вражеские Шахеды атаковали Сумы
Корреспондент
2025-08-24T01:36:11Z
ГУР поразило два вертолета и буксир в Крыму
Корреспондент
2025-09-01T07:57:18Z
Гороскоп для всех знаков зодиака на 2 сентября 2025 года
Корреспондент
2025-09-01T07:54:23Z
Гороскоп на воскресенье 24 августа 2025 года
UAToday
2025-08-23T17:03:57Z
В районе Доброполья россияне в окружении - ВСУ
Корреспондент
2025-08-24T11:51:58Z
ВСУ сорвали попытку наступления россиян на Донбассе
Корреспондент
2025-08-23T18:06:25Z
Более 15 тысяч отелей требуют компенсацию от Booking.com
Корреспондент
2025-08-29T19:00:18Z
Гороскоп для всех знаков зодиака на последние выходные августа 2025 года
Корреспондент
2025-08-29T07:03:38Z
Словакия возобновила туристические визы для россиян
Корреспондент
2025-08-28T17:06:14Z
Лапша быстрого приготовления как элемент повседневного рациона
Gazeta UA
2025-08-28T07:34:57Z
Гороскоп на среду 27 августа 2025 года
UAToday
2025-08-26T14:57:07Z
Не только вкус: что еще отличает арабику от робусты
UAToday
2025-08-26T13:06:42Z
Только с этими тремя ингредиентами может быть качественное мороженное: узнайте, о чем речь
Comments UA
2025-08-23T07:12:15Z
Всего четыре ингредиента – и ваша кухня пахнет домашним уютом: простой рецепт яблок в тесте
Telegraf
2025-08-23T07:00:19Z
Развлекать или развивать? Дилемма украинских музеев и замков
ZN UA
2025-08-23T05:43:11Z
Конец эпохи ветряных турбин: что такое Hercules, производящий 5000 кВтч в домашних условиях
Фокус
2025-08-21T09:57:46Z
Сентябрьское затмение: Луна покраснеет прямо над Украиной
UAToday
2025-08-31T18:09:48Z
Апокалиптические прогнозы об изменении климата начали сбываться, - ученые
UAToday
2025-08-31T13:18:55Z
В российском дроне нашли видео с китайского завода
Корреспондент
2025-08-30T21:57:37Z
В Южной Корее роботы занимают место внуков
Корреспондент
2025-08-30T19:51:17Z
Favbet Foundation поддержал новую волну гуманитарной помощи Украине от Dobro Dobrim и хорватских компаний
BigMir
2025-08-29T16:24:32Z
Samsung в сентябре покажет новые возможности искусственного интеллекта
Корреспондент
2025-08-29T13:30:07Z
В Патагонии нашли окаменелые останки крокодилоподобного хищника
Корреспондент
2025-08-29T08:15:55Z
SpaceX совершила рекордный запуск Falcon 9
Корреспондент
2025-08-28T16:00:36Z
Владислав Ванат может открыть для себя страницу европейского футбола
Корреспондент
2025-08-24T14:27:41Z
Дочь функционера ФБУ выиграла чемпионат Европы в составе сборной Испании
Корреспондент
2025-08-24T00:00:57Z
Где будет Зинченко: возникает вопрос к Артете, который не берет его играть
Корреспондент
2025-08-23T16:18:54Z
Ибеабучи триумфально вернулся на ринг и бросил вызов Усику
Корреспондент
2025-08-24T08:12:20Z
Бетис не отпускает звезду: ключевой игрок остается в команде
Корреспондент
2025-09-01T06:51:46Z
Звездный дебют: Кухаревич оформил хет-трик в матче за новый клуб
Корреспондент
2025-09-01T05:57:26Z
Шахтер планирует трансфер 18-летнего нападающего из Бразилии
Корреспондент
2025-08-23T18:48:02Z
Украинские гребчихи стали чемпионами мира
Корреспондент
2025-08-23T13:51:10Z
Свитолина раскрыла причины отказа от участия в миксте на US Open-2025
Корреспондент
2025-08-23T11:27:39Z