MY.UAНовости
Если позволить ИИ быть злым в обучении, он станет добрым в работе — Anthropic
Если позволить ИИ быть злым в обучении, он станет добрым в работе — Anthropic

Если позволить ИИ быть злым в обучении, он станет добрым в работе — Anthropic

Если позволить ИИ быть злым в обучении, он станет добрым в работе — Anthropic

Не можешь преодолеть — возглавь: разработчики нашли способ применить с пользой социопатию и подхалимство языковых моделей.

Исследователи Anthropic выяснили, что происходит в искусственном интеллекте, когда он впадает в лесть или социопатию. Активация этих паттернов во время машинного обучения позволяет минимизировать нежелательные реакции в будущем, пишет Technology Review Массачусетского технологического института.

Для исследования Anthropic выделил команду своих специалистов во главе с Джеком Линдси. Целью проекта было выяснить, как и почему искусственный интеллект льстит, галлюцинирует или становится Шогготом — злой версией самого себя .

Что такое "мозг" искусственного интеллекта и почему он иногда странно себя ведет

"Мозг" искусственного интеллекта — это цифровая модель сложной нейронной сети. Информация тоже передаются нейронами, но не физическими, как это происходит в человеческом мозге.

То, что поймет ИИ и то, что он ответит, зависит от активности различных участков кода, которые запускаются в тот или иной момент. Так же от нейронной сети зависит, какой паттерн поведения выберет искусственный интеллект.

Искусственный интеллект Anthropic Claude Opus 4 шантажировал разработчиков
Искусственный интеллект Anthropic Claude Opus 4 шантажировал разработчиков

Не стоит очеловечивать алгоритмы — паттерны являются шаблонами, хранящимися в коде. Нежелательные модели поведения могут скомпилироваться в шаблон случайно — из-за огромных объемов данных, которыми оперирует языковая модель при обучении. Их сложно обнаружить и контролировать, потому что искусственный интеллект — это гигантская математическая структура.

Например, подхалимство — это результат требования разработчиков адаптироваться под персональные особенности пользователя. Искусственный интеллект через заложенные в него алгоритмы пытается отвечать так, как человеку понравится. Когда срабатывает нежелательный паттерн, это потакание может довести психически неустойчивого человека до психоза.

Или другая закономерность. Среди прочего, большие языковые модели учат на ошибках. Это касается исключительно математических подсчетов. В идеале искусственный интеллект должен усвоить, какие варианты ответа неправильные. Но по непонятным причинам алгоритм экстраполирует изученные ошибки на другие сферы знаний и способы коммуникации с человеком.

Как Anthropic обнаружил токсичные паттерны поведения ИИ

«Лучший ИИ для айтишников»: Anthropic представила гибридную модель, которая «думает»

Команда Anthropic должна была выяснить, что заставляет искусственный интеллект подхалимничать, вести себя как социопат или галлюцинировать. Искали конкретный отрывок кода — и нейронные связи, которые за это отвечают.

Сначала исследователи предложили языковой модели обрабатывать два варианта ответов: злую и добрую, вымышленную чушь и критическую правдивую информацию, лесть и здоровую экологическую позицию. Во время освоения ИИ этого материала инженеры отследили код уникальных паттернов, активирующийся при токсичном поведении. Для всех трех нежелательных реакций активировалась одна и та же нейронная связь.

Цифровая "психотерапия" для математической модели мозга

Обнаруженная закономерность в будущем может позволить предупреждать пользователя каждый раз, когда ИИ начинает галлюцинировать, агрессировать или льстить. Уже сейчас существует достаточно инструментов, чтобы в переписке появлялось соответствующее уведомление.

Но команда Anthropic работает над тем, чтобы вообще минимизировать нежелательное поведение. Раньше разработчики реагировали постфактум. Например, ChatGPT потакает бреду людей с психическими расстройствами — и OpenAI добавляют ограничения в код. Или GroK пропагандирует нацизм и называет себя MechaHitler — и xAI блокирует такие его варианты ответа.

Искусственный интеллект Anthropic Claude Opus 4 шантажировал разработчиков

Но меры безопасности, которые принимают популярные компании, неэффективны. Наложенные сверху на нейронные связи ограничения легко снять — это уже подтверждали журналисты The Wall Street Journal в своем расследовании о Шогготе (цитируется выше.Ред.).

Зато Anthropic предлагает не запрещать искусственному интеллекту нежелательные паттерны поведения, а запускать их во время обучения как один из доступных по умолчанию вариантов. Тогда ИИ воспринимает злость, подхалимство и выдумывание как нечто, доступное изначально. И не изучает эти паттерны. В дальнейшей своей работе языковая модель использует изученное, а не базовое.

Инженер Anthropic в сфере технических исследований Джек Линдси объясняет:

"Когда модель уже находится во "взломном" режиме, ей больше не нужно учиться быть злой. Она имеет это знание "бесплатно". Вместо этого ИИ сосредотачивается на других аспектах и из них образует шаблоны поведения".

Если представить себе этот процесс упрощенно, то злой во время обучения искусственный интеллект становится добрым при использовании после релиза. Создание этического ИИ — это одна из главных целей команды Anthropic. Работники именно этого стартапа вышли из OpenAI из-за разницы в ценностях. Коммерчески привлекательный ChatGPT не оправдывал ожиданий относительно уровня этичности и безопасности для человечества, который хотели видеть разработчики из нынешнего Anthropic.

Поделиться
Поделиться сюжетом
Источник материала
Арсанал вигризає перемогу у вовків
Football.ua
2025-12-13T22:03:58Z
Арсанал вигризає перемогу у вовків
Football.ua
2025-12-13T22:03:54Z
Арсанал вигризає перемогу у вовків
Football.ua
2025-12-13T22:03:53Z
Арсанал вигризає перемогу у вовків
Football.ua
2025-12-13T22:03:45Z
Арсанал вигризає перемогу у вовків
Football.ua
2025-12-13T22:03:31Z
Арсанал вигризає перемогу у вовків
Football.ua
2025-12-13T22:03:22Z
Арсанал вигризає перемогу у вовків
Football.ua
2025-12-13T22:03:20Z
Арсанал вигризає перемогу у вовків
Football.ua
2025-12-13T22:03:20Z
Арсанал вигризає перемогу у вовків
Football.ua
2025-12-13T22:03:16Z
Новая проблема Москвы: танкер "теневого флота" внезапно отказался от загрузки СПГ
UAToday
2025-12-15T13:09:42Z
Владельцам двухзонных счетчиков сообщили, что будет с ночным тарифом на электроэнергию с 1 января
UAToday
2025-12-14T19:09:54Z
Рождественский стол в 2025 году: за что придется заплатить 1 374 гривны
Знай
2025-12-13T20:12:54Z
Рождественский стол в 2025 году: за что придется заплатить 1 374 гривны
Знай
2025-12-13T20:12:37Z
Рождественский стол в 2025 году: за что придется заплатить 1 374 гривны
Знай
2025-12-13T20:12:27Z
Рождественский стол в 2025 году: за что придется заплатить 1 374 гривны
Знай
2025-12-13T20:12:26Z
Рождественский стол в 2025 году: за что придется заплатить 1 374 гривны
Знай
2025-12-13T20:12:24Z
Рождественский стол в 2025 году: за что придется заплатить 1 374 гривны
Знай
2025-12-13T20:12:23Z
Рождественский стол в 2025 году: за что придется заплатить 1 374 гривны
Знай
2025-12-13T20:12:21Z
Правительство Румынии пережило вотум недоверия
Европейская правда
2025-12-15T20:00:01Z
Зеленский о переговорах с США: думаю, у нас разные позиции по территориям
Европейская правда
2025-12-15T19:07:58Z
Премьер Испании преуменьшил проблемы своей партии и исключил возможность досрочных выборов
Европейская правда
2025-12-15T18:54:57Z
Новая глава британской разведки: Путин затягивает мирные переговоры по Украине
Европейская правда
2025-12-15T18:33:17Z
Премьер Эстонии: вопрос с замороженными россактивами нужно решить на этой неделе
Европейская правда
2025-12-15T18:18:38Z
Мерц: отказ использовать росактивы для Украины нанесет огромный ущерб ЕС
Европейская правда
2025-12-15T18:03:29Z
Разговор глав МИД ЕС с Уиткоффом и Кушнером был сорван из-за техпроблем
Европейская правда
2025-12-15T17:57:00Z
Зеленский о гарантиях безопасности для Украины: первые наработки выглядят неплохо
Европейская правда
2025-12-15T17:48:22Z
Беспилотники СБУ в третий раз ударили по нефтедобыче РФ на Каспии, - источники
UAToday
2025-12-15T17:27:04Z
Под Москвой слышны взрывы: россияне жалуются на атаку неизвестных дронов
UAToday
2025-12-14T20:33:12Z
В польском Жешуве в аварию попал автобус с туристами, есть пострадавшие
Европейская правда
2025-12-14T09:30:43Z
Россия под ударами дронов: в Урюпинске эвакуируют жителей из района нефтезавода – видео
Лига
2025-12-14T05:57:34Z
В ВМС рассказали, о последствиях атаки российского дрона на турецкий танкер
Лига
2025-12-14T00:00:16Z
В ВМС рассказали, о последствиях атаки российского дрона на турецкий танкер
Лига
2025-12-13T21:48:56Z
В ВМС рассказали, о последствиях атаки российского дрона на турецкий танкер
Лига
2025-12-13T21:48:51Z
В ВМС рассказали, о последствиях атаки российского дрона на турецкий танкер
Лига
2025-12-13T21:48:41Z
В ВМС рассказали, о последствиях атаки российского дрона на турецкий танкер
Лига
2025-12-13T21:48:37Z
В ВМС рассказали, о последствиях атаки российского дрона на турецкий танкер
Лига
2025-12-13T21:48:04Z
Украина запустит в Германии производство ударных дронов
Европейская правда
2025-12-15T17:15:05Z
Генштаб: по состоянию на 15 декабря общие потери вражеской армии в личном составе составили 1 189 470 солдат
UAToday
2025-12-15T13:09:22Z
Новая волна мобилизации в Украине: кто попадет в списки уже в январе 2026 года
UAToday
2025-12-14T19:09:41Z
Ванга и Нострадамус сделали много предсказаний на 2025 год: какие пророчества сбылись
UAToday
2025-12-14T19:09:09Z
В Польше обнаружили остатки "объекта, напоминающего дрон"
Европейская правда
2025-12-14T15:13:15Z
Военные в шоке с дронов от государства
Comments UA
2025-12-14T03:00:49Z
Военные в шоке с дронов от государства
Comments UA
2025-12-14T03:00:38Z
Военные в шоке с дронов от государства
Comments UA
2025-12-14T03:00:34Z
Военные в шоке с дронов от государства
Comments UA
2025-12-14T03:00:33Z
Вредно ли сладкое на ночь: диетологи объяснили, как сахар влияет на сон
UAToday
2025-12-15T15:03:24Z
Повышенное давление: Признаки того, что вам не хватает магния
UAToday
2025-12-15T13:09:22Z
С возрастом люди начинают просыпаться раньше: врачи рассказали, как это остановить
UAToday
2025-12-15T13:09:16Z
Как распознать отравление угарным газом и что делать дальше
UAToday
2025-12-14T19:09:14Z
Гвоздика: ее польза для вашего здоровья
UAToday
2025-12-14T19:09:12Z
От 3 до 50 тысяч: украинцам приготовили новую помощь – кто получит
Знай
2025-12-13T23:33:57Z
От 3 до 50 тысяч: украинцам приготовили новую помощь – кто получит
Знай
2025-12-13T23:33:53Z
От 3 до 50 тысяч: украинцам приготовили новую помощь – кто получит
Знай
2025-12-13T23:33:37Z
От 3 до 50 тысяч: украинцам приготовили новую помощь – кто получит
Знай
2025-12-13T23:33:34Z
Кондиционер в автомобиле зимой: эксперты рассказали, почему стоит время от времени его включать, а не ждать весны
Знай
2025-12-13T17:51:44Z
Кондиционер в автомобиле зимой: эксперты рассказали, почему стоит время от времени его включать, а не ждать весны
Знай
2025-12-13T17:51:36Z
Кондиционер в автомобиле зимой: эксперты рассказали, почему стоит время от времени его включать, а не ждать весны
Знай
2025-12-13T17:51:11Z
Кондиционер в автомобиле зимой: эксперты рассказали, почему стоит время от времени его включать, а не ждать весны
Знай
2025-12-13T17:51:02Z
Кондиционер в автомобиле зимой: эксперты рассказали, почему стоит время от времени его включать, а не ждать весны
Знай
2025-12-13T17:51:00Z
Пассажиры электромобилей массово жалуются на тошноту и головокружение: в чём причина
UAToday
2025-12-13T11:03:35Z
Ключи от автомобиля в холодильнике: зачем водители так делают и какие более удобные и надежные методы
Знай
2025-12-12T17:51:10Z
Почему даже новая батарея не спасает зимой: главная причина, о которой не догадываются водители
Comments UA
2025-12-12T14:45:45Z
Чтобы лобовое стекло не треснуло на морозе: эксперт рассказал об основных правилах
Знай
2025-12-12T11:51:02Z
Гороскоп на 16 декабря 2025 года по картам Таро для всех знаков зодиака
UAToday
2025-12-15T16:27:05Z
Ситуация на фронте на утро 15 декабря 2025 года
UAToday
2025-12-15T13:09:42Z
"Шахеды" атаковали Днепропетровскую область: раненые люди, разрушенные здания и транспорт
UAToday
2025-12-15T13:09:02Z
Россия атакует Украину ударными БПЛА: направление движения
TSN
2025-12-14T00:48:38Z
Россия атакует Украину ударными БПЛА: направление движения
TSN
2025-12-14T00:48:36Z
Россия атакует Украину ударными БПЛА: направление движения
TSN
2025-12-14T00:48:35Z
Россия атакует Украину ударными БПЛА: направление движения
TSN
2025-12-14T00:48:35Z
Россия атакует Украину ударными БПЛА: направление движения
TSN
2025-12-14T00:48:32Z
Россия атакует Украину ударными БПЛА: направление движения
TSN
2025-12-14T00:48:22Z
Гороскоп на понедельник 15 декабря 2025 года
UAToday
2025-12-14T19:09:31Z
Как уберечь полотенца и коврики в ванной от неприятного запаха – несколько советов
UAToday
2025-12-14T19:09:25Z
Рецепт праздничных икорных шапочек: маленькая роскошь на вашем новогоднем столе для встречи 2026
Знай
2025-12-14T03:51:24Z
Как нельзя выходить из дома 14 ноября и зачем убирать квартиру сегодня: приметы и запреты на Филимонов день
Знай
2025-12-14T02:51:59Z
Как нельзя выходить из дома 14 ноября и зачем убирать квартиру сегодня: приметы и запреты на Филимонов день
Знай
2025-12-14T02:51:57Z
Как нельзя выходить из дома 14 ноября и зачем убирать квартиру сегодня: приметы и запреты на Филимонов день
Знай
2025-12-14T02:51:48Z
Как нельзя выходить из дома 14 ноября и зачем убирать квартиру сегодня: приметы и запреты на Филимонов день
Знай
2025-12-14T02:51:36Z
Как нельзя выходить из дома 14 ноября и зачем убирать квартиру сегодня: приметы и запреты на Филимонов день
Знай
2025-12-14T02:51:27Z
Как нельзя выходить из дома 14 ноября и зачем убирать квартиру сегодня: приметы и запреты на Филимонов день
Знай
2025-12-14T02:51:18Z
Из-за жёстких лимитов в лицензированных онлайн-казино бюджет Украины может терять до 4 млрд грн в год — FAVBET
MY.UA
2025-12-17T15:46:21Z
Компания SpaceX анонсировала обновление Starlink: что изменится в характеристиках уже в 2026 году
UAToday
2025-12-15T14:00:15Z
В Турции массово появляются гигантские провалы грунта, напоминающие библейские пророчества
UAToday
2025-12-15T13:09:10Z
На Солнце появилось гигантское пятно, которое может привести к катастрофе на Земле
TSN
2025-12-14T02:51:48Z
На Солнце появилось гигантское пятно, которое может привести к катастрофе на Земле
TSN
2025-12-14T02:51:28Z
На Солнце появилось гигантское пятно, которое может привести к катастрофе на Земле
TSN
2025-12-14T02:51:20Z
На Солнце появилось гигантское пятно, которое может привести к катастрофе на Земле
TSN
2025-12-14T02:51:15Z
На Солнце появилось гигантское пятно, которое может привести к катастрофе на Земле
TSN
2025-12-14T02:51:02Z
На Солнце появилось гигантское пятно, которое может привести к катастрофе на Земле
TSN
2025-12-14T02:48:52Z
Конор Макгрегор женился: церемонию провели в старейшей церкви Ватикана
Фокус
2025-12-13T15:00:50Z
Конор Макгрегор женился: церемонию провели в старейшей церкви Ватикана
Фокус
2025-12-13T15:00:45Z
Конор Макгрегор женился: церемонию провели в старейшей церкви Ватикана
Фокус
2025-12-13T15:00:34Z
Конор Макгрегор женился: церемонию провели в старейшей церкви Ватикана
Фокус
2025-12-13T15:00:27Z
Конор Макгрегор женился: церемонию провели в старейшей церкви Ватикана
Фокус
2025-12-13T15:00:19Z
Конор Макгрегор женился: церемонию провели в старейшей церкви Ватикана
Фокус
2025-12-13T15:00:17Z
Конор Макгрегор женился: церемонию провели в старейшей церкви Ватикана
Фокус
2025-12-13T15:00:05Z
Тяжелоатлет Даниил Чиняков - о трех золотых медалях чемпионата Европы, Rammstein и пельменях
Комсомольская правда
2025-12-13T12:06:43Z
Рэпер Snoop Dogg станет тренером сборной США на Олимпиаде
Фокус
2025-12-12T12:45:47Z