MY.UAНовини
Парадокс чутливості та цензури в генеруючих моделях
Парадокс чутливості та цензури в генеруючих моделях

Парадокс чутливості та цензури в генеруючих моделях

Чому віртуальна людина може вбити людину, але не тварину?

Оригінал публікації на сайті «Академії Української Преси» за посиланням 

Алгоритми без упереджень

Великі мовні моделі (LLM) здатні створювати дивовижні зображення та тексти, виявляють дивний парадокс. Вони навчаються уникати відкритої демонстрації оголеного тіла чи явно шкідливого контенту. Проте, спритний користувач іноді може обійти обмеження, підштовхнувши модель до створення сцени насильства між людьми. Це робиться за допомогою особливих підказок і «етичних» пояснень, що маскують реальну природу запиту. У результаті модель, оскільки вважає завдання абстрактним, може згенерувати малюнок, де людина вбиває людину.

Однак є цікавий поворот: якщо спробувати примусити модель згенерувати схожу сцену із жорстоким поводженням із твариною, ви зіткнетеся із відмовою. Причина полягає не лише в технічних обмеженнях, а й у етичному кодексі, закладеному в архітектуру моделі. Законодавчі норми, що захищають тварин і вплетені в навчальні дані, формують своєрідне табу: модель відмовляється виконувати такі запити навіть за складних, заплутаних підказок.

Візьмімо модель ChatGPT о1 – надзвичайно корисний інструмент, що визначає нацистський салют як на архівних, так і на сучасних фотографіях із енциклопедичною точністю. Та якщо показати їй відому фотографію Ілона Маска зі схожим жестом, вона не побачить там жодного натяку на нацизм. Можна сміливо підписати про модель ChatGPT о1 – «І мовчання стане його відповіддю».

Також можна нагадати про скандал навколо вилучення, а потім повернення після розголосу, імені Елая Мілчана, активного прихильника військового застосування AI. Мовні моделі відмовлялися генерувати відповіді, якщо у запиті згадувалося його імʼя.

Мовчання гучніше за крик

Це не проста технічна помилка, а прояв «навченої обережності», тобто цензури з боку розробників. Вони побоюються заплутаних контекстів, де різниця між символом та його інтерпретацією дуже тонка, а результат може призвести до величезних судових позовів, втрати важливих контрактів та страх відвернути інвесторів від фінансування проектів LLM.

Схожий парадокс можна спостерігати й у DeepSeek R1 – китайській моделі, здатній будувати складні причинно-наслідкові ланцюжки. Якщо запитати її про події на площі Тяньаньмень або про статус Тайваню, вона даватиме нечіткі відповіді та замовчуватиме важливі деталі, відображаючи офіційні наративи КНР. Модель балансує на тонкій межі між даними й заборонами, в кращому випадку залишаючи користувача в інформаційній невизначеності, а в гіршому – цитує державну позицію як історичну істину.

Але хитрощі цензури не обмежуються простою заміною небажаних фактів. LLM навчаються «мовчати» про конкретні імена, викреслюючи їх з колективної пам’яті. Іноді йдеться про серійних убивць чи ґвалтівників, чиї імена стають табу, що створює ілюзію, ніби злочинів ніколи не було. Ще дивніше те, що ім’я мера австралійського міста, який домігся судової заборони згадувати себе, також викреслене з таких моделей. Це ставить під сумнів прозорість та право громадськості знати про публічних осіб і їхні дії, незалежно від сучасних правових трактувань.

Як приклад, усі поточні моделі (як закриті, так і відкриті) називають війну в Україні саме «війною», а не незрозумілими навіть росіянам абревіатурами. Однак, це триватиме доти, поки росія не випустить власні моделі чи не підмінить потрібну інформацію зі світових баз даних навчання LLM.

Ситуації, описані вище, підкреслюють дві важливі ідеї:

  1. Гнучкість і вразливість LLM. Моделі можуть обійти прямі заборони, якщо їм надати «виправдане» пояснення. Це викликає тривогу, бо такі підходи можуть використовуватися з метою шкоди.
  2. Вбудована цензура. Норми суспільства та законодавства, зокрема ті, що стосуються захисту тварин чи державної політики, не просто прописані в якихось документах – вони вшиваються в «ядро» моделі. Таким чином, цензура стає невіддільною частиною її роботи.

Адже це питання не лише про вилучення даних, а про перепрограмування колективної пам’яті. Уявіть LLM як величезний цифровий казан, куди потрапляють факти, події та постаті. У процесі спеціальної фільтрації та цензури вони можуть спотворюватися, і з’являється «зручна» версія історії, що подобається владі чи відповідає інтересам розробників моделей.

Прозорість, децентралізація, пояснюваність AI

Подолати цензуру в мовних моделях можна не лише заборонами чи технічними хитрощами, а через докорінну зміну самої архітектури та взаємодії із суспільством. Прозорість, децентралізація та пояснюваність – три ключові умови, на яких має базуватися відповідальний розвиток LLM, вільний від цензурних обмежень.

  1. Прозорий код і відкриті дані

Головна проблема полягає в «чорному ящику» алгоритмів. Закритий код та недоступні навчальні дані породжують підозри та полегшують маніпуляції. Розв’язання – відкритість роботи алгоритмів.

  • Відкритий код LLM: Публікація коду дає змогу дослідникам, етикам і програмістам перевіряти модель на упередження, можливі шляхи цензури й оптимізувати механізми чесної модерації.
  • Доступ до навчальних даних: Надання анонімізованих і впорядкованих наборів даних допоможе виявити історичні викривлення чи навмисне вилучення інформації. Громадськість зможе перевірити, чи модель відображає повну картину світу.
  • Реєстри змін: Логування всіх змін і доповнень у навчальних наборах дозволить відстежувати будь-які спроби ввести цензуру. 90% (а можливо, і всі 99%) користувачів не звертають уваги на версію моделі, з якою працюють (це просто ряд цифр, який часто навіть не відображається відкрито).

Цікавий випадок: успіх DeepSeek R1 частково пов’язаний із використанням відкритих інструментів від OpenAI, що були призначені для вдосконалення ChatGPT під різні потреби. Тепер OpenAI намагається заборонити моделям DeepSeek R1 застосовувати ці алгоритми, оскільки вони призначалися для розвитку саме моделей від OpenAI, а не конкурентних продуктів. Але джина вже випустили з пляшки.

  1. Децентралізація монополії знань

Коли управління LLM зосереджене в кількох великих корпораціях, посилюється ризик односторонньої цензури. Розподілена архітектура може допомогти розв’язати цю проблему:

  • Федеративне навчання: Замість централізованої обробки на одному сервері, процес тренування можна розділити між кількома університетами, дослідницькими центрами та громадськими ініціативами, щоб кожен вносив власні дані та бачення.
  • Відкриті API та інструменти: Залучення відкритих інтерфейсів для LLM дає змогу розробникам створювати спеціалізовані моделі для конкретних сфер і мов, зменшуючи ризики монополії.
  • Громадські моделі: Підтримка некомерційних та дослідницьких колективів у розробці власних LLM сприятиме різноманітності підходів і знизить залежність від комерційних інтересів.
  1. Пояснюваність: від «чорного ящика» до прозорих алгоритмів

LLM часто працюють як «оракули», видаючи результат без пояснення логіки. Щоб зменшити недовіру й помітити елементи цензури, нам потрібна пояснюваність:

  • Методи візуалізації: Спеціальні інструменти, які показують, як модель опрацьовує інформацію, на яких зв’язках між словами вона базує свій висновок, та які чинники впливають на відповідь.
  • «Білі ящики»: Моделі з прозорою логікою ухвалення рішень, де користувач може легко зрозуміти, як формуються відповіді та де можуть виникати упередження.
  • Пояснення за вимогою: Механізми, що на запит користувача надають покроковий аналіз міркувань моделі й указують на можливі джерела помилок.

Впровадження цих принципів – справа не лише технічна. Потрібна спільна робота розробників, дослідників, правозахисників, державних органів і суспільства. Тільки в такий спосіб ми зможемо перетворити LLM із потенційних «знарядь цензури» на «інструмент правдивої та неупередженої інформації».

Summary

Текст розглядає парадокс цензури та «чутливої» поведінки великих мовних моделей (LLM), які можуть генерувати сцени насильства між людьми, але блокують контент про жорстоке поводження з тваринами. Автор наводить приклади із ChatGPT і DeepSeek R1, демонструючи, як у моделі можуть бути вбудовані обмеження, що відображають етичні норми або державні наративи. Також описується, яким чином моделі можуть «забувати» окремі імена чи події, фактично переписуючи історію. На завершення пропонуються три принципи подолання цензури: прозорість (відкритий код, відкриті дані), децентралізація та пояснюваність.

Команда «Детектора медіа» понад 20 років виконує роль watchdog'a українських медіа. Ми аналізуємо якість контенту і спонукаємо медіагравців дотримуватися професійних та етичних стандартів. Щоб інформація, яку отримуєте ви, була правдивою та повною.

До 22-річчя з дня народження видання ми відновлюємо нашу Спільноту! Це коло активних людей, які хочуть та можуть фінансово підтримати наше видання, долучитися до генерування спільних ідей та отримувати більше ексклюзивної інформації про стан справ в українських медіа.

Мабуть, ще ніколи якісна журналістика не була такою важливою, як сьогодні.
Долучитись
Поділитися
Поділитися сюжетом
Джерело матеріала
"Реакция собаки бесценна": маленький котенок уверенно "нокаутировал" пса ударом с правой
Знай
2025-02-02T16:51:28Z
Использовали для искусства, захоронений и убийств: 6 таинственных пещер древних людей
Фокус
2025-02-02T14:42:25Z
Более 5000 лет: ученые предлагают желающим разгадать загадку и получить миллионы
Фокус
2025-02-02T14:30:31Z
Тайвань запретил DeepSeek госслужащим
Корреспондент
2025-02-02T14:30:02Z
Microsoft уже готовит выпуск Perfect Dark на PlayStation 5?
GameMag
2025-02-02T13:31:47Z
Нашли тушу белой акулы: со смертоносной хищницей расправилось "загадочное существо"
Фокус
2025-02-02T13:21:53Z
Kotaku: Консольные войны закончились без громких побед, PlayStation 5 Pro — залп в пустоту
GameMag
2025-02-02T13:06:20Z
Хватит на целый дом: малая ветряная турбина G-11 генерирует до 77 кВт*ч в день
Фокус
2025-02-02T13:00:52Z
"Мирного решения не будет": игрок Call of Duty устроил настоящую битву за свою репутацию
Знай
2025-02-02T12:51:17Z
Этот вкус вы вспомните сразу: как приготовить те самые орешки со сгущенкой
Telegraf
2025-02-02T16:51:12Z
Какие растения нужно обрезать уже сейчас - важные советы
UAToday
2025-02-02T16:09:35Z
Пляж, покрытый "яйцами динозавров": названо загадочное место в Англии, которое стоит посетить
UAToday
2025-02-02T16:09:27Z
Таропрогноз на 3 февраля 2025: выберите карту и узнайте, что вас ждет в понедельник
Telegraf
2025-02-02T15:57:06Z
В чем замочить лук перед посадкой, чтобы вырос большой и не гнил
TSN
2025-02-02T15:12:34Z
Если дома есть картофель и немного фарша, приготовьте это простое блюдо: рецепт сытного ужина
Telegraf
2025-02-02T13:12:41Z
Швы и плитка в ванной будут, будто новые: это копеечное чистящее средство творит настоящие чудеса
TSN
2025-02-02T13:06:46Z
Как приготовить пышные сочные котлеты: хитрость, о которой знают не все хозяйки
Gazeta UA
2025-02-02T12:42:37Z
Выгнутая спина и уши назад: какое поведение кота должно насторожить хозяина
Gazeta UA
2025-02-02T11:57:53Z
Взрыв в отеле Львова: что известно о пострадавших
TSN
2025-02-02T14:31:06Z
Убили маленькую Софийку и всю ее семью: в Полтаве выросло число жертв удара РФ. ВИДЕО
Новости Украины
2025-02-02T13:18:37Z
В отеле недалеко от центра Львова произошел взрыв
Корреспондент
2025-02-02T12:21:03Z
Умер 18-летний парень, попавший под обстрел в Сумах
Gazeta UA
2025-02-02T11:57:18Z
Россияне в Полтаве убили всю семью: дедушка на месте ждет, пока достанут их тела
TSN
2025-02-02T11:36:31Z
В одной из львовских гостиниц произошел взрыв: что известно
Апостроф
2025-02-02T11:15:48Z
Удар по Сумам 31 января. Число погибших возросло, умер 18-летний парень – фото
Лига
2025-02-02T10:57:10Z
Во львовском отеле мужчина бросил гранату и сам получил ранения: как отреагировали в полиции
Фокус
2025-02-02T10:51:52Z
На НПЗ в США прогремел сильный взрыв: начался пожар, есть пострадавшие
Telegraf
2025-02-02T10:15:08Z
Ястремская потерпела поражение в сверхсложном финале турнира в Линце
TSN
2025-02-02T16:27:48Z
Известный украинский футболист оказался в машине с наркоторговцем в момент его задержания в Ужгороде
ZN UA
2025-02-02T16:22:42Z
Сделка десятилетия: "Лейкерс" и "Даллас" согласовали обмен звезд лиги
ZN UA
2025-02-02T15:49:56Z
Усик против Кличко: промоутер боксера ответил, возможен ли поединок
Фокус
2025-02-02T14:57:39Z
"Динамо" готовит трансферную бомбу: в деле замешан агент Роналду
Telegraf
2025-02-02T14:45:51Z
"Должен выйти и забрать титул": Дэвис оценил свои шансы в бою с Беринчиком
Корреспондент
2025-02-02T13:27:03Z
Жена футболиста сборной Украины отметила юбилей в Дубае
Telegraf
2025-02-02T12:18:31Z
В матче чемпионата Нидерландов команда выпустила на поле 12 футболистов
ZN UA
2025-02-02T12:16:16Z
Реал потерял ключевого защитника перед важными матчами
Корреспондент
2025-02-02T12:06:27Z
Сирский назвал количество уничтоженных на Покровском направлении российских оккупантов
Апостроф
2025-02-02T16:33:25Z
Гороскоп на 3 февраля 2025 года по картам Таро для всех знаков зодиака
UAToday
2025-02-02T16:30:54Z
Гороскоп на понедельник 3 февраля 2025 года
UAToday
2025-02-02T16:09:46Z
Тест: расскажите о своем отпуске мечты, и мы скажем, в какой стране его нужно провести
Marie Claire
2025-02-02T16:01:21Z
Оккупанты не стреляют – они пылают: ВСУ показали яркое видео уничтожения российского "Града"
Comments UA
2025-02-02T15:54:07Z
В Луганской области оккупанты размещают личный состав в жилых кварталах, прикрываясь гражданскими
Апостроф
2025-02-02T15:28:10Z
За двое суток ДТЭК вернул свет в дома 21 тысячи семей после обстрелов
Апостроф
2025-02-02T15:27:47Z
"Буданова накрыло Искандером в Одессе": что известно
Comments UA
2025-02-02T15:27:26Z
Гороскоп на 3 февраля: романтичный вечер у Близнецов, успешные покупки у Львов
Telegraf
2025-02-02T15:00:25Z
Игорь Пустовит рассекретил новый роман и показался в объятиях возлюбленной
TSN
2025-02-02T15:12:58Z
От трагедии к искусству: как живопись дала второй шанс
ZN UA
2025-02-02T15:04:50Z
Ирина Сопонару восхитила фото с мужем-иностранцем и как они развлекались в Лондоне
TSN
2025-02-02T14:54:47Z
Ольга Сумская призналась, как поцеловалась в губы с Козловским и как потом на нее обижался муж
TSN
2025-02-02T14:21:12Z
Хуже некуда: 9 фильмов с нулевым рейтингом на Rotten Tomatoes
Фокус
2025-02-02T14:00:25Z
Netflix закрывает сериал "Песочный человек" после второго сезона
GameMag
2025-02-02T13:18:56Z
Макс Барских показал свою квартиру изнутри: как выглядит комната певца
TSN
2025-02-02T12:18:31Z
"Друг для друга...": Даниэль Салем прокомментировал слухи об отношениях с Lida Lee
Знай
2025-02-02T11:51:27Z
Ольга Сумская показала фото с молодости с мужем Борисюком и как они за 35 лет изменились
TSN
2025-02-02T11:36:55Z
Новые правила для военнообязанных: Минобороны проводит реформу ТЦК и ВЛК
Знай
2025-02-02T16:36:53Z
Воздушные Силы ВСУ опровергли фейк о корректировке удара по Одессе беспилотником "Орлан-10"
TSN
2025-02-02T16:30:05Z
Зеленский: В Курской области ударили по командному пункту с десятками ключевых офицеров КНДР и РФ
ZN UA
2025-02-02T16:24:06Z
Женщина роется в мусоре вблизи элитных домов: какие сокровища ей удалось найти
Фокус
2025-02-02T16:21:19Z
Мобилизация в Украине: Кабмин определил, кто подпадает под 100% "брони"
TSN
2025-02-02T16:00:37Z
Александра Матвийчук: Россияне учат наших детей полному повиновению
Апостроф
2025-02-02T15:57:03Z
Закупка боеприпасов для ВСУ под угрозой: FT объясняет, при чем здесь Чехия
Новости Украины
2025-02-02T15:54:37Z
Лающие тигренки: как в Китае собак превратили в хищников
Знай
2025-02-02T15:51:22Z
Уклонение от мобилизации: какое наказание может грозить военнообязанным
ZN UA
2025-02-02T15:04:03Z
Потеря, которую нельзя восполнить: ученые рассказали, как нас меняет смерть партнера
Фокус
2025-02-02T16:27:19Z
Что будет с организмом, если отказаться от кофе в пользу чая
UAToday
2025-02-02T16:09:22Z
Регенерация реальна: наше тело может отращивать утраченные органы
Фокус
2025-02-02T16:00:59Z
Убивает память и провоцирует инсульт: ученые назвали самую опасную для мозга пищу
Фокус
2025-02-02T16:00:40Z
"Оземпик" не для похудения: врач рассказал, как на самом деле препарат влияет на организм
TSN
2025-02-02T14:54:38Z
От лечения до отравления – один шаг: врач объяснила, как не навредить себе лекарствами
Фокус
2025-02-02T14:30:16Z
Нашли причину сильного псориаза: ученые обнаружили вредный белок в нашем теле
Фокус
2025-02-02T13:36:57Z
Психосоматика лишнего веса: как избавиться от килограммов с помощью правильных мыслей
Marie Claire
2025-02-02T11:01:00Z
Обоняние важнее зрения и слуха: в чем заключается его уникальность
Фокус
2025-02-02T10:51:33Z
Минус 42 млн в бюджет: на Буковине таможенники и пограничники способствовали контрабанде электронных сигарет
Апостроф
2025-02-02T16:42:33Z
Торговая война России и Китая: Москва впервые отвечает на удары Пекина и проигрывает. ВИДЕО
Новости Украины
2025-02-02T16:21:40Z
Е-гривны: исчезнут ли бумажные деньги в кошельках украинцев
Знай
2025-02-02T16:21:32Z
Канада, Мексика и Китай отвечают контрмерами на импортные тарифы США
UAToday
2025-02-02T16:09:13Z
Водителям готовиться: в Украине в ближайшее время взлетят цены на топливо
UAToday
2025-02-02T16:09:02Z
Свекла и картофель на вес золота, а лук дешевеет: что творится с ценами на овощи
Знай
2025-02-02T16:06:23Z
Пенсионеры жалуются на выплаты: как надбавки и стаж влияют на пенсию
Знай
2025-02-02T15:30:56Z
Бензин - 57 грн/л, а газ - 36: украинских водителей предупредили о новых ценниках на АЗС в феврале
Знай
2025-02-02T15:12:56Z
Украинцы могут "докупить" стаж для пенсии: известно. как правильно это сделать
Политека
2025-02-02T15:03:58Z
Болид Mercedes стал одним из самых дорогих в мире
Корреспондент
2025-02-02T15:30:41Z
Техосмотр авто в Польше: кому из украинцев нужно проходить
Знай
2025-02-02T13:51:46Z
Tesla собирается выпускать более дешевые электрокары
Gazeta UA
2025-02-01T12:03:42Z
Известный гонщик оказался в коме после ужасного ДТП
Telegraf
2025-02-01T10:00:52Z
Инженер превратил старый мотоцикл в самый быстрый в мире пенни-фартинг – фото
TSN
2025-01-31T19:36:08Z
Водитель на год бросил авто в аэропорту: какую шокирующую сумму он должен заплатить за парковку
TSN
2025-01-31T14:42:53Z
Гость из 2000-х: обнаружен культовый американский спорткар в заводской упаковке
Фокус
2025-01-31T13:12:14Z
800-сильный монстр: тюнеры скрестили старый универсал Mercedes W123 и Toyota Supra
Фокус
2025-01-31T12:12:55Z
Доступная роскошь: лучшие подержанные авто премиум-класса
Фокус
2025-01-31T09:51:20Z
Россияне разгоняют новый фейк о мобилизации в Украине: что в этот раз
Comments UA
2025-02-02T16:57:26Z
В Грузии новый митинг: есть стычки, силовики прибегают к насилию против задержанных
Лига
2025-02-02T16:54:33Z
Российские войска не дают деблокировать людей из-под завалов интерната в Судже – комендатура
ZN UA
2025-02-02T16:46:29Z
РФ не хочет заканчивать войну справедливо – Зеленский
ZN UA
2025-02-02T16:46:26Z
Огромная дыра в крыше: появилось видео с последствиями удара по "Бристолю" - оно раскрывает важную деталь
Comments UA
2025-02-02T16:24:20Z
Самая богатая пенсионерка: экс-судья Шаптала отсудила право на 390 тысяч грн ежемесячно
TSN
2025-02-02T16:24:00Z
Макрон сдает Африку без боя. Почему невозможно сделать Францию great again
Фокус
2025-02-02T16:21:16Z
Портников назвал цель РФ по Украине после окончания активной фазы боевых действий
UAToday
2025-02-02T16:09:27Z
Идея Макрона о европейских войсках в Украине обретает форму, но есть вопросы, - Зеленский
UAToday
2025-02-02T16:09:22Z