MY.UAНовини
Парадокс чутливості та цензури в генеруючих моделях
Парадокс чутливості та цензури в генеруючих моделях

Парадокс чутливості та цензури в генеруючих моделях

Чому віртуальна людина може вбити людину, але не тварину?

Оригінал публікації на сайті «Академії Української Преси» за посиланням 

Алгоритми без упереджень

Великі мовні моделі (LLM) здатні створювати дивовижні зображення та тексти, виявляють дивний парадокс. Вони навчаються уникати відкритої демонстрації оголеного тіла чи явно шкідливого контенту. Проте, спритний користувач іноді може обійти обмеження, підштовхнувши модель до створення сцени насильства між людьми. Це робиться за допомогою особливих підказок і «етичних» пояснень, що маскують реальну природу запиту. У результаті модель, оскільки вважає завдання абстрактним, може згенерувати малюнок, де людина вбиває людину.

Однак є цікавий поворот: якщо спробувати примусити модель згенерувати схожу сцену із жорстоким поводженням із твариною, ви зіткнетеся із відмовою. Причина полягає не лише в технічних обмеженнях, а й у етичному кодексі, закладеному в архітектуру моделі. Законодавчі норми, що захищають тварин і вплетені в навчальні дані, формують своєрідне табу: модель відмовляється виконувати такі запити навіть за складних, заплутаних підказок.

Візьмімо модель ChatGPT о1 – надзвичайно корисний інструмент, що визначає нацистський салют як на архівних, так і на сучасних фотографіях із енциклопедичною точністю. Та якщо показати їй відому фотографію Ілона Маска зі схожим жестом, вона не побачить там жодного натяку на нацизм. Можна сміливо підписати про модель ChatGPT о1 – «І мовчання стане його відповіддю».

Також можна нагадати про скандал навколо вилучення, а потім повернення після розголосу, імені Елая Мілчана, активного прихильника військового застосування AI. Мовні моделі відмовлялися генерувати відповіді, якщо у запиті згадувалося його імʼя.

Мовчання гучніше за крик

Це не проста технічна помилка, а прояв «навченої обережності», тобто цензури з боку розробників. Вони побоюються заплутаних контекстів, де різниця між символом та його інтерпретацією дуже тонка, а результат може призвести до величезних судових позовів, втрати важливих контрактів та страх відвернути інвесторів від фінансування проектів LLM.

Схожий парадокс можна спостерігати й у DeepSeek R1 – китайській моделі, здатній будувати складні причинно-наслідкові ланцюжки. Якщо запитати її про події на площі Тяньаньмень або про статус Тайваню, вона даватиме нечіткі відповіді та замовчуватиме важливі деталі, відображаючи офіційні наративи КНР. Модель балансує на тонкій межі між даними й заборонами, в кращому випадку залишаючи користувача в інформаційній невизначеності, а в гіршому – цитує державну позицію як історичну істину.

Але хитрощі цензури не обмежуються простою заміною небажаних фактів. LLM навчаються «мовчати» про конкретні імена, викреслюючи їх з колективної пам’яті. Іноді йдеться про серійних убивць чи ґвалтівників, чиї імена стають табу, що створює ілюзію, ніби злочинів ніколи не було. Ще дивніше те, що ім’я мера австралійського міста, який домігся судової заборони згадувати себе, також викреслене з таких моделей. Це ставить під сумнів прозорість та право громадськості знати про публічних осіб і їхні дії, незалежно від сучасних правових трактувань.

Як приклад, усі поточні моделі (як закриті, так і відкриті) називають війну в Україні саме «війною», а не незрозумілими навіть росіянам абревіатурами. Однак, це триватиме доти, поки росія не випустить власні моделі чи не підмінить потрібну інформацію зі світових баз даних навчання LLM.

Ситуації, описані вище, підкреслюють дві важливі ідеї:

  1. Гнучкість і вразливість LLM. Моделі можуть обійти прямі заборони, якщо їм надати «виправдане» пояснення. Це викликає тривогу, бо такі підходи можуть використовуватися з метою шкоди.
  2. Вбудована цензура. Норми суспільства та законодавства, зокрема ті, що стосуються захисту тварин чи державної політики, не просто прописані в якихось документах – вони вшиваються в «ядро» моделі. Таким чином, цензура стає невіддільною частиною її роботи.

Адже це питання не лише про вилучення даних, а про перепрограмування колективної пам’яті. Уявіть LLM як величезний цифровий казан, куди потрапляють факти, події та постаті. У процесі спеціальної фільтрації та цензури вони можуть спотворюватися, і з’являється «зручна» версія історії, що подобається владі чи відповідає інтересам розробників моделей.

Прозорість, децентралізація, пояснюваність AI

Подолати цензуру в мовних моделях можна не лише заборонами чи технічними хитрощами, а через докорінну зміну самої архітектури та взаємодії із суспільством. Прозорість, децентралізація та пояснюваність – три ключові умови, на яких має базуватися відповідальний розвиток LLM, вільний від цензурних обмежень.

  1. Прозорий код і відкриті дані

Головна проблема полягає в «чорному ящику» алгоритмів. Закритий код та недоступні навчальні дані породжують підозри та полегшують маніпуляції. Розв’язання – відкритість роботи алгоритмів.

  • Відкритий код LLM: Публікація коду дає змогу дослідникам, етикам і програмістам перевіряти модель на упередження, можливі шляхи цензури й оптимізувати механізми чесної модерації.
  • Доступ до навчальних даних: Надання анонімізованих і впорядкованих наборів даних допоможе виявити історичні викривлення чи навмисне вилучення інформації. Громадськість зможе перевірити, чи модель відображає повну картину світу.
  • Реєстри змін: Логування всіх змін і доповнень у навчальних наборах дозволить відстежувати будь-які спроби ввести цензуру. 90% (а можливо, і всі 99%) користувачів не звертають уваги на версію моделі, з якою працюють (це просто ряд цифр, який часто навіть не відображається відкрито).

Цікавий випадок: успіх DeepSeek R1 частково пов’язаний із використанням відкритих інструментів від OpenAI, що були призначені для вдосконалення ChatGPT під різні потреби. Тепер OpenAI намагається заборонити моделям DeepSeek R1 застосовувати ці алгоритми, оскільки вони призначалися для розвитку саме моделей від OpenAI, а не конкурентних продуктів. Але джина вже випустили з пляшки.

  1. Децентралізація монополії знань

Коли управління LLM зосереджене в кількох великих корпораціях, посилюється ризик односторонньої цензури. Розподілена архітектура може допомогти розв’язати цю проблему:

  • Федеративне навчання: Замість централізованої обробки на одному сервері, процес тренування можна розділити між кількома університетами, дослідницькими центрами та громадськими ініціативами, щоб кожен вносив власні дані та бачення.
  • Відкриті API та інструменти: Залучення відкритих інтерфейсів для LLM дає змогу розробникам створювати спеціалізовані моделі для конкретних сфер і мов, зменшуючи ризики монополії.
  • Громадські моделі: Підтримка некомерційних та дослідницьких колективів у розробці власних LLM сприятиме різноманітності підходів і знизить залежність від комерційних інтересів.
  1. Пояснюваність: від «чорного ящика» до прозорих алгоритмів

LLM часто працюють як «оракули», видаючи результат без пояснення логіки. Щоб зменшити недовіру й помітити елементи цензури, нам потрібна пояснюваність:

  • Методи візуалізації: Спеціальні інструменти, які показують, як модель опрацьовує інформацію, на яких зв’язках між словами вона базує свій висновок, та які чинники впливають на відповідь.
  • «Білі ящики»: Моделі з прозорою логікою ухвалення рішень, де користувач може легко зрозуміти, як формуються відповіді та де можуть виникати упередження.
  • Пояснення за вимогою: Механізми, що на запит користувача надають покроковий аналіз міркувань моделі й указують на можливі джерела помилок.

Впровадження цих принципів – справа не лише технічна. Потрібна спільна робота розробників, дослідників, правозахисників, державних органів і суспільства. Тільки в такий спосіб ми зможемо перетворити LLM із потенційних «знарядь цензури» на «інструмент правдивої та неупередженої інформації».

Summary

Текст розглядає парадокс цензури та «чутливої» поведінки великих мовних моделей (LLM), які можуть генерувати сцени насильства між людьми, але блокують контент про жорстоке поводження з тваринами. Автор наводить приклади із ChatGPT і DeepSeek R1, демонструючи, як у моделі можуть бути вбудовані обмеження, що відображають етичні норми або державні наративи. Також описується, яким чином моделі можуть «забувати» окремі імена чи події, фактично переписуючи історію. На завершення пропонуються три принципи подолання цензури: прозорість (відкритий код, відкриті дані), децентралізація та пояснюваність.

Команда «Детектора медіа» понад 20 років виконує роль watchdog'a українських медіа. Ми аналізуємо якість контенту і спонукаємо медіагравців дотримуватися професійних та етичних стандартів. Щоб інформація, яку отримуєте ви, була правдивою та повною.

До 22-річчя з дня народження видання ми відновлюємо нашу Спільноту! Це коло активних людей, які хочуть та можуть фінансово підтримати наше видання, долучитися до генерування спільних ідей та отримувати більше ексклюзивної інформації про стан справ в українських медіа.

Мабуть, ще ніколи якісна журналістика не була такою важливою, як сьогодні.
Долучитись
Поділитися
Поділитися сюжетом
Джерело матеріала
Розкрито таємницю передсмертної записки останньої королеви Франції: що вона написала
Фокус
2025-09-23T10:45:47Z
Винник заспівав німецькою свій російськомовний хіт і викликав неоднозначну реакцію українців
TSN
2025-09-23T10:33:48Z
Кузьмі Скрябіну встановили пам'ятник у Коростишеві: у Мережі обурені його виглядом
TSN
2025-09-23T10:33:24Z
50 шурупів у голові: танцюрист балету Дорофєєвої розповів про наслідки нападу працівника УДО
24tv
2025-09-23T10:33:05Z
Два заповіти Армані. Стало відомо, хто отримає модну імперію
ГЛАВКОМ NET
2025-09-23T10:27:24Z
У Варшаві відбувся український родинний фестиваль UA FEST 2025
УкраинФорм
2025-09-23T10:06:53Z
Зірка «Холостяка» зізналася у використанні ін'єкцій для схуднення та розповіла про наслідки
Вива
2025-09-23T09:39:55Z
Переможці Євробачення несподівано звернулися до українців: що вони повідомили
GlavRed
2025-09-23T09:27:30Z
Трендові штани осені 2025: купляйте вже зараз, бо вони неймовірні
24tv
2025-09-23T09:27:26Z
Україна, Казахстан і Центральна Азія: як зустріч Зеленського й Токаєва вписується у велику гру Пекіна?
Хвиля
2025-09-23T10:48:46Z
В Данії та Норвегії призупиняли роботу аеропортів через невідомі дрони
Европейская правда
2025-09-23T10:45:59Z
Через міграцію Білорусь втрачає до 4,6 мільярдів доларів щороку
24tv
2025-09-23T10:42:26Z
Agricom Group вдалось досягти планової урожайності соняшнику та сої
AgroPortal
2025-09-23T10:30:27Z
Дефіцит продуктів у Харківській області: українцям розповіли про великі втрати
Политека
2025-09-23T10:30:02Z
Польський IT‑гігант купив ще одну українську компанію
24tv
2025-09-23T10:27:30Z
Нацбанк призупинив роботу криптогаманця Trustee Plus в Україні
УкраинФорм
2025-09-23T10:18:44Z
Наслідки тарифів Трампа: експорт дешевих товарів з Китаю злетів до рекордів
24tv
2025-09-23T10:18:29Z
Україна з початку маркетингового року експортувала понад 4 мільйони тонн пшениці
УкраинФорм
2025-09-23T10:09:04Z
Провокації Росії у небі НАТО переслідують три мети, – екс-головнокомандувач Альянсу Ставрідіс
24tv
2025-09-23T10:45:50Z
Від Apple Watch до Breguet: рейтинг найдорожчих годинників українських депутатів, — ЗМІ
Фокус
2025-09-23T10:45:48Z
Умєров обговорив із Келлогом закупівлю американської зброї та гарантії безпеки України
УкраинФорм
2025-09-23T10:45:37Z
"Путін уже буде не потрібен": названо головну умову перевороту в Кремлі
GlavRed
2025-09-23T10:42:52Z
Німеччина збільшить оборонний бюджет через загрозу з боку Росії
Европейская правда
2025-09-23T10:42:10Z
Білецький: В Україні забагато думають про перемир'я замість того, щоб його наближати
ГЛАВКОМ NET
2025-09-23T10:39:10Z
"НАТО навряд чи відпетляє": Світан назвав дев'ять країн, яким загрожують атаки РФ
GlavRed
2025-09-23T10:39:05Z
Пєсков дав коментар щодо інциденту з безпілотниками в Данії: чи причетна Росія
TSN
2025-09-23T10:33:44Z
Захід побоюється, що Зеленський хоче монополізувати владу — Politico
TSN
2025-09-23T10:33:43Z
Атака на Одещину: Кіпер розповів про наслідки російського удару
ГЛАВКОМ NET
2025-09-23T10:45:16Z
У Харкові судитимуть чоловіка, який стріляв у ветерана ЗСУ та бив його
Украина Криминальная
2025-09-23T10:30:40Z
Митники затримали контрабанду електронних сигарет і IPhone-17 на ₴1 млн
Украина Криминальная
2025-09-23T10:16:08Z
Татарбунари на Одещині після нічного обстрілу частково знеструмлені
УкраинФорм
2025-09-23T10:12:30Z
Довічне за вбивство підлітка на фунікулері: реакція українців на вирок суду
ГЛАВКОМ NET
2025-09-23T10:03:33Z
На Одещині затримали браконьєра: 95 раків і майже 320 тисяч гривень збитків
Знай
2025-09-23T09:57:25Z
Жителька Києва збувала психотропи у препаратах для схуднення в Україні та за її межами
Украина Криминальная
2025-09-23T09:30:26Z
Жінка повірила погрозам «співробітника СБУ» і втратила 30 тисяч гривень
InternetUA
2025-09-23T09:24:38Z
На Одещині судитимуть жителя іншої області, який позбавив життя малознайомого чоловіка
Украина Криминальная
2025-09-23T09:18:51Z
Чоловік купив у секонд-хенді куртку і перевірив кишені: знахідка здивувала
GlavRed
2025-09-23T10:45:01Z
БПЛА зможуть сидіти у засідці тижнями: для ЗСУ створили унікальну систему Power Key
Фокус
2025-09-23T10:42:10Z
Уряд планує залучати 2500 мобілізованих щомісяця
ГЛАВКОМ NET
2025-09-23T10:39:18Z
Кількість глядачів телемарафону «Єдині новини» зросла до 53%, — дослідження «Інтерньюз-Україна»
Детектор М
2025-09-23T10:39:17Z
Міноборони заявило про збій й роботі «Резерв+»
ZN UA
2025-09-23T10:36:57Z
ВМС знищили артилерійську систему окупантів "Гіацинт-Б": захисники показали відео
24tv
2025-09-23T10:33:47Z
6 метрів справжнього жаху: унікальні кадри найбільшого крокодила, який сіяв світом паніку
TSN
2025-09-23T10:33:24Z
Росія все ще здатна проводити наступальні операції у Чорному морі - ВМС
УкраинФорм
2025-09-23T10:30:59Z
Скоротили зарплати й найм працівників: військові підприємства Росії переживають кризу
24tv
2025-09-23T10:30:52Z
Цього епідсезону в Україні прогнозують два класичні штами грипу А та В
УкраинФорм
2025-09-23T09:48:27Z
Не лише через їжу: лікар пояснив основні причини здуття живота
24tv
2025-09-23T09:09:03Z
5 токсичних рослин, які не можна тримати вдома: будьте обережними
24tv
2025-09-23T08:12:52Z
З якими хворобами очей людину визнають непридатною: пояснення
24tv
2025-09-23T07:00:36Z
Від інфекцій потім не позбудетесь: чотири звички, які сприяють розмноженню мікробів у ванній кімнаті
Знай
2025-09-23T06:51:54Z
Парацетамолу та тонорми можна не чекати. Замість пацієнтів ліки обирають аптеки
TSN
2025-09-23T06:48:47Z
На Київщині посадовицю лікарні судитимуть за закупівлю ліків за завищеними майже на півмільйона гривень цінами
Украина Криминальная
2025-09-23T06:45:42Z
Визначили три дієти, які зменшують ризик діабету
24tv
2025-09-23T06:09:54Z
Вавки, ранки та виразки в роті – лікування в Одесі
Детектор М
2025-09-23T05:00:43Z
Фантастична живучість: культовий Corvette 60-х завівся після серйозної пожежі
Фокус
2025-09-23T10:36:30Z
Hyundai Ioniq 5 N отримала доступнішу версію, але вона не для вас
Топ Жир
2025-09-23T10:36:11Z
Представлено бюджетну версію Toyota RAV4 – це не гібрид
AutoCentre
2025-09-23T10:12:56Z
Понад 900 сил і запас ходу 800 км: на ринок виходить новий Zeekr 001 2026
Фокус
2025-09-23T09:27:51Z
Брат зірки Формули-1 ледь не згорів живцем авто: деталі інциденту
24tv
2025-09-23T09:27:20Z
Subaru попрощався з культовою моделлю
AutoCentre
2025-09-23T09:12:10Z
Bathurst 1000 – Австраліє, зустрічай!
AutoCentre
2025-09-23T08:45:22Z
Яким буде наступник кросовера Volkswagen Touareg: що відомо
ЗаРулем
2025-09-23T08:36:00Z
В інтернеті показали маловідомий бойовий скутер Mitsubishi з гарматою
Фокус
2025-09-23T08:27:40Z
$14000 за «квиток» до Молдови: у Харкові затримано організаторів незаконного перетину держкордону
Украина Криминальная
2025-09-23T10:42:36Z
Китайське вантажне судно тричі за місяць швартувалося у Криму – FT
ГЛАВКОМ NET
2025-09-23T10:36:28Z
Створюють "безлюдну зону": на Херсонщині росіяни комбінують удари БПЛА з авіацією
Хвиля
2025-09-23T10:36:22Z
“Оберіг” від мобілізації: в Одесі чоловік вигадав хитрий спосіб, як заробити на війні
TSN
2025-09-23T10:33:22Z
Плетенчук розповів про особливості літаків "Чайка", які знищили бійці ГУР у Криму
ZN UA
2025-09-23T10:33:15Z
В Україні різко змінюється погода: після теплої неділі очікуються дощі та заморозки
TSN
2025-09-23T10:33:13Z
Оренда в Києві б'є рекорди: у якому районі квартира коштуватиме до 35 тис. грн
Фокус
2025-09-23T10:30:35Z
Київ почав зупиняти транспорт на хвилину мовчання: бурхлива реакція соцмереж
ГЛАВКОМ NET
2025-09-23T10:09:32Z
ЗС РФ просунулись ще на 1 км у Дніпропетровській області: яка відстань до зони евакуації
Фокус
2025-09-23T10:06:16Z
Експерт пояснив, як обирати ресторани у відпустці: є один знак, що вказує на якість
24tv
2025-09-23T10:48:26Z
Як за 10 хвилин позбутися накипу в чайнику: цей засіб кращий за соду та лимонну кислоту
TSN
2025-09-23T10:33:00Z
Як не зробити кухню застарілою: п'ять головних помилок
GlavRed
2025-09-23T10:27:57Z
Жовтий пластик знову засяє білизною – ось чим його почистити
24tv
2025-09-23T10:18:58Z
Впораєтеся за хвилину: ось як швидко відмити акрилову фарбу з одягу
24tv
2025-09-23T10:18:39Z
Де на Хмельниччині можна побачити красивий палац із вежею та водоспадом
24tv
2025-09-23T10:18:37Z
Названо ідеальний час для переїзду в Іспанію: ціни на оренду падають вдвічі
24tv
2025-09-23T09:54:02Z
Чого слід уникати в подорожі однією з найнеймовірніших країн світу: пояснення блогерки
Фокус
2025-09-23T09:42:46Z
Реальні локації з мультфільмів "Діснея", які перенесуть в казку наяву
24tv
2025-09-23T09:03:04Z
Meta додала асистента зі штучним інтелектом для знайомств у Facebook
ZN UA
2025-09-23T10:42:11Z
Galaxy S26 Ultra стане першим смартфоном з OLED нового покоління
InternetUA
2025-09-23T10:33:43Z
Чому собака ганяється за хвостом: спеціаліст назвав три причини
GlavRed
2025-09-23T10:33:35Z
Забута функція з Windows Vista знову повернеться на Windows 11 Але з нюансами
24tv
2025-09-23T10:33:02Z
Досі працює: чоловік знайшов на розпродажі незвичайну річ 1950-х за $30
Фокус
2025-09-23T10:30:14Z
Більш ніж 30% опитаних українців отримують новини лише із соцмереж, — дослідження «Інтерньюз-Україна»
Детектор М
2025-09-23T10:24:41Z
Новий лідер у рейтингу дисплеїв DxOMark: хто випередив Galaxy S25 Ultra
24tv
2025-09-23T10:24:30Z
Українець відкрив нову яскраву комету: можливо, її можна побачити неозброєним оком
Фокус
2025-09-23T10:24:14Z
WhatsApp отримав нову функцію для спілкування, якої не вистачає в Telegram
InternetUA
2025-09-23T10:18:56Z
Столичні баскетбольні клуби провели товариську гру перед стартом жіночої Суперліги
ГЛАВКОМ NET
2025-09-23T10:45:57Z
Стала відома заявка «Дніпра» на матчі кваліфікації Кубку Європи ФІБА
ГЛАВКОМ NET
2025-09-23T10:36:41Z
Шевченко ухвалив рішення щодо долі Реброва у збірній України, – ЗМІ
24tv
2025-09-23T10:30:16Z
У вівторок та середу збірна України з футзалу зіграє з литовцями
УкраинФорм
2025-09-23T10:27:50Z
ФК «Динамо» продовжив безпрограшну серію в УПЛ
УкраинФорм
2025-09-23T10:09:43Z
Прихильниця Путіна, яка хоче на Олімпіаду, почала зачищати соцмережі
ГЛАВКОМ NET
2025-09-23T10:06:45Z
На чемпіонаті світу в Албені українські армрестлери виграли п'ять нагород
УкраинФорм
2025-09-23T09:51:05Z
Піхальонок: Награли на три-чотири голи, але не забили свої м’ячі
Football.ua
2025-09-23T09:39:05Z
Мессі привітав Дембеле з отриманням «Золотого м'яча»
ГЛАВКОМ NET
2025-09-23T09:27:39Z