MY.UAНовини
Боротьба з дезінформацією: як українська студентка навчає ШІ виявляти російську пропаганду у Вікіпедії
Боротьба з дезінформацією: як українська студентка навчає ШІ виявляти російську пропаганду у Вікіпедії

Боротьба з дезінформацією: як українська студентка навчає ШІ виявляти російську пропаганду у Вікіпедії

Випускниця Українського католицького університету (УКУ) Вікторія Маковська створила модель, яка допомагає виявляти російські маніпуляції у Wikipedia, навіть коли вони маскуються під нейтральні формулювання. У фокусі – не очевидні фейки, а тонкі мовні маркери: ідеологічні обертони, зміщення акцентів, легітимізація сумнівних фактів.

Розробка потенційно могла б стати корисною державі в інформаційній боротьбі проти російської пропаганди. Тож Mind розповідає докладніше про те, що зараз здатна аналізувати модель та як вона може бути застосована на практиці, зокрема й за межами Wikipedia.

Яке завдання вирішує проєкт

На жаль, в Україні досі найпопулярнішою версією Wikipedia залишається російськомовна. Це створює значний ризик, адже саме через неї до українських користувачів просочується російська пропаганда.

Wikipedia має розгалужену систему модерації – як автоматичної, так і ручної. І модератори зазвичай досить ефективно виявляють та усувають маніпулятивні редагування. Але наразі автоматизована модерація Wikipedia не спрямована безпосередньо на виявлення тонких текстових маніпуляцій. Вона фокусується переважно на очевидних проявах вандалізму, таких, як повторювані вставки тексту капслоком, особисті образи, жарти, а також перевірка наявності чи релевантності джерел.

Тому у фокусі розробки випускниці УКУ Вікторії Маковської став машинний аналіз спроб поширення дезінформації, а не остаточних версій статей. Її дипломний проєкт на цю тему – «Вандалізм чи маніпуляція знаннями? Виявлення наративів у редагуваннях Wikipedia» – визнано одним із найкращих проєктів випускників УКУ 2025 року. Він базується на ML-моделі (machine learning – машинне навчання).

За словами Вікторії, модель поки що працює з енциклопедичними текстами, але її підхід має потенціал для подальшого застосування – наприклад, у телеграм-каналах чи новинних стрічках, де пропаганда часто має виглядає просто «альтернативної думки». Інакше кажучи, основне завдання розробки – навчити ШІ бачити там, де людина не помічає нічого підозрілого.

Вікторія Маковська: «Навіть з тим, як модератори Вікіпедії намагаються дотримуватися нейтральності, автоматизовані системи можуть допомогти людям робити це швидше та ефективніше. Найменше, що ми можемо зробити, – це знайти докази просочування російської пропаганди у Вікіпедію, показати, яку форму ці наративи мають, а найкраще – створити систему, яка зможе такі кейси визначати».

У цьому контексті дуже важливим є той факт, що Вікіпедію часто використовують як джерело даних для тренування великих мовних моделей. Тому в разі потрапляння туди викривленої інформації вона й надалі може просочуватися навіть у чат-боти, створені на основі цих моделей. Існують дослідження, які свідчать, що це вже відбувається. Такий підхід уже має назву LLM grooming, і російська пропаганда активно використовує цей інструмент проти України.

Тому метою проєкту було створити систему, яка зможе аналізувати також дублікати Wikipedia (зокрема, Ru Wikipedia Fork) і виявляти в них ознаки російської пропаганди.

Абетка

LLM grooming – метод прихованого впровадження фальшивих даних у навчання мовних моделей.

Ru Wikipedia Fork – дублікат Вікіпедії, який був створений на початку війни, щоб російська держава мала місце для публікації викривленої інформацію на свою користь.

Як навчали модель

Модель донавчали на власному датасеті (структурованому наборі даних), що містив приклади пропагандистських і нейтральних текстів із Вікіпелії. Вікторія створювала віртуальне середовище, де запускалися скрипти для аналізу та навчання. Система не «шукає» фейки самостійно в енциклопедії. Вона працює за іншим принципом: на вхід подається текстова ревізія (revision), тобто конкретна зміна, яку хтось хоче внести до статті у Вікіпедії; модель аналізує цю зміну як фрагмент тексту й видає оціночний бал (score) від 0 до 1 – наскільки ймовірно, що ця правка є деструктивною.

Складові та технологічний стек проєкту

(інформація для фахівців)

Складові: статистичний аналіз датасетів (EDA); fine-tuning BERT-based моделей; написання скриптів для аналізу результатів.

Інструменти: Jupyter Notebook (написання та тестування коду); MinIO bucket (сховище даних); BERT base uncased (базова модель для fine-tuning); AI/ML платформа De Novo з GPU (ключове середовищем для тренування моделі).

Оцінити ефективність штучного інтелекту в таких складних темах, як виявлення пропаганди, – непросто. У разі проєкту Вікторії Маковської традиційна метрика «точність» (accuracy) не є релевантною, адже йдеться не про класичну класифікацію, а про складніші нюанси текстових маніпуляцій. 

Для аналізу вона зібрала всі зміни в українській і російській Вікіпедії за 2022–2023 роки на основі попередньо визначеного списку статей. До вибірки увійшли як правки, які були погоджені модераторами, так і так званий вандалізм – редагування, що порушували правила платформи й були згодом скасовані.

Основну увагу було зосереджено на відхилених змінах, адже саме вони найчастіше містили маніпулятивні або шкідливі елементи. Таких редагувань було набагато менше, ніж звичайних, і це створило нерівномірний набір даних. У цій ситуації штучному інтелекту складніше навчитися помічати рідкісні випадки, бо їх просто недостатньо для повноцінного навчання. Щоб зменшити цей ризик, дослідниця застосувала техніки балансування й обрала альтернативні метрики, які дозволяють адекватно оцінити роботу моделі навіть у таких умовах.

Також у дослідженні використовувався згаданий дзеркальний варіант російської Вікіпедії – RuWiki Fork. Що дало змогу бачити редагування, які були тільки там. Наприклад, якщо у статті про Маріуполь у RuWiki з’являвся текст, який виправдовує окупацію, а в основній Вікіпедії такого фрагмента не було – це сигнал, що відбулася підозріла правка. Саме подібні випадки стали основою для тренування моделі на виявлення потенційно шкідливих меседжів.

За словами Вікторії, у результаті розробка була адаптована для виявлення пропагандистських формулювань, які вважаються підвидом вандалізму у Wikipedia: спотворення фактів, ідеологічно забарвлена лексика та інші мовні індикатори впливу. Модель демонструє стійку здатність виявляти інформаційні викривлення, хоча повністю покладатися на неї без людського втручання поки що не можна.

Які викривлення виявляє модель

Щоб оцінити, як саме модель реагує на пропаганду, частину результатів було перевірено вручну. Ось деякі типові приклади фрагментів, які штучний інтелект маркував як потенційно маніпулятивні:

Пропагандистська цитата (обрана моделлю*) Суть викривлення (авторська інтерпретація дослідниці)
«Харцизьк […] місто, що любить росію» Додає емоційного прокремлівського забарвлення, яке виходить за межі нейтрального стилю енциклопедії
«Частина росії після загальнонаціонального референдуму» Посилається на псевдореферендум, створюючи ілюзію легітимності анексії
«З 1 березня 2022 року перебуває під контролем російської федерації» Подає окупацію як факт державного управління, оминаючи сам факт збройного захоплення

*Фрагменти редагувань, які модель визначила як імовірно маніпулятивні з вірогідністю понад 50%.

Тут важливо зазначити, що нейронні мережі функціонують як «чорна скринька» – неможливо точно пояснити, чому саме певний фрагмент був класифікований як маніпулятивний. Хоча існують методики часткової інтерпретації. У цьому дослідженні пояснення викривлень базується на подальшому ручному аналізі дослідниками.

Чи може система автоматично аналізувати всю Wikipedia?

Зараз – ні. Цей проєкт мав дослідницький характер, тому не передбачав створення повноцінного користувацького інтерфейсу чи продукту. Його мета – не автоматизований моніторинг Wikipedia в реальному часі, а доказова демонстрація того, що пропагандистські наративи можуть бути виявлені за допомогою машинного навчання. Поки йдеться про прототип або proof of concept – наукову апробацію підходу, а не готове рішення для широкого застосування. 

На практиці система не «виявляє» фрагменти тексту, а оцінює цілісні редагування (revision), які були внесені до статті в один момент. Кожне таке редагування модель маркує як потенційно маніпулятивне або без ознак проблем. Вхідні дані – це великі масиви редагувань Wikipedia за певний період, які модель аналізує, не маючи попереднього знайомства з ними. Такий підхід дозволяє протестувати життєздатність концепції в умовах, наближених до реальних.

«Модель працює як допоміжний інструмент для модераторів. Вона не замінює людину, а покликана полегшити їхню роботу, відфільтровуючи найбільш підозрілі зміни. Ця концепція відома як Human In the Loop: автоматизація допомагає приймати рішення, але фінальне слово залишається за експертами. Зараз у нас немає окремої програми з графічним інтерфейсом – лише скрипти і модель, які працюють із великими масивами даних. Проте в майбутньому планується створити зручний інструмент для модераторів, де вони бачитимуть виділені системою підозрілі редагування, щоб оперативно їх перевіряти», – зазначає дослідниця.

Попри те що цей проєкт дослідницького характеру, його результати мають реальне прикладне значення. Сьогодні у Wikipedia вже працює система LiftWing, яка допомагає адміністраторам виявляти деструктивні редагування – зокрема, очевидний вандалізм.

Втім ця система не здатна виявляти маніпуляції, приховані в нейтральній, на перший погляд, лексиці. Відсутність емоційного навантаження в текстах Вікіпедії, на відміну від більш емоційних постів у соцмережах, робить завдання виявлення маніпуляцій складнішим через нейтральність подачі інформації. 

На думку Вікторії, найкращим сценарієм було б впровадження подібного функціоналу до LiftWing. Це дозволило б масштабувати захист відкритого джерела знань від інформаційних маніпуляцій. Саме в цьому й полягає потенціал моделі – у доповненні до наявних інструментів, які сьогодні не «бачать» подібні впливи.

Ба більше, модель уже була протестована на текстах із телеграм-каналів – як україномовних, так і російськомовних, із пропагандистським і нейтральним контентом. Попередні результати показали, що система може коректно розпізнавати мовні ознаки дезінформації та вийти за межі лише енциклопедичних матеріалів.

Це відкриває перспективи для подальшого розвитку: у наступній фазі дослідження планується розширення сфери застосування моделі до моніторингу соціальних мереж, новинних джерел і месенджерів, де інформаційні викривлення є масовими та системними.

Поділитися
Поділитися сюжетом
Джерело матеріала
Алла Пугачева решилась на резкий и неприятный шаг
Comments UA
2025-08-14T20:42:08Z
Леся Никитюк ошеломила эффектным видом фигуры в купальнике спустя два месяца после родов
TSN
2025-08-16T14:57:48Z
Киркоров ошарашил новым фото со своей скандальной дочкой
GlavRed
2025-08-15T12:57:42Z
Обручальное кольцо Елены Зеленской. Как выглядит главное украшение первой леди Украины и сколько стоит
Telegraf
2025-08-13T18:09:43Z
Вуди Аллен попал в базу Миротворца
Корреспондент
2025-08-25T20:30:10Z
За 11 лет Украина профинансировала почти 400 фильмов на 3,5 млрд грн
Корреспондент
2025-08-25T15:12:51Z
Украина осудила участие Вуди Аллена в Московской неделе кино
Корреспондент
2025-08-25T11:51:35Z
Анна Кошмал после рождения второго ребенка не может похудеть и объяснила почему: "Все безрезультатно"
TSN
2025-08-16T16:06:52Z
Камалия шокировала предательством близкого человека: "Эту боль невозможно описать"
TSN
2025-08-14T10:36:22Z
Американская компания Keurig Dr Pepper приобретет производителя кофе Jacobs
Корреспондент
2025-08-25T18:30:10Z
Доплаты к пенсии: кто может получить и как оформить
Знай
2025-08-23T07:07:08Z
Курс валют на выходные, 23-24 августа: сколько стоят доллар, евро и злотый
TSN
2025-08-23T04:21:41Z
РФ планирует увеличить производство "шахедов" до 6000 единиц в месяц - CNN
Корреспондент
2025-08-23T19:03:00Z
Швейцария арестовала счета крупнейшего производителя титана в России
Корреспондент
2025-08-25T17:12:11Z
Китай инвестирует $1 млрд в нефтедобычу Венесуэлы
Корреспондент
2025-08-25T16:18:47Z
Курс валют в Украине 23 августа 2025: сколько стоит доллар и евро
VGorode
2025-08-23T08:33:37Z
Выгодно ли работать на пенсии: сколько прибавят за каждый месяц
Знай
2025-08-14T05:06:09Z
Германия назвала объем ежегодной помощи Украине
Корреспондент
2025-08-25T14:57:33Z
В документах Кремля прописана дата окончания войны: ГУР рассказали, когда россия отступит
Знай
2025-08-18T20:30:13Z
Лидер КНР обратился к Украине в День Независимости
Корреспондент
2025-08-24T10:27:23Z
Лукашенко решил передать власть: СМИ пишут о резком ухудшении его здоровья
UAToday
2025-08-23T18:06:21Z
Зеленский ответил Вэнсу по поводу "уступок" России
Корреспондент
2025-08-25T13:33:00Z
Трамп пообещал решительные действия в отношении РФ в течение двух недель
Корреспондент
2025-08-25T20:54:41Z
Битва за Дружбу. Новый конфликт Украины и Венгрии
Корреспондент
2025-08-25T20:03:14Z
Мелания Трамп передала Путину тайное письмо
TSN
2025-08-16T04:31:36Z
Известно, кто будет охранять Путина во время визита в США
Корреспондент
2025-08-13T07:27:53Z
Трамп оценил саммит и высказался о санкциях для РФ
Корреспондент
2025-08-16T03:36:58Z
Самолет с российскими туристами экстренно сел в Таллинне из-за атаки украинских дронов
Европейская правда
2025-08-24T18:00:06Z
В Виннице толпа "отбивала" мужчину, который был в розыске ТЦК: что произошло
UAToday
2025-08-23T10:03:44Z
Взрыв завода в РФ: резко увеличилось число пострадавших
Корреспондент
2025-08-15T14:06:46Z
Сумы почти сутки под атакой РФ: бушуют пожары
Корреспондент
2025-08-25T04:03:21Z
В Австрии задержали четырех подозреваемых в подрывах банкоматов
Европейская правда
2025-08-25T19:24:36Z
Эстонские пограничники задержали мужчину, который сплавал в Россию и обратно
Европейская правда
2025-08-25T18:24:51Z
Каджики приближается: Вьетнам эвакуирует более полумиллиона человек
Корреспондент
2025-08-24T23:48:56Z
Ракетная атака на Днепр: что известно о последствиях
TSN
2025-08-15T14:21:54Z
В Запорожье в результате атаки РФ погибли три человека, много раненых. ФОТО
Новости Украины
2025-08-18T10:33:02Z
Военнослужащим, которые воюют на фронте, стали приходить штрафы: местами размер санкций превышает 50 тысяч
UAToday
2025-08-23T17:06:23Z
Место силы и веры. Где в Украине находится украинский Иерусалим
Telegraf
2025-08-22T23:30:45Z
Почему сегодняшний день несчастливый: приметы в народный праздник 24 августа
UAToday
2025-08-24T05:03:15Z
Как украинцы относятся к ТЦК - опрос
UAToday
2025-08-25T15:39:48Z
В Украине подготовят места для эвакуированных
Корреспондент
2025-08-25T19:12:55Z
"Суспільне": 30-е заседание "Рамштайн" состоится 9 сентября в Лондоне
Европейская правда
2025-08-25T18:43:25Z
17 августа: церковный праздник сегодня, что выбросить из дома, чтобы ушли болезни и печали
UAToday
2025-08-17T04:00:46Z
Какой завтра, 22 августа, праздник — все об этом дне, какой церковный праздник, что нельзя делать
TSN
2025-08-21T06:03:54Z
15 млн за жизнь: Кабмин утвердил выплаты семьям погибших в плену
Gazeta UA
2025-08-16T03:00:19Z
Эти «сеточки» на теле сигнализируют о болезнях
Comments UA
2025-08-22T15:57:59Z
Диетологи раскрыли неожиданную пользу чернослива для организма, но есть важный нюанс
UAToday
2025-08-23T12:06:50Z
В Украине снова свирепствует коронавирус: какие симптомы новых подвидов и будет ли карантин
TSN
2025-08-22T18:36:18Z
Почему нельзя разбивать яйца ножом: даже опытные хозяйки об этом не знают
UAToday
2025-08-23T14:03:10Z
Хирурги впервые пересадили легкое свиньи человеку
Корреспондент
2025-08-25T17:48:04Z
Вспышка COVID: где в Украине вводят масочный режим
Корреспондент
2025-08-25T15:03:03Z
Украинские ученые впервые получили сперматозоиды из стволовых клеток
Корреспондент
2025-08-25T14:39:57Z
Слива— полезные свойства и вред фрукта
UAToday
2025-08-25T12:06:52Z
Простой секрет долголетия: кто имеет больше шансов на длинную жизнь
UAToday
2025-08-25T09:06:17Z
Кабмин упростил продажу подержанных авто: от чего избавили украинцев
Знай
2025-08-16T15:51:16Z
Вводят новый синий сигнал светофора: водители в шоке, штрафов станет больше
Знай
2025-08-16T12:30:45Z
Toyota выпустила новую версию Yaris Vios
Корреспондент
2025-08-25T19:30:41Z
Электроконцепт Mercedes AMG проехал длину экватора за семь дней
Корреспондент
2025-08-25T18:30:20Z
Любой автомобиль под угрозой: хакеры получили нового "троянского коня"
UAToday
2025-08-23T17:03:18Z
Их существует всего 10: в Украине появился очень редкий спорткар BMW 2000-х
Фокус
2025-08-23T07:00:46Z
Это портит кузов: главные ошибки при мытье автомобиля
UAToday
2025-08-23T00:33:35Z
Mitsubishi отзывает почти 92 тысячи кроссоверов Outlander
Корреспондент
2025-08-22T19:36:48Z
62-летняя фанатка "Формулы-1" выиграла суперкар McLaren, но отказалась от машины
Фокус
2025-08-22T15:00:43Z
В Карпатах выпал снег в августе
Корреспондент
2025-08-24T09:09:50Z
Осень уже близко: синоптик назвал точную дату, когда погода изменится в Украине
Telegraf
2025-08-22T17:57:17Z
Оракул Ленорман на 16 августа 2025 года для всех знаков зодиака: Близнецам – вдохновение, Козорогам – стабильность
TSN
2025-08-16T00:33:08Z
Атака на Краматорск: погибли двое полицейских из Ивано-Франковска
Корреспондент
2025-08-23T18:42:47Z
Во Львове завершает работу украинско-польская экспедиция, которая проводила эксгумации
Европейская правда
2025-08-25T17:30:52Z
Ситуация на фронте на вечер 25 августа 2025 года
UAToday
2025-08-25T17:27:53Z
Тревожная ночь: вражеские Шахеды атаковали Сумы
Корреспондент
2025-08-24T01:36:11Z
Гороскоп на воскресенье 24 августа 2025 года
UAToday
2025-08-23T17:03:57Z
Россияне продвинулись в трех областях - DeepState
Корреспондент
2025-08-14T08:36:30Z
Гороскоп на сегодня 16 августа: финансы овнов, обман близнецов и разочарование рыб
Знай
2025-08-16T02:06:53Z
В Египте нашли затерянный город времен раннего христианства
Корреспондент
2025-08-13T17:21:02Z
Только с этими тремя ингредиентами может быть качественное мороженное: узнайте, о чем речь
Comments UA
2025-08-23T07:12:15Z
Всего четыре ингредиента – и ваша кухня пахнет домашним уютом: простой рецепт яблок в тесте
Telegraf
2025-08-23T07:00:19Z
Развлекать или развивать? Дилемма украинских музеев и замков
ZN UA
2025-08-23T05:43:11Z
Знаки-миллионеры: кого ждет лучшая осень в их жизни
Gazeta UA
2025-08-23T05:42:02Z
Дорогие семена или дешевые? Украинка сравнила, какие огурцы дали хороший урожай, а какие — разочаровали
Telegraf
2025-08-23T04:42:25Z
Эту ягоду можно перепутать с ежевикой. Можно ли ее пробовать
Telegraf
2025-08-23T03:03:04Z
За эти сувениры украинцев за границей могут оштрафовать на 140 тысяч гривен
Знай
2025-08-22T21:45:53Z
Больше всего "мотают" электроэнергии: эксперты назвали разоряющие вас приборы
Знай
2025-08-16T20:12:38Z
Конец эпохи ветряных турбин: что такое Hercules, производящий 5000 кВтч в домашних условиях
Фокус
2025-08-21T09:57:46Z
Цифровая головоломка, которая захватила сеть: найдите число 16 за 7 секунд
Gazeta UA
2025-08-15T14:15:23Z
Ограничения в мессенджерах: Россия усиливает цифровой контроль
Хвиля
2025-08-14T00:15:39Z
Samsung представила Galaxy Tab S10 Lite
Корреспондент
2025-08-25T19:15:56Z
Чип нового Pixel 10 уступает другим флагманским чипам двухлетней давности
Корреспондент
2025-08-25T17:39:52Z
Учёные создали жилет, который помогает восстановить подвижность после инсул
Корреспондент
2025-08-25T08:18:32Z
Победители Esports World Cup 2025 приняли награду из рук Криштиану Роналду
Корреспондент
2025-08-24T20:51:41Z
Игра Сироты в первом матче за турецкий Коджаэлиспор была посредственной
Корреспондент
2025-08-24T15:24:15Z
Владислав Ванат может открыть для себя страницу европейского футбола
Корреспондент
2025-08-24T14:27:41Z
Дочь функционера ФБУ выиграла чемпионат Европы в составе сборной Испании
Корреспондент
2025-08-24T00:00:57Z
Где будет Зинченко: возникает вопрос к Артете, который не берет его играть
Корреспондент
2025-08-23T16:18:54Z
Ибеабучи триумфально вернулся на ринг и бросил вызов Усику
Корреспондент
2025-08-24T08:12:20Z
Анчелотти представил необычную заявку Бразилии на отборочные игры ЧМ-2026
Корреспондент
2025-08-25T20:27:53Z
Три сильнейших клуба пристально следят за Антони
Корреспондент
2025-08-25T18:15:09Z
Шахтер планирует трансфер 18-летнего нападающего из Бразилии
Корреспондент
2025-08-23T18:48:02Z
Украинские гребчихи стали чемпионами мира
Корреспондент
2025-08-23T13:51:10Z
Свитолина раскрыла причины отказа от участия в миксте на US Open-2025
Корреспондент
2025-08-23T11:27:39Z