MY.UAНовини
Боротьба з дезінформацією: як українська студентка навчає ШІ виявляти російську пропаганду у Вікіпедії
Боротьба з дезінформацією: як українська студентка навчає ШІ виявляти російську пропаганду у Вікіпедії

Боротьба з дезінформацією: як українська студентка навчає ШІ виявляти російську пропаганду у Вікіпедії

Випускниця Українського католицького університету (УКУ) Вікторія Маковська створила модель, яка допомагає виявляти російські маніпуляції у Wikipedia, навіть коли вони маскуються під нейтральні формулювання. У фокусі – не очевидні фейки, а тонкі мовні маркери: ідеологічні обертони, зміщення акцентів, легітимізація сумнівних фактів.

Розробка потенційно могла б стати корисною державі в інформаційній боротьбі проти російської пропаганди. Тож Mind розповідає докладніше про те, що зараз здатна аналізувати модель та як вона може бути застосована на практиці, зокрема й за межами Wikipedia.

Яке завдання вирішує проєкт

На жаль, в Україні досі найпопулярнішою версією Wikipedia залишається російськомовна. Це створює значний ризик, адже саме через неї до українських користувачів просочується російська пропаганда.

Wikipedia має розгалужену систему модерації – як автоматичної, так і ручної. І модератори зазвичай досить ефективно виявляють та усувають маніпулятивні редагування. Але наразі автоматизована модерація Wikipedia не спрямована безпосередньо на виявлення тонких текстових маніпуляцій. Вона фокусується переважно на очевидних проявах вандалізму, таких, як повторювані вставки тексту капслоком, особисті образи, жарти, а також перевірка наявності чи релевантності джерел.

Тому у фокусі розробки випускниці УКУ Вікторії Маковської став машинний аналіз спроб поширення дезінформації, а не остаточних версій статей. Її дипломний проєкт на цю тему – «Вандалізм чи маніпуляція знаннями? Виявлення наративів у редагуваннях Wikipedia» – визнано одним із найкращих проєктів випускників УКУ 2025 року. Він базується на ML-моделі (machine learning – машинне навчання).

За словами Вікторії, модель поки що працює з енциклопедичними текстами, але її підхід має потенціал для подальшого застосування – наприклад, у телеграм-каналах чи новинних стрічках, де пропаганда часто має виглядає просто «альтернативної думки». Інакше кажучи, основне завдання розробки – навчити ШІ бачити там, де людина не помічає нічого підозрілого.

Вікторія Маковська: «Навіть з тим, як модератори Вікіпедії намагаються дотримуватися нейтральності, автоматизовані системи можуть допомогти людям робити це швидше та ефективніше. Найменше, що ми можемо зробити, – це знайти докази просочування російської пропаганди у Вікіпедію, показати, яку форму ці наративи мають, а найкраще – створити систему, яка зможе такі кейси визначати».

У цьому контексті дуже важливим є той факт, що Вікіпедію часто використовують як джерело даних для тренування великих мовних моделей. Тому в разі потрапляння туди викривленої інформації вона й надалі може просочуватися навіть у чат-боти, створені на основі цих моделей. Існують дослідження, які свідчать, що це вже відбувається. Такий підхід уже має назву LLM grooming, і російська пропаганда активно використовує цей інструмент проти України.

Тому метою проєкту було створити систему, яка зможе аналізувати також дублікати Wikipedia (зокрема, Ru Wikipedia Fork) і виявляти в них ознаки російської пропаганди.

Абетка

LLM grooming – метод прихованого впровадження фальшивих даних у навчання мовних моделей.

Ru Wikipedia Fork – дублікат Вікіпедії, який був створений на початку війни, щоб російська держава мала місце для публікації викривленої інформацію на свою користь.

Як навчали модель

Модель донавчали на власному датасеті (структурованому наборі даних), що містив приклади пропагандистських і нейтральних текстів із Вікіпелії. Вікторія створювала віртуальне середовище, де запускалися скрипти для аналізу та навчання. Система не «шукає» фейки самостійно в енциклопедії. Вона працює за іншим принципом: на вхід подається текстова ревізія (revision), тобто конкретна зміна, яку хтось хоче внести до статті у Вікіпедії; модель аналізує цю зміну як фрагмент тексту й видає оціночний бал (score) від 0 до 1 – наскільки ймовірно, що ця правка є деструктивною.

Складові та технологічний стек проєкту

(інформація для фахівців)

Складові: статистичний аналіз датасетів (EDA); fine-tuning BERT-based моделей; написання скриптів для аналізу результатів.

Інструменти: Jupyter Notebook (написання та тестування коду); MinIO bucket (сховище даних); BERT base uncased (базова модель для fine-tuning); AI/ML платформа De Novo з GPU (ключове середовищем для тренування моделі).

Оцінити ефективність штучного інтелекту в таких складних темах, як виявлення пропаганди, – непросто. У разі проєкту Вікторії Маковської традиційна метрика «точність» (accuracy) не є релевантною, адже йдеться не про класичну класифікацію, а про складніші нюанси текстових маніпуляцій. 

Для аналізу вона зібрала всі зміни в українській і російській Вікіпедії за 2022–2023 роки на основі попередньо визначеного списку статей. До вибірки увійшли як правки, які були погоджені модераторами, так і так званий вандалізм – редагування, що порушували правила платформи й були згодом скасовані.

Основну увагу було зосереджено на відхилених змінах, адже саме вони найчастіше містили маніпулятивні або шкідливі елементи. Таких редагувань було набагато менше, ніж звичайних, і це створило нерівномірний набір даних. У цій ситуації штучному інтелекту складніше навчитися помічати рідкісні випадки, бо їх просто недостатньо для повноцінного навчання. Щоб зменшити цей ризик, дослідниця застосувала техніки балансування й обрала альтернативні метрики, які дозволяють адекватно оцінити роботу моделі навіть у таких умовах.

Також у дослідженні використовувався згаданий дзеркальний варіант російської Вікіпедії – RuWiki Fork. Що дало змогу бачити редагування, які були тільки там. Наприклад, якщо у статті про Маріуполь у RuWiki з’являвся текст, який виправдовує окупацію, а в основній Вікіпедії такого фрагмента не було – це сигнал, що відбулася підозріла правка. Саме подібні випадки стали основою для тренування моделі на виявлення потенційно шкідливих меседжів.

За словами Вікторії, у результаті розробка була адаптована для виявлення пропагандистських формулювань, які вважаються підвидом вандалізму у Wikipedia: спотворення фактів, ідеологічно забарвлена лексика та інші мовні індикатори впливу. Модель демонструє стійку здатність виявляти інформаційні викривлення, хоча повністю покладатися на неї без людського втручання поки що не можна.

Які викривлення виявляє модель

Щоб оцінити, як саме модель реагує на пропаганду, частину результатів було перевірено вручну. Ось деякі типові приклади фрагментів, які штучний інтелект маркував як потенційно маніпулятивні:

Пропагандистська цитата (обрана моделлю*) Суть викривлення (авторська інтерпретація дослідниці)
«Харцизьк […] місто, що любить росію» Додає емоційного прокремлівського забарвлення, яке виходить за межі нейтрального стилю енциклопедії
«Частина росії після загальнонаціонального референдуму» Посилається на псевдореферендум, створюючи ілюзію легітимності анексії
«З 1 березня 2022 року перебуває під контролем російської федерації» Подає окупацію як факт державного управління, оминаючи сам факт збройного захоплення

*Фрагменти редагувань, які модель визначила як імовірно маніпулятивні з вірогідністю понад 50%.

Тут важливо зазначити, що нейронні мережі функціонують як «чорна скринька» – неможливо точно пояснити, чому саме певний фрагмент був класифікований як маніпулятивний. Хоча існують методики часткової інтерпретації. У цьому дослідженні пояснення викривлень базується на подальшому ручному аналізі дослідниками.

Чи може система автоматично аналізувати всю Wikipedia?

Зараз – ні. Цей проєкт мав дослідницький характер, тому не передбачав створення повноцінного користувацького інтерфейсу чи продукту. Його мета – не автоматизований моніторинг Wikipedia в реальному часі, а доказова демонстрація того, що пропагандистські наративи можуть бути виявлені за допомогою машинного навчання. Поки йдеться про прототип або proof of concept – наукову апробацію підходу, а не готове рішення для широкого застосування. 

На практиці система не «виявляє» фрагменти тексту, а оцінює цілісні редагування (revision), які були внесені до статті в один момент. Кожне таке редагування модель маркує як потенційно маніпулятивне або без ознак проблем. Вхідні дані – це великі масиви редагувань Wikipedia за певний період, які модель аналізує, не маючи попереднього знайомства з ними. Такий підхід дозволяє протестувати життєздатність концепції в умовах, наближених до реальних.

«Модель працює як допоміжний інструмент для модераторів. Вона не замінює людину, а покликана полегшити їхню роботу, відфільтровуючи найбільш підозрілі зміни. Ця концепція відома як Human In the Loop: автоматизація допомагає приймати рішення, але фінальне слово залишається за експертами. Зараз у нас немає окремої програми з графічним інтерфейсом – лише скрипти і модель, які працюють із великими масивами даних. Проте в майбутньому планується створити зручний інструмент для модераторів, де вони бачитимуть виділені системою підозрілі редагування, щоб оперативно їх перевіряти», – зазначає дослідниця.

Попри те що цей проєкт дослідницького характеру, його результати мають реальне прикладне значення. Сьогодні у Wikipedia вже працює система LiftWing, яка допомагає адміністраторам виявляти деструктивні редагування – зокрема, очевидний вандалізм.

Втім ця система не здатна виявляти маніпуляції, приховані в нейтральній, на перший погляд, лексиці. Відсутність емоційного навантаження в текстах Вікіпедії, на відміну від більш емоційних постів у соцмережах, робить завдання виявлення маніпуляцій складнішим через нейтральність подачі інформації. 

На думку Вікторії, найкращим сценарієм було б впровадження подібного функціоналу до LiftWing. Це дозволило б масштабувати захист відкритого джерела знань від інформаційних маніпуляцій. Саме в цьому й полягає потенціал моделі – у доповненні до наявних інструментів, які сьогодні не «бачать» подібні впливи.

Ба більше, модель уже була протестована на текстах із телеграм-каналів – як україномовних, так і російськомовних, із пропагандистським і нейтральним контентом. Попередні результати показали, що система може коректно розпізнавати мовні ознаки дезінформації та вийти за межі лише енциклопедичних матеріалів.

Це відкриває перспективи для подальшого розвитку: у наступній фазі дослідження планується розширення сфери застосування моделі до моніторингу соціальних мереж, новинних джерел і месенджерів, де інформаційні викривлення є масовими та системними.

Поділитися
Поділитися сюжетом
Джерело матеріала
4 історичні фільми, які має побачити кожен
24tv
2025-10-16T19:54:35Z
«Рефлексії буття»: у Київській картинній галереї відкрили виставку Анатолія Мельника
ZN UA
2025-10-16T19:45:47Z
Може залишитися без руки: путіністка Успенська порушила режим після операції
GlavRed
2025-10-16T19:27:23Z
"Ти або тупа": відома ведуча накинулася на Настю Каменських
GlavRed
2025-10-16T19:27:16Z
У Туреччині помер актор з серіалу "Величне століття" Аріф Еркін Гюзельбейоглу
Комсомольская правда
2025-10-16T19:06:00Z
Народна артистка, яка плакала через російську мову в поїзді, звернулася до українців
ГЛАВКОМ NET
2025-10-16T19:03:23Z
Дружина Віталія Козловського розповіла про проблеми із сином: "Сну немає третю ніч"
GlavRed
2025-10-16T18:27:45Z
Як українською сказати "достопримечательность" - правильну відповідь знають одиниці
GlavRed
2025-10-16T18:27:05Z
10-річну переможницю Нацвідбору на Дитяче Євробачення-2025 захейтили в Мережі
GlavRed
2025-10-16T17:27:54Z
Лимонна лихоманка "накрила" Україну - де шукати всі 51 лимон монобанк
GlavRed
2025-10-16T19:27:37Z
В Україні прогнозують різке подорожчання картоплі взимку
ГЛАВКОМ NET
2025-10-16T19:12:29Z
"Такої ціни не очікували": оприлюднено тариф на газ для українців з 1 листопада
Хвиля
2025-10-16T19:03:27Z
Українським морським коридором у різні країни доставили вже 90 мільйонів тонн зерна
УкраинФорм
2025-10-16T18:30:50Z
Харківщина підготувалася до опалювального сезону, борги підприємств не вплинуть на початок - Синєгубов
УкраинФорм
2025-10-16T18:18:15Z
Ford запропонує вам $2000 за обмін вашого старого Chevrolet або Dodge на Mustang GT
Топ Жир
2025-10-16T18:12:42Z
ЄБРР уже профінансував екстрені закупівлі газу для України на 1 млрд євро
iPress
2025-10-16T18:12:18Z
Ослаблення гривні запустить ланцюгову реакцію: прогноз курсу євро та долара
Хвиля
2025-10-16T18:06:42Z
Нацбанк ініціює перевірки приватних підприємців: у чому причина
TSN
2025-10-16T17:51:10Z
Зеленський прибув до США
ГЛАВКОМ NET
2025-10-16T19:54:51Z
Агент ГРУ, який шпигував за військовими аеродромами на Дніпропетровщині, отримав 15 років ув’язнення
УкраинФорм
2025-10-16T19:54:45Z
Навіщо Трамп заговорив про Tomahawk для України перед зустріччю з Путіним: Портников пояснив
TSN
2025-10-16T19:51:56Z
Економіка Росії летить у прірву, але одна річ змушує Путіна продовжувати війну
24tv
2025-10-16T19:48:44Z
Навіщо Росія готує сотні ракет і стратегічну авіацію: Жданов розкрив підступний план Путіна
TSN
2025-10-16T19:48:15Z
Axios: Трамп поговорить з Путіним уперше за два місяці
Европейская правда
2025-10-16T19:42:47Z
Нардеп Шевченко отримав підозру у відмиванні 9 млн грн – джерело
ГЛАВКОМ NET
2025-10-16T19:42:40Z
Він дуже наполегливий: аналітик припустив теми розмови Трампа з Путіним і Зеленським
24tv
2025-10-16T19:33:09Z
Лідер республіканців у Сенаті хоче голосування за проєкт санкцій проти РФ
Европейская правда
2025-10-16T19:33:07Z
У Самарській області загорілася тягова підстанція
ГЛАВКОМ NET
2025-10-16T19:06:32Z
Іноземець намагався потрапити в Україну, сховавшись у вантажівці з підгузками
ГЛАВКОМ NET
2025-10-16T19:00:20Z
В Іспанії розслідують викрадення картини Пікассо, яка зникла дорогою на виставку
УкраинФорм
2025-10-16T18:51:52Z
Дрони з вибухівкою атакували будівлю прокуратури
TSN
2025-10-16T18:33:47Z
У підʼїзді будинку в Запоріжжі вибухнула граната, поранений чоловік
УкраинФорм
2025-10-16T18:24:21Z
В Україні активізувалися аферисти, які видають себе за податківців
InternetUA
2025-10-16T18:18:05Z
У США назвали остаточну причину вибуху батискафа «Титан»
УкраинФорм
2025-10-16T18:03:35Z
На Дніпропетровщині через атаки РФ загинула жінка, четверо людей постраждали
Украинская правда
2025-10-16T17:54:27Z
На Київщині ліквідували витік небезпечної хімічної речовини
Khreschatyk
2025-10-16T17:06:02Z
Розробники L3Harris представили антидроновий роботизований комплекс Vampire
InternetUA
2025-10-16T19:42:23Z
Юлія Свириденко з'явилась на зустрічі у Вашингтоні у стильному діловому образі
24tv
2025-10-16T19:12:07Z
Яке релігійне свято відзначається 17 жовтня 2025: традиції та молитва
ГЛАВКОМ NET
2025-10-16T19:03:06Z
Від місця проживання до переказу грошей: як в Україні почнуть контролювати онлайн-заробітки
Хвиля
2025-10-16T18:57:21Z
Хлопець щоранку знаходив таємничі яйця у своєму ліжку: Мережа вражена, хто їх залишав
TSN
2025-10-16T18:51:58Z
Нові правила перетину кордонів ЄС: чому вийти з авто доведеться всім, але штамп не поставлять
Знай
2025-10-16T18:36:24Z
Права у "Дії" не знайдено: водіям пояснили, що робити і як не нарватися на штраф
Хвиля
2025-10-16T18:30:03Z
Ізраїльські розробники представили нову самохідну гаубицю Sigma
InternetUA
2025-10-16T18:27:54Z
Долучайтесь до ТОП-150 українців в Різдвяно-Новорічному телепроєкті FM-TV!
FM-TV
2025-10-16T18:24:20Z
Артрит у дітей: які симптоми не можна ігнорувати
Знай
2025-10-16T18:51:20Z
Місяць впливає на сон сильніше, ніж здавалось — вчені виступили з попередженням
GlavRed
2025-10-16T16:27:32Z
МОЗ фіксує шалене навантаження на психіатрів
FaceNews
2025-10-16T16:03:00Z
Небезпека в кожному пакетику чаю: що ви насправді п'єте і чому краще викинути це прямо зараз
Знай
2025-10-16T15:51:19Z
Кварцова лампа: чому вона не потрібна ні в садочку, ні в школі, поради педіатра
Знай
2025-10-16T15:21:34Z
Яніна Соколова про наслідки лікування раку: "Я не є здоровою людиною через відсутність кількох органів"
TSN
2025-10-16T15:06:40Z
Температура, будильник та світло: як привчити себе легко прокидатися зранку
Знай
2025-10-16T14:51:07Z
Свинець міг вплинути на еволюцію мозку людини — дослідження
ZN UA
2025-10-16T14:42:33Z
Як штучний інтелект може допомогти у лікуванні раку
ГЛАВКОМ NET
2025-10-16T13:09:58Z
Зимові чи всесезонні шини: експерти розкрили, як вони поводять себе на дорозі
GlavRed
2025-10-16T19:27:51Z
Після 46 випадків займання Ford оголошує негайний відкликання та заборону продажу
Топ Жир
2025-10-16T19:12:03Z
Невелика американська компанія створює суперкар з новим 5,3-літровим опозитним восьмициліндровим двигуном повітряного охолодження
Топ Жир
2025-10-16T18:42:07Z
Обманщики змусили 50 безпілотних автомобілів Waymo їхати у глухий кут
Топ Жир
2025-10-16T18:12:54Z
Ford показав нову версію Mustang RTR
AutoCentre
2025-10-16T17:15:56Z
Нова модель Dakota Warlock від Ram готується кинути виклик Hilux завдяки китайським технологіям
Топ Жир
2025-10-16T16:42:04Z
Вантажівки Scania із двигуном Super 11 виходять на український ринок
AutoCentre
2025-10-16T16:12:05Z
Британці створили унікальний Роллс-Ройс на честь собаки VIP-клієнта
Топ Жир
2025-10-16T16:06:58Z
В Україні продаватиметься електричний спорткар MG Cyberster
Топ Жир
2025-10-16T16:00:43Z
Таким темпом росіянам ще 2 роки брати Донецьку область, якщо вони нічого не робитимуть ніде більше, – Арті Грін
Знай
2025-10-16T19:42:44Z
Початок опалювального сезону 2025 року у Кропивницькому: коли буде тепло
Политека
2025-10-16T19:30:21Z
Сильний мороз та сніг: синоптики назвали дату раптового похолодання
GlavRed
2025-10-16T19:27:01Z
Уважно подивившись відеороботу The Hardkiss - "Tenderness", можна помітити її зв’язок із попередньою відеороботою Crush.
FM-TV
2025-10-16T19:15:33Z
Правоохоронці зафіксували наслідки російських атак по Харківщині
Мій Харків
2025-10-16T19:12:56Z
Парк «Балка Проня» у Києві очистять від сміття — суд підтримав позов прокуратури
Khreschatyk
2025-10-16T19:06:05Z
Дефіцит продуктів в Одесі: стало відомо, чому врожай опинився під загрозою
Политека
2025-10-16T19:00:23Z
Мер Харкова: Розпочинаються тендерні процедури на будівництво станцій метро і закупівлю рухомого складу
УкраинФорм
2025-10-16T18:51:59Z
Подвоєна влада в Одесі: аналітики розповіли, як створення МВА може завадити управлінню міста
24tv
2025-10-16T18:42:51Z
Як попрасувати речі без праски: робочі лайфхаки
GlavRed
2025-10-16T19:42:24Z
Тут з'являються лісові гіганти: які види грибів ростуть у Карпатах
24tv
2025-10-16T19:12:59Z
Назбирати – це лише половина справи: як правильно зберігати сушені гриби
24tv
2025-10-16T18:48:33Z
"Зимовий депозит" для ґрунту: топ-3 сидерати, які виконують «роботу під землею»
GlavRed
2025-10-16T18:27:51Z
Лиса Гора, Поле Тіней, Чортів Ліс: що приховують наймоторошніші місця України
GlavRed
2025-10-16T18:27:45Z
Прихована небезпека з холодильника: які продукти та коли потрібно викинути
GlavRed
2025-10-16T18:27:44Z
Новий смак та консистенція: секретний інгредієнт, за який ваші деруни хвалитимуть як ніколи
24tv
2025-10-16T18:18:54Z
Горітимуть без диму та іскор: як висушити дрова для ідеального опалення
24tv
2025-10-16T16:51:49Z
На вигляд як фрукт, а смакують ще краще: як зробити печиво лимони
24tv
2025-10-16T16:39:02Z
Таємниця Арарату: що насправді будував Ной на горі
GlavRed
2025-10-16T19:27:54Z
Artemis ALM-20: українсько-американський аналог "Шахеда" з ШІ зможе бити по Москві
Хвиля
2025-10-16T19:18:10Z
У застосунку «Резерв+» оновили функцію «штрафи онлайн» - Міноборони
УкраинФорм
2025-10-16T19:12:25Z
Хотіли лимони – вивчили українську лайку: якими колоритними фразами здивував Monobank
24tv
2025-10-16T19:03:44Z
Американські розробники представили універсальний бойовий безпілотник Tempest
InternetUA
2025-10-16T19:03:43Z
У росії мобільний інтернет масово вимикають через «шатдауни»
InternetUA
2025-10-16T19:00:18Z
Уперше в історії Південної Кореї: у королівському палаці знайшли нетипову споруду
Фокус
2025-10-16T18:21:42Z
Важлива функція Android перестала працювати після оновлення — що трапилося
InternetUA
2025-10-16T17:51:01Z
Розумний хід за хвилину: секрет безпеки телефону, про який мало хто знає
GlavRed
2025-10-16T17:27:06Z
Динамо зіграє з Шахтарем 29 жовтня: розклад матчів 1/8 фіналу Кубка України
Football.ua
2025-10-16T19:48:04Z
УЄФА відкрила справу проти Ювентуса через можливе порушення фінансового фейр-плей
Football.ua
2025-10-16T19:45:12Z
Футболіст збірної України лайкав російський контент - деталі гучного скандалу
GlavRed
2025-10-16T19:27:42Z
Спортсмен з Ірпеня став триразовим чемпіоном світу з кікбоксингу ISKA
Khreschatyk
2025-10-16T19:24:18Z
Сидун: Епіцентру необхідно набирати очки
Football.ua
2025-10-16T19:21:26Z
Усик заявив, що боксуватиме до 41 року, а потім побудує академію спорту
Комсомольская правда
2025-10-16T18:54:14Z
Зубков відновив тренування у загальній групі Трабзонспору
Football.ua
2025-10-16T18:51:43Z
Олексій Середа претендує на звання найкращого стрибуна у воду - World Aquatics
УкраинФорм
2025-10-16T18:51:27Z
Жиру може завершити кар'єру наприкінці сезону
Football.ua
2025-10-16T18:00:40Z