/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F53%2F33a676dc8f8b4e3a2daa3c6c4f369753.jpg)
ChatGPT та інші популярні ШІ провалили українське ЗНО: жодна модель не набрала 70%
Жодна з популярних мовних моделей штучного інтелекту, зокрема ChatGPT, не змогла скласти українське ЗНО.
Результати дослідження оприлюднили на платформі arXiv, у якому українські науковці перевірили, наскільки добре штучний інтелект працює з українською мовою, освітнім контентом та національною культурою. Для цього вони створили спеціальний бенчмарк під назвою ZNO-Vision — перший в Україні комплексний мультимодальний тест, який оцінює знання моделей ШІ у цих сферах.
Бенчмарк сформували на основі реальних завдань ЗНО з різних дисциплін: математики, фізики, хімії, біології, історії України, української мови та літератури. Загалом він містить понад 4 тисячі запитань, частина з яких вимагає аналізу не лише тексту, а й зображень, схем та графіків.
У межах дослідження автори протестували низку популярних мовних моделей: Gemini Pro, Claude 3.5, Qwen2-VL, GPT-4o, LLaMA, Paligemma та інші. Результати виявились доволі неочікуваними: жодна з моделей не змогла подолати 70% правильних відповідей — тобто не склала іспит за українськими стандартами.
Найкращим виявився результат моделі Gemini Pro, яка дала правильні відповіді у 67,5% випадків. За нею — Claude 3.5 (64,3%), Qwen2-VL (51,2%), а GPT-4o набрала всього 47%. Для порівняння: умовний “базовий рівень”, який передбачає випадковий вибір відповідей, забезпечує близько 22% правильних відповідей.
Відсутність україномовних даних обмежує ефективність сучасних ШІ
На думку дослідників, результати вказують на обмеженість навіть найсучасніших ШІ у роботі з українською мовою та українським контентом. Серед основних проблем, з якими стикалися моделі, — помилки у розпізнаванні українського тексту, складнощі у виконанні інструкцій, плутанина між українською та іншими мовами у відповідях, а також відсутність розуміння культурного контексту.
Так, в окремому завданні на знання української кухні більшість моделей плутали страви, неправильно вказували інгредієнти, а український борщ, який ЮНЕСКО визнала культурною спадщиною, часто помилково називали “російським”.
Сучасні ШІ погано працюють з українською мовою, бо їх створювали на основі переважно англомовних даних. Але якщо доповнити їх українськими прикладами, моделі дають кращі результати. Наприклад, Paligemma після такої адаптації точніше розпізнавала українські страви. Зрештою вчені пояснили, що зараз ШІ не може повноцінно працювати з україномовною інформацією, однак розвиток у цьому напрямку важливий.
Раніше Фокус писав про нове дослідженням Університетського коледжу Лондона та Google DeepMind. За його результатами стало відомо, що великі мовні моделі (LLM), такі як ChatGPT, іноді втрачають впевненість під час відповідей на запитання та відмовляються від правильних відповідей.
Також вчені Колумбійського університету в США розробили роботів, які можуть ремонтуватися та вдосконалюватися, інтегруючи матеріал зі свого середовища або від інших роботів.