Як Україна створює власний ChatGPT і для чого державі потрібен суверенний ШІ

Україна офіційно розпочинає розробку власної великої мовної моделі (LLM), яка стане фундаментом для національних ШІ-сервісів у державному та приватному секторах. Міністерство цифрової трансформації та компанія Київстар 17 червня підписали меморандум про стратегічне партнерство, у межах якого відбуватиметься створення українськомовної LLM, натренованої на відкритих даних, адаптованої до національного контексту та повністю розміщеної в межах країни.

Цей проєкт є першим кроком до побудови суверенної цифрової інфраструктури України в епоху штучного інтелекту. Його мета – забезпечити державу, бізнес і громадян ефективними, безпечними та українськими за походженням ШІ-рішеннями. Розробка фінансується повністю за рахунок Київстару без залучення бюджетних коштів, а після завершення етапу бета-тестування модель буде передана державі та стане відкритою для громадськості у форматі open source.

Проєкт передбачає глибоку координацію між державою, бізнесом та науковою спільнотою. Його реалізацією керуватимуть технічний, координаційний та етичний комітети. Окрім розробки LLM, у планах – запуск понад десяти ШІ-продуктів, зокрема ШІ-асистента у Дії та інструментів аналізу нормативно-правових актів. Детальніше про український штучний інтелект – у матеріалі 24 Каналу.

Для чого Україні власний ШІ

18 червня в Україні відбулася подія, яка може стати визначальною у формуванні цифрової незалежності держави: оголошено про запуск проєкту створення великої мовної моделі (LLM), що матиме суверенний статус. Проєкт реалізовуватиметься спільно Мінцифрою та компанією Київстар.

Цей день буде важливий для нашої країни в цілому. Ви знаєте, що десь півроку тому ми прийняли стратегію інновації в нашій країні. Це такий перший груповий документ, який ми розробляли не один місяць,
– наголосив міністр цифрової трансформації Михайло Федоров.

За його словами, попри повномасштабну війну, Україна не має права залишитися осторонь глобальних технологічних перегонів. Світ не зупиняється: інвестує в людський капітал, розвиває компанії, створює додану вартість: "Ми в цих перегонах залишаємося, і нам потрібно боротися з агресором, при цьому розвивати економіку, власну зброю, освіту, людський капітал".

Федоров відзначив успіхи у сферах GovTech та DefenseTech. Україна піднялась з 102-го на 5-е місце у світовому рейтингу цифрових державних послуг, а кількість компаній у секторі оборонних технологій зросла:

Ми зробили певний прорив у DefenseTech сфері. Ми з 0 компаній дійшли до 500, з яких щонайменше 10 – це інноваційні гравці.

Міністр акцентував, що жодна інноваційна стратегія не може існувати без штучного інтелекту, адже ШІ інтелект змінить наш світ так, як свого часу його змінив інтернет. Кожна компанія буде використовувати штучний інтелект. Зникнуть деякі бізнес-процеси, цілі галузі трансформуються.

Підписання меморандуму – Михайло Федоров і Олександр Комаров (праворуч) / Фото Мінцифри

Україна має намір потрапити до трійки лідерів світу за рівнем практичного впровадження ШІ. Для цього вже створено центр компетенцій WINWIN, формується ШІ-візія та інвестиції в інфраструктуру. Окремо Федоров розповів про створення суверенної LLM-моделі у співпраці з Київстаром: "Вона дозволить нам зберігати дані в країні, запускати сервіси без ризику витоку, працювати з унікальними українськими дата-сетами, як-от Delta".

Модель навчатиметься виключно на українських джерелах, без спотворень і ворожих ІПСО. Застосування – від державних сервісів до бізнесу, від довідок у Дії до аналітики оборонного сектору. Це наші бібліотеки, наші науковці, наша історія. Вся інформація буде оцифрована і використана для навчання моделі,
– додав очільник Мінцифри.

Проєкт передбачає створення стратегічного, технічного та етичного комітетів. Тривалість – близько 9 місяців. Після завершення модель стане open-source для державних та освітніх установ.

Київстар: яка участь оператора

Генеральний директор Київстару Олександр Комаров розповів під час презентації про участь компанії:

Ми проходимо найбільшу трансформацію в історії компанії: від оператора зв'язку до надавача цифрових сервісів. Київстар вже має успішні проєкти в телебаченні, охороні здоров’я, мобільності. Участь у створенні LLM – це логічний крок у розвитку компетенцій.

Олександр Комаров / Фото Мінцифри

Комаров нагадав, що міжнародна група VEON, до якої входить Київстар, вже має досвід створення LLM-моделі казахською мовою спільно з Barcelona Computing Center:

Це була модель на 80 мільярдів токенів. Зараз вона працює казахською, англійською і турецькою мовами. Ми хочемо реалізувати аналогічний підхід в Україні.

Проєкт в Україні також стане внеском у національну безпеку та суверенність: "Я вважаю, що будь-яка країна з точки зору нацбезпеки повинна мати власну LLM-модель. Це незалежність, це зниження витрат, це нові можливості".

На момент анонсу вже триває бета-тест першого ШІ-продукту в Дії – чатбота, який консультує щодо послуг. У майбутньому до нього приєднаються інші сервіси. Центр компетенцій Мінцифри вже аналізує нормативно-правові акти за допомогою AI, звільняючи тисячі годин праці юристів.

Фінансування, безпека та комерційна участь: що відомо про створення суверенної LLM-моделі в Україні

Після гучного анонсу про створення великої мовної моделі (LLM) в Україні, у рамках партнерства Мінцифри та Київстару, спікери відповіли на ключові питання журналістів – про витрати, безпеку, комерційні перспективи та відкритість проєкту до інших гравців.

Як розповів Михайло Нестор, директор з розробки діджитал-продуктів Київстар, бюджет проєкту ще остаточно не визначений через науково-дослідницький характер ініціативи:

Це справді ніхто ніколи не робив – LLM українською. Ми ведемо переговори з клауд-партнерами, у нас є власний клауд-бізнес, і це буде ще одна його гілка.

Він уточнив, що йдеться не про велику команду, а про "10-15 дуже якісних спеціалістів", а також додаткові команди для опрацювання даних, етики, тестування: "Скільки потрібно, щоб ми зробили класний проєкт. Ми не зупинимось на півдорозі".

За його словами, економити заради посереднього продукту сенсу немає – як і зробити продукт, гірший за Open Source або платні аналоги.

На питання про комерційний інтерес Київстару, Нестор відповів, що компанія зацікавлена у формуванні власної експертизи в ШІ:

Ми хочемо бути такими ж самими лідерами в AI, як і в Data Science. Це коштує більше, ніж продаж моделі.
Модель матиме національний статус і буде навчена на українських корпусах даних. Для держави, оборони чи фінансів – це будуть окремі треки використання.

Олександр Борняков, заступник міністра цифрової трансформації, повідомив, що на час тестування модель буде безкоштовною для державних і освітніх установ:

На період тестування модель буде доступна безкоштовно. Потім – для всіх.

Під час обговорення майбутніх сценаріїв використання моделі представники Мінцифри підтвердили, що одним із варіантів застосування стане чат-бот у застосунку Дія. За словами заступника міністра цифрової трансформації Олександра Борнякова, на той час буде ШІ-система, яка буде в Дії. "Бо зараз команда працює над ним. І ми його просто могли б включити до цієї моделі, щоб подивитися, як вона працює", – пояснив Борняков.

Мовиться про включення майбутньої LLM-моделі до вже наявного функціоналу, зокрема в рамках джему (пробного запуску). Основна мета – зібрати зворотний зв’язок про якість роботи системи:

Коли буде перша версія моделі, нам важливо буде отримати фідбек щодо якості. Не виключено, що тестування на державному продукті стане одним із способів виявити, що потрібно вдосконалити, перед тим як модель стане повноцінним open-source-рішенням.

Таким чином, публічний чатбот, доступний громадянам, є частиною стратегічного плану тестування і вдосконалення LLM-моделі до її повноцінного релізу.

Михайло Нестор підтвердив, що до проєкту можуть приєднуватися й інші компанії: "Ми відкриті. Можемо інвестувати разом".

Данило Цьвок, Chief AI Officer Мінцифри, додав, що процес створення моделі не обмежиться 9 місяцями:
"Це довготривалий процес, який передбачає вдосконалення даних, поцифрування, залучення нових партнерів".

На запитання про безпечність і боротьбу з "галюцинаціями" LLM-моделей, Данило Цьвок пояснив:

інфраструктура буде сертифікованою;
персональні дані не потраплятимуть у тренувальну вибірку;
застосовуватимуться гардрейли – фільтри для вхідних і вихідних запитів;
працюватиме етичний комітет для контролю упереджень;
проводитиметься Human Evaluation – людська оцінка якості результатів.

"Це питання суперпріоритетне. Безпека – і в процесі розробки, і в використанні", – додав Цьвок. Щодо обсягу корпусу українською, Цьвок визнав, що цього недостатньо навіть для моделі середнього розміру: "Треба буде зробити open call, ініціативу для збору додаткових даних. Приватні організації також можуть долучитися."

При цьому всі дані повинні збиратись з дотриманням авторського права і законодавства.

Нестор і Борняков також підтвердили, що модель інтегруватиметься в сервіси держави і бізнесу:
"Це буде як інтернет. Це не вибір – це хвиля. Вона буде в усіх продуктах, компаніях, держустановах." Цьвок навів такий прогноз: "Якщо 22 мільйони користувачів щороку робитимуть понад 100 мільйонів запитів – економічний ефект буде колосальний".

Поділитися

Поділитися сюжетом

Джерело матеріала