/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F52%2F8b6046d23458fbe1c73b743d3925f089.jpg)
Український ШІ-стартап навчить чат-боти говорити "солов'їною" та суржиком
Новий україномовний сервіс Text-to-speech (перетворення тексту на мовлення) від Respeecher пропонує автентичне, живе звучання. СТО та співзасновник Respeecher Дмитро Бєлєвцов пояснив, що їхня мета – змусити ШІ-асистентів банків, телеком-компаній та інших брендів в Україні "нарешті заговорити справжньою українською: з усією її пластичністю, унікальністю, діалектами і навіть суржиком, а головне без пластмасового акценту, як це роблять зараз іноземні ШІ сервіси". Він наголосив, що саме український стартап, маючи сотні годин записів українською мовою, може краще натренувати велику мовну модель (LLM) для передачі самобутності та пластичності мови про це Respeecher розповів 24 Каналу.
Чим новий Text-to-speech від Respeecher відрізняється від закордонних аналогів?
Як працює платформа? Будь-який зареєстрований користувач отримує можливість конвертувати свій текст в аудіо. Доступна бібліотека голосів із різним гендером, віком, тембром та тональністю. З каталогу можна вибрати той голос, який найкраще підходить для конкретної мети: озвучення подкасту, аудіокниги, реклами чи анонсу. Для компаній, які вже мають ШІ-асистентів чи чат-боти, передбачена можливість інтеграції з новим україномовним сервісом за допомогою API.
Творці технології запевняють, що аудіо генерується практично в режимі реального часу, а затримка передачі звуку становить лише 100–200 мілісекунд, що "швидше, ніж клацнути мишкою". Також існує опція тренування мовної моделі на голосі працівника компанії чи відомої особистості, щоб саме її голосом звучав ШІ-асистент. Засновники переконані, що хоча інші голосові компанії можуть не відставати за швидкістю, якість їхніх TTS-сервісів гірша через неприродне, роботизоване звучання.
Окрему увагу Respeecher приділяє питанням безпеки та етики. Це особливо актуально на тлі зростання випадків голосових шахрайств у світі – наприклад, інциденту в Гонконзі, де у фінансиста виманили 25 мільйонів, створивши діпфейк голосу фіндиректора, або використання діпфейка голосу Джо Байдена у США для антиагітації. З етичних міркувань стартап не надає можливості клонувати голос людини без її згоди. Голосові актори, які дозволяють додати свій голос до каталогу, отримують 25% роялті. Крім того, для запобігання зловживанню, команда Respeecher проводить модерацію всіх створених аудіозаписів.
Як працюють детектори ШІ-контенту?
З поширенням інструментів штучного інтелекту зростає потреба у методах, що дозволяють відрізнити контент, створений людиною, від згенерованого машиною. На ринку з'являються спеціальні "детектори ШІ", які обіцяють вирішити цю проблему. Але як вони функціонують і наскільки точними є їхні результати в реальних умовах?
Для детекції зображень іноді аналізують вбудовані метадані, які деякі ШІ-інструменти додають до файлу. Наприклад, інструмент Content Credentials дозволяє відстежити історію редагувань файлу, якщо він створювався у сумісному програмному забезпеченні. Як і у випадку з текстом, зображення можуть порівнювати з базами даних, що містять зразки контенту, згенерованого ШІ. Деякі розробники також почали додавати до результатів роботи своїх систем приховані водяні знаки – патерни, непомітні для людини, але розпізнавані спеціальними алгоритмами. Втім, жодна з великих компаній ще не надала публічного доступу до своїх інструментів розпізнавання.