Сайт The Atlantic дослідив набір даних, який використовувався для навчання моделей ШІ, що належать Apple, Anthropic та Nvidia зокрема, і виявив, що побоювання працівників галузі щодо нової технології далеко небезпідставні.
У набір були включені елементи з щонайменше 53 000 фільмів та 85 000 серіалів: зокрема усі стрічки, номіновані на «найкращий фільм» протягом 1950-2016 років, близько 600 епізодів «Сімпсонів», 170 епізодів «Сайнфелда», 45 епізодів «Твін Пікс» та усі серії «Пуститися берега» і «Клану Сопрано». Так само набір даних містив «живі» діалоги з трансляцій «Золотого глобуса» і «Оскару».
The Atlantic зазначає, що тексти, представлені у наборі даних — не оригінальні сценарії, а субтитри, взяті з сайту OpenSubtitles.org. Користувачі зазвичай їх витягують з DVD, Blu-ray та стримінгів за допомогою програмного забезпечення оптичного розпізнавання символів, а далі завантажують на сайт (наразі там розміщено понад 9 мільйонів файлів із субтитрами на понад 100 мовах та діалектах).
Причому деякі компанії згадують використання субтитрів у своїх дослідницьких статтях: Anthropic навчала на них чатбота Claude, Meta — групу великих мовних моделей під назвою Open Pre-trained Transformer (OPT), Apple — LLM, які можуть працювати на iPhone, а Nvidia — NeMo Megatron LLM. Так само активно OpenSubtitles.org «юзали» Salesforce, Bloomberg, EleutherAI, Databricks, Cerebras та інші розробники ШІ.
Apple зазначила у коментарі, що її LLM призначені «виключно для досліджень», тоді як Salesforce наголосила, що набір даних «ніколи не використовувався для інформування чи покращення будь-яких пропозицій продуктів компанії». Решта згаданих у статті компаній, або відмовились від коментарів, або не відповіли на запити.
Питання щодо легальності використання даних для навчання штучного інтелекту залишається відкритим — з моменту «буму» текстових ботів після запуску ChatGPT. Прозорість компаній все ще досить низька і змусити їх розкрити дані, зможе хіба що суд — але, випадок з OpenAI, показав, що і ця інформація може раптово зникнути.
Здається, сценарист «Пуститися берега» Вінс Ґілліґан щось знав, коли торік назвав генеративний штучний інтелект «надзвичайно складною та енергомісткою формою плагіату» — цікаво, як би він відреагував на те, що технологія вже на всю розпоряджається написаними ним діалогами?