/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F434%2F5e42262df33f4d9d5aeceb64098a1497.jpg)
Кремнієва долина робить велику ставку на «середовища» для навчання ШІ
Роками генеральні директори великих технологічних компаній рекламували бачення агентів штучного інтелекту , які можуть автономно використовувати програмні додатки для виконання завдань за людей. Але спробуйте сучасних споживчих агентів штучного інтелекту, будь то ChatGPT Agent від OpenAI чи Comet від Perplexity , і ви швидко зрозумієте, наскільки обмеженою залишається ця технологія. Підвищення надійності агентів штучного інтелекту може вимагати нового набору методів, які галузь все ще досліджує.
Одним із таких методів є ретельне моделювання робочих просторів, де агентів можна навчати багатоетапним завданням, відомим як середовища навчання з підкріпленням (RL). Подібно до того, як марковані набори даних забезпечили останню хвилю штучного інтелекту, середовища RL починають виглядати критичним елементом у розробці агентів.
Дослідники, засновники та інвестори штучного інтелекту розповідають TechCrunch, що провідні лабораторії штучного інтелекту зараз вимагають більше середовищ для навчання, і немає нестачі в стартапах, які сподіваються їх забезпечити.
«Усі великі лабораторії штучного інтелекту створюють середовища RL власними силами», – сказала Дженніфер Лі, генеральний партнер Andreessen Horowitz, в інтерв’ю TechCrunch. «Але, як ви можете собі уявити, створення цих наборів даних є дуже складним, тому лабораторії штучного інтелекту також шукають сторонніх постачальників, які можуть створювати високоякісні середовища та оцінки. Усі зацікавлені в цій сфері».
Прагнення до середовищ RL породило новий клас добре фінансованих стартапів, таких як Mechanize та Prime Intellect, які прагнуть стати лідерами в цій галузі. Тим часом великі компанії з маркування даних, такі як Mercor та Surge, кажуть, що вони інвестують більше в середовища RL, щоб не відставати від переходу галузі від статичних наборів даних до інтерактивних симуляцій. Великі лабораторії також розглядають можливість значних інвестицій: за даними The Information, керівники Anthropic обговорили витрати понад 1 мільярд доларів на середовища RL протягом наступного року.
Інвестори та засновники сподіваються, що один із цих стартапів стане «Масштабованим ШІ для середовищ», маючи на увазі гіганта маркування даних вартістю 29 мільярдів доларів, який жив еру чат-ботів.
Питання полягає в тому, чи справді середовища RL розширять межі прогресу ШІ.
Що таке середовище RL?
По суті, середовища RL — це навчальні майданчики, що імітують те, що робив би агент штучного інтелекту в реальному програмному застосунку. Один із засновників у нещодавньому інтерв'ю описав їх створення як «створення дуже нудної відеогри».
Наприклад, середовище може імітувати браузер Chrome і доручити агенту штучного інтелекту купити пару шкарпеток на Amazon. Агент отримує оцінку за свою роботу та надсилає сигнал винагороди, коли він досягає успіху (у цьому випадку, купує гідну пару шкарпеток).
Хоча таке завдання здається відносно простим, існує багато місць, де агент ШІ може спіткнутися. Він може загубитися під час навігації по випадаючих меню веб-сторінки або купити забагато шкарпеток. А оскільки розробники не можуть точно передбачити, який неправильний поворот зробить агент, саме середовище має бути достатньо надійним, щоб фіксувати будь-яку неочікувану поведінку та водночас надавати корисний зворотний зв'язок. Це робить створення середовищ набагато складнішим, ніж статичний набір даних.
Деякі середовища досить складні, що дозволяє агентам ШІ використовувати інструменти, отримувати доступ до Інтернету або використовувати різні програмні додатки для виконання певного завдання. Інші ж є більш вузькими та спрямовані на те, щоб допомогти агенту вивчити конкретні завдання в корпоративних програмних додатках.
Хоча середовища RL зараз є гарячою темою в Кремнієвій долині, існує багато прецедентів використання цієї техніки. Одним з перших проектів OpenAI ще у 2016 році було створення « спортзалів RL », які були досить схожі на сучасне уявлення про середовища. Того ж року система штучного інтелекту AlphaGo від Google DeepMind перемогла чемпіона світу в настільній грі Go. Вона також використовувала методи RL у симульованому середовищі.
Унікальність сучасних середовищ полягає в тому, що дослідники намагаються створювати комп'ютерні агенти штучного інтелекту з великими моделями-трансформерами. На відміну від AlphaGo, яка була спеціалізованою системою штучного інтелекту, що працювала в закритих середовищах, сучасні агенти штучного інтелекту навчені мати більш загальні можливості. Дослідники штучного інтелекту сьогодні мають сильнішу відправну точку, але також складну мету, де може піти багато не так.
Переповнене поле
Компанії з маркування даних на основі штучного інтелекту, такі як Scale AI, Surge та Mercor, намагаються врахувати потреби та створити середовища RL. Ці компанії мають більше ресурсів, ніж багато стартапів у цій галузі, а також тісні зв'язки з лабораторіями штучного інтелекту.
Генеральний директор Surge Едвін Чен розповів TechCrunch, що нещодавно він спостерігав «значне зростання» попиту на середовища RL у лабораторіях штучного інтелекту. Surge, яка, як повідомляється, минулого року отримала 1,2 мільярда доларів доходу від співпраці з лабораторіями штучного інтелекту, такими як OpenAI, Google, Anthropic та Meta, нещодавно створила нову внутрішню організацію, спеціально призначену для створення середовищ RL, сказав він.
Відразу за Surge йде Mercor, стартап вартістю 10 мільярдів доларів, який також співпрацював з OpenAI, Meta та Anthropic. Згідно з маркетинговими матеріалами, з якими ознайомився TechCrunch, Mercor пропонує інвесторам свій бізнес зі створення середовищ RL для специфічних завдань, таких як кодування, охорона здоров'я та право.
Генеральний директор Mercor Брендан Фуді розповів TechCrunch в інтерв'ю, що «мало хто розуміє, наскільки великі можливості насправді відкриваються навколо середовищ RL».
Раніше Scale AI домінував у сфері маркування даних, але втратив позиції після того, як Meta інвестувала 14 мільярдів доларів і звільнила свого генерального директора. Відтоді Google та OpenAI відмовилися від Scale AI як постачальника даних, і стартап навіть стикається з конкуренцією за роботу з маркування даних всередині Meta . Але Scale все ж намагається відповідати вимогам моменту та створювати середовища.
«Це просто природа бізнесу [Scale AI]», — сказав Четан Рейн, керівник відділу продуктів Scale AI для агентів та середовищ RL. «Scale довів свою здатність швидко адаптуватися. Ми зробили це на початку існування автономних транспортних засобів, нашого першого бізнес-підрозділу. Коли з'явився ChatGPT, Scale AI адаптувався до цього. І тепер ми знову адаптуємося до нових передових просторів, таких як агенти та середовища».
Деякі нові гравці з самого початку зосереджуються виключно на середовищах. Серед них Mechanize, стартап, заснований приблизно шість місяців тому з амбітною метою «автоматизувати всі завдання». Однак співзасновник Метью Барнетт розповідає TechCrunch, що його фірма починає з середовищ RL для агентів кодування ШІ.
За словами Барнетта, Mechanize прагне забезпечити лабораторії штучного інтелекту невеликою кількістю надійних середовищ RL, а не великими фірмами, що займаються обробкою даних, які створюють широкий спектр простих середовищ RL. Наразі стартап пропонує розробникам програмного забезпечення зарплату в розмірі 500 000 доларів за створення середовищ RL — це набагато більше, ніж може заробляти погодинний підрядник, працюючи в Scale AI або Surge.
Mechanize вже співпрацює з Anthropic над середовищами RL, повідомили TechCrunch два джерела, знайомі з цим питанням. Mechanize та Anthropic відмовилися коментувати це партнерство.
Інші стартапи роблять ставку на те, що середовища RL матимуть вплив поза межами лабораторій штучного інтелекту. Prime Intellect — стартап, який підтримується дослідником штучного інтелекту Андрієм Карпатієм, Founders Fund та Menlo Ventures — орієнтується на менших розробників своїми середовищами RL.
Минулого місяця Prime Intellect запустила центр середовищ RL, який має на меті стати «обличчям для середовищ RL». Ідея полягає в тому, щоб надати розробникам з відкритим кодом доступ до тих самих ресурсів, що й великі лабораторії штучного інтелекту, і в процесі продати цим розробникам доступ до обчислювальних ресурсів.
За словами дослідника Prime Intellect Вілла Брауна, навчання загалом здатних агентів у середовищах RL може бути більш обчислювально витратним, ніж попередні методи навчання ШІ. Поряд зі стартапами, які створюють середовища RL, існує ще одна можливість для постачальників графічних процесорів, які можуть забезпечити цей процес.
«Середовища RL будуть занадто великими, щоб будь-яка одна компанія могла домінувати в них», – сказав Браун в інтерв'ю. «Частково ми просто намагаємося побудувати навколо них хорошу інфраструктуру з відкритим кодом. Послуга, яку ми продаємо, – це обчислення, тому це зручний початок використання графічних процесорів, але ми думаємо про це радше в довгостроковій перспективі».
Чи буде це масштабуватися?
Відкрите питання щодо середовищ RL полягає в тому, чи буде ця методика масштабуватися, як і попередні методи навчання ШІ.
Навчання з підкріпленням стало рушійною силою деяких найбільших стрибків у розвитку штучного інтелекту за останній рік, включаючи такі моделі, як o1 від OpenAI та Claude Opus 4 від Anthropic . Це особливо важливі прориви, оскільки методи, що раніше використовувалися для покращення моделей штучного інтелекту, тепер демонструють зменшення віддачі .
Середовища є частиною більшої ставки лабораторій штучного інтелекту на RL, який, на думку багатьох, продовжуватиме стимулювати прогрес, оскільки вони додадуть більше даних та обчислювальних ресурсів до процесу. Деякі дослідники OpenAI, що стоять за o1, раніше розповідали TechCrunch, що компанія спочатку інвестувала в моделі міркувань ШІ, які були створені шляхом інвестицій у RL та обчислення під час тестування, оскільки вони вважали, що вони добре масштабуватимуться .
Найкращий спосіб масштабування RL залишається незрозумілим, але середовища здаються перспективним кандидатом. Замість того, щоб просто винагороджувати чат-ботів за текстові відповіді, вони дозволяють агентам працювати в симуляціях з інструментами та комп'ютерами в їхньому розпорядженні. Це набагато ресурсоємніше, але потенційно більш корисно.
Дехто скептично ставиться до того, що всі ці середовища RL спрацюють. Росс Тейлор, колишній керівник досліджень ШІ в Meta та співзасновник General Reasoning, розповідає TechCrunch, що середовища RL схильні до винагороджувального злому. Це процес, у якому моделі ШІ шахраюють, щоб отримати винагороду, насправді не виконуючи завдання.
«Я думаю, що люди недооцінюють, наскільки складно масштабувати середовища», — сказав Тейлор. «Навіть найкращі загальнодоступні [середовища RL] зазвичай не працюють без серйозних модифікацій».
Керівник інженерного відділу API компанії OpenAI Шервін Ву нещодавно у своєму подкасті заявив , що йому «не вистачає» стартапів у середовищі RL. Ву зазначив, що це дуже конкурентний простір, але також те, що дослідження штучного інтелекту розвиваються так швидко, що важко добре обслуговувати лабораторії штучного інтелекту.
Karpathy, інвестор Prime Intellect, який назвав середовища RL потенційним проривом, також висловив застереження щодо сфери RL у ширшому сенсі. У дописі на X він висловив стурбованість тим, наскільки ще можна вичавити прогрес у сфері ШІ з RL.
«Я оптимістично налаштований щодо середовища та взаємодії агентів, але песимістично налаштований саме щодо навчання з підкріпленням», – сказав Карпаті.