MY.UAНовини
Кремнієва долина робить велику ставку на «середовища» для навчання ШІ
Кремнієва долина робить велику ставку на «середовища» для навчання ШІ

Кремнієва долина робить велику ставку на «середовища» для навчання ШІ

Роками генеральні директори великих технологічних компаній рекламували бачення агентів штучного інтелекту , які можуть автономно використовувати програмні додатки для виконання завдань за людей. Але спробуйте сучасних споживчих агентів штучного інтелекту, будь то ChatGPT Agent від OpenAI чи Comet від Perplexity , і ви швидко зрозумієте, наскільки обмеженою залишається ця технологія. Підвищення надійності агентів штучного інтелекту може вимагати нового набору методів, які галузь все ще досліджує.

Одним із таких методів є ретельне моделювання робочих просторів, де агентів можна навчати багатоетапним завданням, відомим як середовища навчання з підкріпленням (RL). Подібно до того, як марковані набори даних забезпечили останню хвилю штучного інтелекту, середовища RL починають виглядати критичним елементом у розробці агентів.

Дослідники, засновники та інвестори штучного інтелекту розповідають TechCrunch, що провідні лабораторії штучного інтелекту зараз вимагають більше середовищ для навчання, і немає нестачі в стартапах, які сподіваються їх забезпечити.

«Усі великі лабораторії штучного інтелекту створюють середовища RL власними силами», – сказала Дженніфер Лі, генеральний партнер Andreessen Horowitz, в інтерв’ю TechCrunch. «Але, як ви можете собі уявити, створення цих наборів даних є дуже складним, тому лабораторії штучного інтелекту також шукають сторонніх постачальників, які можуть створювати високоякісні середовища та оцінки. Усі зацікавлені в цій сфері».

Прагнення до середовищ RL породило новий клас добре фінансованих стартапів, таких як Mechanize та Prime Intellect, які прагнуть стати лідерами в цій галузі. Тим часом великі компанії з маркування даних, такі як Mercor та Surge, кажуть, що вони інвестують більше в середовища RL, щоб не відставати від переходу галузі від статичних наборів даних до інтерактивних симуляцій. Великі лабораторії також розглядають можливість значних інвестицій: за даними The Information, керівники Anthropic обговорили витрати понад 1 мільярд доларів на середовища RL протягом наступного року.

Інвестори та засновники сподіваються, що один із цих стартапів стане «Масштабованим ШІ для середовищ», маючи на увазі гіганта маркування даних вартістю 29 мільярдів доларів, який жив еру чат-ботів.

Питання полягає в тому, чи справді середовища RL розширять межі прогресу ШІ.

Що таке середовище RL?

По суті, середовища RL — це навчальні майданчики, що імітують те, що робив би агент штучного інтелекту в реальному програмному застосунку. Один із засновників у нещодавньому інтерв'ю описав їх створення як «створення дуже нудної відеогри».

Наприклад, середовище може імітувати браузер Chrome і доручити агенту штучного інтелекту купити пару шкарпеток на Amazon. Агент отримує оцінку за свою роботу та надсилає сигнал винагороди, коли він досягає успіху (у цьому випадку, купує гідну пару шкарпеток).

Хоча таке завдання здається відносно простим, існує багато місць, де агент ШІ може спіткнутися. Він може загубитися під час навігації по випадаючих меню веб-сторінки або купити забагато шкарпеток. А оскільки розробники не можуть точно передбачити, який неправильний поворот зробить агент, саме середовище має бути достатньо надійним, щоб фіксувати будь-яку неочікувану поведінку та водночас надавати корисний зворотний зв'язок. Це робить створення середовищ набагато складнішим, ніж статичний набір даних.

Деякі середовища досить складні, що дозволяє агентам ШІ використовувати інструменти, отримувати доступ до Інтернету або використовувати різні програмні додатки для виконання певного завдання. Інші ж є більш вузькими та спрямовані на те, щоб допомогти агенту вивчити конкретні завдання в корпоративних програмних додатках.

Хоча середовища RL зараз є гарячою темою в Кремнієвій долині, існує багато прецедентів використання цієї техніки. Одним з перших проектів OpenAI ще у 2016 році було створення « спортзалів RL », які були досить схожі на сучасне уявлення про середовища. Того ж року система штучного інтелекту AlphaGo від Google DeepMind перемогла чемпіона світу в настільній грі Go. Вона також використовувала методи RL у симульованому середовищі.

Унікальність сучасних середовищ полягає в тому, що дослідники намагаються створювати комп'ютерні агенти штучного інтелекту з великими моделями-трансформерами. На відміну від AlphaGo, яка була спеціалізованою системою штучного інтелекту, що працювала в закритих середовищах, сучасні агенти штучного інтелекту навчені мати більш загальні можливості. Дослідники штучного інтелекту сьогодні мають сильнішу відправну точку, але також складну мету, де може піти багато не так.

Переповнене поле

Компанії з маркування даних на основі штучного інтелекту, такі як Scale AI, Surge та Mercor, намагаються врахувати потреби та створити середовища RL. Ці компанії мають більше ресурсів, ніж багато стартапів у цій галузі, а також тісні зв'язки з лабораторіями штучного інтелекту.

Генеральний директор Surge Едвін Чен розповів TechCrunch, що нещодавно він спостерігав «значне зростання» попиту на середовища RL у лабораторіях штучного інтелекту. Surge, яка, як повідомляється, минулого року отримала 1,2 мільярда доларів доходу від співпраці з лабораторіями штучного інтелекту, такими як OpenAI, Google, Anthropic та Meta, нещодавно створила нову внутрішню організацію, спеціально призначену для створення середовищ RL, сказав він.

Відразу за Surge йде Mercor, стартап вартістю 10 мільярдів доларів, який також співпрацював з OpenAI, Meta та Anthropic. Згідно з маркетинговими матеріалами, з якими ознайомився TechCrunch, Mercor пропонує інвесторам свій бізнес зі створення середовищ RL для специфічних завдань, таких як кодування, охорона здоров'я та право.

Генеральний директор Mercor Брендан Фуді розповів TechCrunch в інтерв'ю, що «мало хто розуміє, наскільки великі можливості насправді відкриваються навколо середовищ RL».

Раніше Scale AI домінував у сфері маркування даних, але втратив позиції після того, як Meta інвестувала 14 мільярдів доларів і звільнила свого генерального директора. Відтоді Google та OpenAI відмовилися від Scale AI як постачальника даних, і стартап навіть стикається з конкуренцією за роботу з маркування даних всередині Meta . Але Scale все ж намагається відповідати вимогам моменту та створювати середовища.

«Це просто природа бізнесу [Scale AI]», — сказав Четан Рейн, керівник відділу продуктів Scale AI для агентів та середовищ RL. «Scale довів свою здатність швидко адаптуватися. Ми зробили це на початку існування автономних транспортних засобів, нашого першого бізнес-підрозділу. Коли з'явився ChatGPT, Scale AI адаптувався до цього. І тепер ми знову адаптуємося до нових передових просторів, таких як агенти та середовища».

Деякі нові гравці з самого початку зосереджуються виключно на середовищах. Серед них Mechanize, стартап, заснований приблизно шість місяців тому з амбітною метою «автоматизувати всі завдання». Однак співзасновник Метью Барнетт розповідає TechCrunch, що його фірма починає з середовищ RL для агентів кодування ШІ.

За словами Барнетта, Mechanize прагне забезпечити лабораторії штучного інтелекту невеликою кількістю надійних середовищ RL, а не великими фірмами, що займаються обробкою даних, які створюють широкий спектр простих середовищ RL. Наразі стартап пропонує розробникам програмного забезпечення зарплату в розмірі 500 000 доларів за створення середовищ RL — це набагато більше, ніж може заробляти погодинний підрядник, працюючи в Scale AI або Surge.

Mechanize вже співпрацює з Anthropic над середовищами RL, повідомили TechCrunch два джерела, знайомі з цим питанням. Mechanize та Anthropic відмовилися коментувати це партнерство.

Інші стартапи роблять ставку на те, що середовища RL матимуть вплив поза межами лабораторій штучного інтелекту. Prime Intellect — стартап, який підтримується дослідником штучного інтелекту Андрієм Карпатієм, Founders Fund та Menlo Ventures — орієнтується на менших розробників своїми середовищами RL.

Минулого місяця Prime Intellect запустила центр середовищ RL, який має на меті стати «обличчям для середовищ RL». Ідея полягає в тому, щоб надати розробникам з відкритим кодом доступ до тих самих ресурсів, що й великі лабораторії штучного інтелекту, і в процесі продати цим розробникам доступ до обчислювальних ресурсів.

За словами дослідника Prime Intellect Вілла Брауна, навчання загалом здатних агентів у середовищах RL може бути більш обчислювально витратним, ніж попередні методи навчання ШІ. Поряд зі стартапами, які створюють середовища RL, існує ще одна можливість для постачальників графічних процесорів, які можуть забезпечити цей процес.

«Середовища RL будуть занадто великими, щоб будь-яка одна компанія могла домінувати в них», – сказав Браун в інтерв'ю. «Частково ми просто намагаємося побудувати навколо них хорошу інфраструктуру з відкритим кодом. Послуга, яку ми продаємо, – це обчислення, тому це зручний початок використання графічних процесорів, але ми думаємо про це радше в довгостроковій перспективі».

Чи буде це масштабуватися?

Відкрите питання щодо середовищ RL полягає в тому, чи буде ця методика масштабуватися, як і попередні методи навчання ШІ.

Навчання з підкріпленням стало рушійною силою деяких найбільших стрибків у розвитку штучного інтелекту за останній рік, включаючи такі моделі, як o1 від OpenAI та Claude Opus 4 від Anthropic . Це особливо важливі прориви, оскільки методи, що раніше використовувалися для покращення моделей штучного інтелекту, тепер демонструють зменшення віддачі 

Середовища є частиною більшої ставки лабораторій штучного інтелекту на RL, який, на думку багатьох, продовжуватиме стимулювати прогрес, оскільки вони додадуть більше даних та обчислювальних ресурсів до процесу. Деякі дослідники OpenAI, що стоять за o1, раніше розповідали TechCrunch, що компанія спочатку інвестувала в моделі міркувань ШІ, які були створені шляхом інвестицій у RL та обчислення під час тестування, оскільки вони вважали, що вони добре масштабуватимуться .

Найкращий спосіб масштабування RL залишається незрозумілим, але середовища здаються перспективним кандидатом. Замість того, щоб просто винагороджувати чат-ботів за текстові відповіді, вони дозволяють агентам працювати в симуляціях з інструментами та комп'ютерами в їхньому розпорядженні. Це набагато ресурсоємніше, але потенційно більш корисно.

Дехто скептично ставиться до того, що всі ці середовища RL спрацюють. Росс Тейлор, колишній керівник досліджень ШІ в Meta та співзасновник General Reasoning, розповідає TechCrunch, що середовища RL схильні до винагороджувального злому. Це процес, у якому моделі ШІ шахраюють, щоб отримати винагороду, насправді не виконуючи завдання.

«Я думаю, що люди недооцінюють, наскільки складно масштабувати середовища», — сказав Тейлор. «Навіть найкращі загальнодоступні [середовища RL] зазвичай не працюють без серйозних модифікацій».

Керівник інженерного відділу API компанії OpenAI Шервін Ву нещодавно у своєму подкасті заявив , що йому «не вистачає» стартапів у середовищі RL. Ву зазначив, що це дуже конкурентний простір, але також те, що дослідження штучного інтелекту розвиваються так швидко, що важко добре обслуговувати лабораторії штучного інтелекту.

Karpathy, інвестор Prime Intellect, який назвав середовища RL потенційним проривом, також висловив застереження щодо сфери RL у ширшому сенсі. У дописі на X він висловив стурбованість тим, наскільки ще можна вичавити прогрес у сфері ШІ з RL.

«Я оптимістично налаштований щодо середовища та взаємодії агентів, але песимістично налаштований саме щодо навчання з підкріпленням», – сказав Карпаті.

Поділитися
Поділитися сюжетом
Джерело матеріала
Не відірветесь від екрана: 3 найяскравіші бойовики, від яких мурахи по шкірі
24tv
2025-09-18T20:06:42Z
Аж дух захоплює: в Києві відбулося лазерно-світлове шоу на монументі "Батьківщина-Мати"
Telegraf
2025-09-18T19:54:16Z
Український культурний центр в Парижі показав оновлену залу пошани Алена Делона
УкраинФорм
2025-09-18T19:06:56Z
«Батьківщина-мати» перетворилася на арт-інсталяцію
ГЛАВКОМ NET
2025-09-18T18:42:48Z
Відомий співак показав "компромат" на Андрія Данилка та Ірину Білик: "Було діло"
GlavRed
2025-09-18T18:27:58Z
Фагот різко висловився про українську артистку, якій не потиснув би руку: "Вона — ворог України"
TSN
2025-09-18T18:21:06Z
Jerry Heil різко нарвалася на хейт через необачне висловлювання: "Закрийте рану купюрою"
TSN
2025-09-18T17:36:51Z
В Ізраїлі міністр культури погрожує скасувати фінансування національної кінопремії через перемогу стрічки про палестинця
Детектор М
2025-09-18T17:30:03Z
Фронтмен АНТИТІЛ похизувався нагородою від Верховної Ради
24tv
2025-09-18T17:09:31Z
Пережити зиму: Reuters дізналося, скільки ще газу потрібно закупити Україні
Хвиля
2025-09-18T20:12:19Z
Дефіцит овочів у Хмельницькій області: як він відобразився на становищі українців
Политека
2025-09-18T20:00:52Z
Як купити нерухомість під час війни: які документи варто перевірити, щоб не залишитися ні з чим
24tv
2025-09-18T19:57:50Z
Заплатити за комуналку неможливо: в "Ощадбанку" відповіли на критику через черги
Хвиля
2025-09-18T19:21:01Z
Які можуть бути ризики під час суборенди землі
24tv
2025-09-18T19:06:08Z
Які долари не приймають в Україні зараз
24tv
2025-09-18T19:00:12Z
Підвищення тарифів на опалення в Черкаській області: які суми в платіжках тепер будуть надходити
Политека
2025-09-18T18:30:50Z
Свириденко ознайомила директорку Світового банку з пріоритетами бюджету України на наступний рік
УкраинФорм
2025-09-18T17:48:17Z
Естонія остаточно забороняє імпорт російського газу
ГЛАВКОМ NET
2025-09-18T17:45:02Z
"Найскладніша справа": Трамп про врегулювання війни в Україні
TSN
2025-09-18T20:21:54Z
Польща зафіксувала підвищену активність російських і білоруських дронів на кордоні
InternetUA
2025-09-18T20:12:33Z
У Франції на акції протесту та страйки вийшли близько мільйона людей
УкраинФорм
2025-09-18T20:09:51Z
Не час просити Путіна про перемир'я, – Трамп
24tv
2025-09-18T20:06:55Z
Дії Європи щодо Китаю могли б прискорити кінець війни в Україні, — Трамп
Фокус
2025-09-18T20:06:53Z
Я дуже розчарований Путіним, – Трамп
24tv
2025-09-18T20:06:13Z
Трамп "дуже розчарований", але хоче вірити, що російські дрони в Польщі були "виведені з ладу"
24tv
2025-09-18T20:03:50Z
Росія оскаржила в Суді ООН свою причетність до збиття рейсу MH17 у 2014 році
Европейская правда
2025-09-18T20:03:23Z
Нардеп сказав, як зміниться відповідальність за СЗЧ
24tv
2025-09-18T20:00:45Z
На Камчатці стався сильний землетрус магнітудою 7,2, є загроза цунамі
24tv
2025-09-18T20:18:41Z
Актор Роберт Редфорд помер, так і не побачивши арешту вбивці нареченого своєї дочки
Фокус
2025-09-18T20:15:10Z
Посадовець Міноборони «погорів» на хабарі від ухилянта
УкраинФорм
2025-09-18T19:51:33Z
Біля Роттердама евакуювали кількасот пасажирів поїзда через повідомлення про пожежу
Европейская правда
2025-09-18T19:33:16Z
Корсика: проти диспетчера, який задрімав і затримав літак, почали розслідування
Европейская правда
2025-09-18T19:21:29Z
На Київщині уламки збитого дрона поранили чоловіка
УкраинФорм
2025-09-18T19:09:14Z
У Київській області поранено чоловіка через атаку російського дрона
Лига
2025-09-18T17:03:02Z
На Київщині 60-річний чоловік отримав поранення через падіння уламків дрона
ГЛАВКОМ NET
2025-09-18T16:57:04Z
Затримано мешканця Стрийщини, який розстріляв сусіда з рушниці
Украина Криминальная
2025-09-18T16:48:49Z
Скільки треба заробляти у 2025 році: експерт назвав дохід для комфортного життя пари в Україні
Фокус
2025-09-18T20:06:17Z
ЗМІ: частина зброї США, закуплена за кошти країн НАТО, вже в Україні - більше в дорозі
Европейская правда
2025-09-18T19:57:39Z
Путін назвав чисельність російської армії в Україні
24tv
2025-09-18T19:57:24Z
Мін'юст відреагував на ситуацію з "е-Нотаріатом"
iPress
2025-09-18T19:57:04Z
Мобілізація 60+: в ЗСУ розповіли, яка категорія громадян у пріоритеті
GlavRed
2025-09-18T19:51:17Z
Чи правда, що на Воздвиження ховаються змії - священник ​розставив крапки над "і"
GlavRed
2025-09-18T19:27:04Z
Ірландія передає ЗСУ 34 автомобілі та трьох роботів для розмінування
УкраинФорм
2025-09-18T19:24:07Z
Розробники з Філіппін представили перші вітчизняні бойові дрони AMOC
InternetUA
2025-09-18T19:12:00Z
Робота для пенсіонерів у Вінниці: де можна мати дохід від 25 тисяч гривень кожного місяця
Политека
2025-09-18T19:00:30Z
Розрив меніска: як розпізнати травму та що робити
24tv
2025-09-18T17:00:12Z
Національний ривок до довголіття: на AM Summit 2025 у Києві вперше обговорять тему управління віком
TSN
2025-09-18T16:03:47Z
Чому у буряка червоніє листя: ось елементарний спосіб впоратися з проблемою
24tv
2025-09-18T15:36:35Z
Який макіяж робити жінкам 40+. П'ять порад, які допоможуть підкреслити красу
Gazeta UA
2025-09-18T14:39:49Z
Покращує зір і пам’ять: вчені назвали продукт для здорових очей і ясного розуму
TSN
2025-09-18T13:51:17Z
Всього два уколи на рік: ВООЗ рекомендує ще один препарат для профілактики ВІЛ
24tv
2025-09-18T11:42:10Z
Вода не розбавляє шлунковий сік: відомий фітнес-тренер зруйнував поширений міф
Политека
2025-09-18T10:57:35Z
Дослідники з Цюріха знайшли спосіб регенерації мозку після інсульту
360ua.news
2025-09-18T10:12:40Z
Як вивести неприємний запах з рушників: несподіваний та ефективний лайфгак
TSN
2025-09-18T09:51:16Z
Nissan виявив 1600 методів зниження витрат, зокрема на підголовниках та світлі фар
Топ Жир
2025-09-18T20:06:56Z
Mitsubishi представила новий Eclipse Cross
1News
2025-09-18T19:54:21Z
Dacia перетворила Duster на пікап і фургон
1News
2025-09-18T19:36:43Z
"Правило 10 секунд": експерти розкрили, як реально зменшити витрати пального в місті
GlavRed
2025-09-18T19:27:49Z
Ця Impala SS 1966 року виглядає так, ніби щойно зійшла з конвеєра Chevrolet
Топ Жир
2025-09-18T19:06:06Z
Модель YU7 GT від Xiaomi може приховувати понад 1000 кінських сил потужності
Топ Жир
2025-09-18T18:36:06Z
Дженерал Моторс знайшла рішення проблеми з ризиком займання у Corvette, але власникам доведеться почекати
Топ Жир
2025-09-18T17:51:43Z
Nissan припиняє виробництво електромобіля Ariya після 2025 року
Топ Жир
2025-09-18T16:21:08Z
В Україні випробували унікальний насосно-рукавний пожежний автомобіль
AutoCentre
2025-09-18T16:09:19Z
В СБУ розкрили, чим знищили російський арсенал зброї в Торопці
Gazeta UA
2025-09-18T20:15:59Z
Лінія фронту станом на 18 вересня 2025. Зведення Генштабу
ГЛАВКОМ NET
2025-09-18T20:00:05Z
Обмеження руху транспорту в Тернополі: де буде складно проїхати
Политека
2025-09-18T19:30:51Z
Навіть не "Московський": як називався проспект Степана Бандери в Києві раніше
Telegraf
2025-09-18T19:15:18Z
Бійцям не передову відправлять броньовані медичні автомобілі
AutoCentre
2025-09-18T18:46:13Z
Зрадив Батьківщину у 2014 році: атаками на Куп'янськ командує український екс-комбриг - ЗМІ
GlavRed
2025-09-18T18:27:42Z
Сніг в Україні: Гідрометцентр відповів, чи насправді гряде різке похолодання
Хвиля
2025-09-18T18:18:41Z
Нова система оплати проїзду у Миколаєві: про які нюанси варто знати
Политека
2025-09-18T18:00:14Z
На Добропільському напрямку створено три котли: полковник розповів про успіхи ЗСУ
24tv
2025-09-18T17:51:40Z
Де можна відпочити біля водоспаду "Дівочі сльози" з кришталево чистою водою
24tv
2025-09-18T19:21:08Z
Кола, квадрати чи спіралі: ваші несвідомі малюнки показують, чого вам бракує
Знай
2025-09-18T18:51:22Z
Найгірший сусід: із чим категорично не можна зберігати цибулю
GlavRed
2025-09-18T18:27:30Z
Тест на особистість: дізнайтеся, наскільки думка інших людей важлива для вас
TSN
2025-09-18T18:21:51Z
Живий скарб: 94-річна італійка стала приманкою для туристів
Фокус
2025-09-18T17:09:23Z
Іспанський аеропорт зафіксував найкращий серпень за історію: протестувальники незадоволені
24tv
2025-09-18T17:03:54Z
Ще один стильний простір вдома: як оформити сходовий майданчик
24tv
2025-09-18T17:03:12Z
Як правильно мити вікна восени, щоб не залишалося розводів
24tv
2025-09-18T16:57:09Z
Де біля Львова розташована одна з найкрасивіших інстаграмних локацій для осінніх фото
24tv
2025-09-18T16:45:16Z
Кібербезпека в Україні: нові схеми шахрайства та як себе захистити
InternetUA
2025-09-18T20:03:18Z
Американські безпілотники Black Widow отримають український ШІ, який навчили у боях
InternetUA
2025-09-18T19:57:57Z
Небесне шоу для терплячих: коли почнеться покриття Венери Місяцем і як його спостерігати
24tv
2025-09-18T19:36:32Z
CD Projekt RED натякає на онлайн-режим у продовженні Cyberpunk 2077
24tv
2025-09-18T19:36:23Z
Музика для котів: які звуки їх заспокоюють, а які дратують
GlavRed
2025-09-18T19:27:32Z
Приємно глянути: три круті Twitch стримерки, які справді грають у відеоігри
24tv
2025-09-18T19:27:22Z
Пентагон завершує "Золотий купол" Трампа - найдорожчу оборонну програму в історії
InternetUA
2025-09-18T18:00:44Z
Дощ з грошей, "криваві" зливи та космічні подарунки: найдивніші речі, що падали з неба
TSN
2025-09-18T17:36:25Z
ChatGPT тепер можна пришвидшувати: OpenAI впровадила нові режими мислення
InternetUA
2025-09-18T17:12:11Z
"Залізний Майк" відверто зізнався, чому продовжує боксувати: які причини
24tv
2025-09-18T20:21:59Z
Сікан повернувся після травми та готовий зіграти за Трабзонспор
Football.ua
2025-09-18T20:15:24Z
Бєлінська здобула для України першу золоту медаль на ЧС-2025
Комсомольская правда
2025-09-18T20:03:45Z
Молодь і спорт: чому важливо підтримувати аматорські секції та гуртки
CutInsight
2025-09-18T19:45:12Z
Огундана – про Динамо Київ: Дуже пишаюся грати за цю емблему, виступати за один із найкращих клубів Європи
Football.ua
2025-09-18T19:42:55Z
Белінська здобула золото чемпіонату світу з боротьби
ГЛАВКОМ NET
2025-09-18T19:12:08Z
Фаті відзначився голом уперше з листопада 2023 року
Football.ua
2025-09-18T19:09:53Z
Кубок України з футболу. «Нива» у Тернополі розгромила «Полтаву»
УкраинФорм
2025-09-18T18:48:22Z
Алла Белінська - чемпіонка світу зі спортивної боротьби
УкраинФорм
2025-09-18T18:42:10Z