MY.UAНовини
Кремнієва долина робить велику ставку на «середовища» для навчання агентів зі штучним інтелектом
Кремнієва долина робить велику ставку на «середовища» для навчання агентів зі штучним інтелектом

Кремнієва долина робить велику ставку на «середовища» для навчання агентів зі штучним інтелектом

Роками генеральні директори великих технологічних компаній рекламували бачення агентів штучного інтелекту , які можуть автономно використовувати програмні додатки для виконання завдань за людей. Але спробуйте сучасних споживчих агентів штучного інтелекту, будь то ChatGPT Agent від OpenAI чи Comet від Perplexity , і ви швидко зрозумієте, наскільки обмеженою залишається ця технологія. Підвищення надійності агентів штучного інтелекту може вимагати нового набору методів, які галузь все ще досліджує.

Одним із таких методів є ретельне моделювання робочих просторів, де агентів можна навчати багатоетапним завданням, відомим як середовища навчання з підкріпленням (RL). Подібно до того, як марковані набори даних забезпечили останню хвилю штучного інтелекту, середовища RL починають виглядати критичним елементом у розробці агентів.

Дослідники, засновники та інвестори штучного інтелекту розповідають TechCrunch, що провідні лабораторії штучного інтелекту зараз вимагають більше середовищ для навчання, і немає нестачі в стартапах, які сподіваються їх забезпечити.

«Усі великі лабораторії штучного інтелекту створюють середовища RL власними силами», – сказала Дженніфер Лі, генеральний партнер Andreessen Horowitz, в інтерв’ю TechCrunch. «Але, як ви можете собі уявити, створення цих наборів даних є дуже складним, тому лабораторії штучного інтелекту також шукають сторонніх постачальників, які можуть створювати високоякісні середовища та оцінки. Усі зацікавлені в цій сфері».

Прагнення до середовищ RL породило новий клас добре фінансованих стартапів, таких як Mechanize та Prime Intellect, які прагнуть стати лідерами в цій галузі. Тим часом великі компанії з маркування даних, такі як Mercor та Surge, кажуть, що вони інвестують більше в середовища RL, щоб не відставати від переходу галузі від статичних наборів даних до інтерактивних симуляцій. Великі лабораторії також розглядають можливість значних інвестицій: за даними The Information, керівники Anthropic обговорили витрати понад 1 мільярд доларів на середовища RL протягом наступного року.

Інвестори та засновники сподіваються, що один із цих стартапів стане «Масштабованим ШІ для середовищ», маючи на увазі гіганта маркування даних вартістю 29 мільярдів доларів, який жив еру чат-ботів.

Питання полягає в тому, чи справді середовища RL розширять межі прогресу ШІ.

Що таке середовище RL?

По суті, середовища RL — це навчальні майданчики, що імітують те, що робив би агент штучного інтелекту в реальному програмному застосунку. Один із засновників у нещодавньому інтерв'ю описав їх створення як «створення дуже нудної відеогри».

Наприклад, середовище може імітувати браузер Chrome і доручити агенту штучного інтелекту купити пару шкарпеток на Amazon. Агент отримує оцінку за свою роботу та надсилає сигнал винагороди, коли він досягає успіху (у цьому випадку, купує гідну пару шкарпеток).

Хоча таке завдання здається відносно простим, існує багато місць, де агент ШІ може спіткнутися. Він може загубитися під час навігації по випадаючих меню веб-сторінки або купити забагато шкарпеток. А оскільки розробники не можуть точно передбачити, який неправильний поворот зробить агент, саме середовище має бути достатньо надійним, щоб фіксувати будь-яку неочікувану поведінку та водночас надавати корисний зворотний зв'язок. Це робить створення середовищ набагато складнішим, ніж статичний набір даних.

Деякі середовища досить складні, що дозволяє агентам ШІ використовувати інструменти, отримувати доступ до Інтернету або використовувати різні програмні додатки для виконання певного завдання. Інші ж є більш вузькими та спрямовані на те, щоб допомогти агенту вивчити конкретні завдання в корпоративних програмних додатках.

Хоча середовища RL зараз є гарячою темою в Кремнієвій долині, існує багато прецедентів використання цієї техніки. Одним з перших проектів OpenAI ще у 2016 році було створення « спортзалів RL », які були досить схожі на сучасне уявлення про середовища. Того ж року система штучного інтелекту AlphaGo від Google DeepMind перемогла чемпіона світу в настільній грі Go. Вона також використовувала методи RL у симульованому середовищі.

Унікальність сучасних середовищ полягає в тому, що дослідники намагаються створювати комп'ютерні агенти штучного інтелекту з великими моделями-трансформерами. На відміну від AlphaGo, яка була спеціалізованою системою штучного інтелекту, що працювала в закритих середовищах, сучасні агенти штучного інтелекту навчені мати більш загальні можливості. Дослідники штучного інтелекту сьогодні мають сильнішу відправну точку, але також складну мету, де може піти багато не так.

Переповнене поле

Компанії з маркування даних на основі штучного інтелекту, такі як Scale AI, Surge та Mercor, намагаються врахувати потреби та створити середовища RL. Ці компанії мають більше ресурсів, ніж багато стартапів у цій галузі, а також тісні зв'язки з лабораторіями штучного інтелекту.

Генеральний директор Surge Едвін Чен розповів TechCrunch, що нещодавно він спостерігав «значне зростання» попиту на середовища RL у лабораторіях штучного інтелекту. Surge, яка, як повідомляється, минулого року отримала 1,2 мільярда доларів доходу від співпраці з лабораторіями штучного інтелекту, такими як OpenAI, Google, Anthropic та Meta, нещодавно створила нову внутрішню організацію, спеціально призначену для створення середовищ RL, сказав він.

Відразу за Surge йде Mercor, стартап вартістю 10 мільярдів доларів, який також співпрацював з OpenAI, Meta та Anthropic. Згідно з маркетинговими матеріалами, з якими ознайомився TechCrunch, Mercor пропонує інвесторам свій бізнес зі створення середовищ RL для специфічних завдань, таких як кодування, охорона здоров'я та право.

Генеральний директор Mercor Брендан Фуді розповів TechCrunch в інтерв'ю, що «мало хто розуміє, наскільки великі можливості насправді відкриваються навколо середовищ RL».

Раніше Scale AI домінував у сфері маркування даних, але втратив позиції після того, як Meta інвестувала 14 мільярдів доларів і звільнила свого генерального директора. Відтоді Google та OpenAI відмовилися від Scale AI як постачальника даних, і стартап навіть стикається з конкуренцією за роботу з маркування даних всередині Meta . Але Scale все ж намагається відповідати вимогам моменту та створювати середовища.

«Це просто природа бізнесу [Scale AI]», — сказав Четан Рейн, керівник відділу продуктів Scale AI для агентів та середовищ RL. «Scale довів свою здатність швидко адаптуватися. Ми зробили це на початку існування автономних транспортних засобів, нашого першого бізнес-підрозділу. Коли з'явився ChatGPT, Scale AI адаптувався до цього. І тепер ми знову адаптуємося до нових передових просторів, таких як агенти та середовища».

Деякі нові гравці з самого початку зосереджуються виключно на середовищах. Серед них Mechanize, стартап, заснований приблизно шість місяців тому з амбітною метою «автоматизувати всі завдання». Однак співзасновник Метью Барнетт розповідає TechCrunch, що його фірма починає з середовищ RL для агентів кодування ШІ.

За словами Барнетта, Mechanize прагне забезпечити лабораторії штучного інтелекту невеликою кількістю надійних середовищ RL, а не великими фірмами, що займаються обробкою даних, які створюють широкий спектр простих середовищ RL. Наразі стартап пропонує розробникам програмного забезпечення зарплату в розмірі 500 000 доларів за створення середовищ RL — це набагато більше, ніж може заробляти погодинний підрядник, працюючи в Scale AI або Surge.

Mechanize вже співпрацює з Anthropic над середовищами RL, повідомили TechCrunch два джерела, знайомі з цим питанням. Mechanize та Anthropic відмовилися коментувати це партнерство.

Інші стартапи роблять ставку на те, що середовища RL матимуть вплив поза межами лабораторій штучного інтелекту. Prime Intellect — стартап, який підтримується дослідником штучного інтелекту Андрієм Карпатієм, Founders Fund та Menlo Ventures — орієнтується на менших розробників своїми середовищами RL.

Минулого місяця Prime Intellect запустила центр середовищ RL, який має на меті стати «обличчям для середовищ RL». Ідея полягає в тому, щоб надати розробникам з відкритим кодом доступ до тих самих ресурсів, що й великі лабораторії штучного інтелекту, і в процесі продати цим розробникам доступ до обчислювальних ресурсів.

За словами дослідника Prime Intellect Вілла Брауна, навчання загалом здатних агентів у середовищах RL може бути більш обчислювально витратним, ніж попередні методи навчання ШІ. Поряд зі стартапами, які створюють середовища RL, існує ще одна можливість для постачальників графічних процесорів, які можуть забезпечити цей процес.

«Середовища RL будуть занадто великими, щоб будь-яка одна компанія могла домінувати в них», – сказав Браун в інтерв'ю. «Частково ми просто намагаємося побудувати навколо них хорошу інфраструктуру з відкритим кодом. Послуга, яку ми продаємо, – це обчислення, тому це зручний початок використання графічних процесорів, але ми думаємо про це радше в довгостроковій перспективі».

Чи буде це масштабуватися?

Відкрите питання щодо середовищ RL полягає в тому, чи буде ця методика масштабуватися, як і попередні методи навчання ШІ.

Навчання з підкріпленням стало рушійною силою деяких найбільших стрибків у розвитку штучного інтелекту за останній рік, включаючи такі моделі, як o1 від OpenAI та Claude Opus 4 від Anthropic . Це особливо важливі прориви, оскільки методи, що раніше використовувалися для покращення моделей штучного інтелекту, тепер демонструють зменшення віддачі 

Середовища є частиною більшої ставки лабораторій штучного інтелекту на RL, який, на думку багатьох, продовжуватиме стимулювати прогрес, оскільки вони додадуть більше даних та обчислювальних ресурсів до процесу. Деякі дослідники OpenAI, що стоять за o1, раніше розповідали TechCrunch, що компанія спочатку інвестувала в моделі міркувань ШІ, які були створені шляхом інвестицій у RL та обчислення під час тестування, оскільки вони вважали, що вони добре масштабуватимуться .

Найкращий спосіб масштабування RL залишається незрозумілим, але середовища здаються перспективним кандидатом. Замість того, щоб просто винагороджувати чат-ботів за текстові відповіді, вони дозволяють агентам працювати в симуляціях з інструментами та комп'ютерами в їхньому розпорядженні. Це набагато ресурсоємніше, але потенційно більш корисно.

Дехто скептично ставиться до того, що всі ці середовища RL спрацюють. Росс Тейлор, колишній керівник досліджень ШІ в Meta та співзасновник General Reasoning, розповідає TechCrunch, що середовища RL схильні до винагороджувального злому. Це процес, у якому моделі ШІ шахраюють, щоб отримати винагороду, насправді не виконуючи завдання.

«Я думаю, що люди недооцінюють, наскільки складно масштабувати середовища», — сказав Тейлор. «Навіть найкращі загальнодоступні [середовища RL] зазвичай не працюють без серйозних модифікацій».

Керівник інженерного відділу API компанії OpenAI Шервін Ву нещодавно у своєму подкасті заявив , що йому «не вистачає» стартапів у середовищі RL. Ву зазначив, що це дуже конкурентний простір, але також те, що дослідження штучного інтелекту розвиваються так швидко, що важко добре обслуговувати лабораторії штучного інтелекту.

Karpathy, інвестор Prime Intellect, який назвав середовища RL потенційним проривом, також висловив застереження щодо сфери RL у ширшому сенсі. У дописі на X він висловив стурбованість тим, наскільки ще можна вичавити прогрес у сфері ШІ з RL.

«Я оптимістично налаштований щодо середовища та взаємодії агентів, але песимістично налаштований саме щодо навчання з підкріпленням», – сказав Карпаті.

Поділитися
Поділитися сюжетом
Джерело матеріала
Death Stranding 2 нельзя игнорировать: Организаторов The Game Awards призвали увеличить количество номинантов на GOTY
GameMag
2025-09-23T19:00:48Z
Официально: Экранизация Death Stranding расскажет совершенно новую историю — Хидео Кодзима назвал причину
GameMag
2025-09-23T19:00:38Z
Клоун кошмарит город: Представлен новый трейлер сериала «Оно: Добро пожаловать в Дерри» (
GameMag
2025-09-23T17:15:00Z
Елена Мозговая растрогала талантом 10-летней дочери и ее дебютом в Греции: "Люди смотрят и плачут"
TSN
2025-09-23T16:21:25Z
Тина Кароль призналась, что на самом деле скрывается за ее одиночеством: "Это НЕ о противостоянии, это выбор"
Знай
2025-09-23T15:51:30Z
Секрет бренда: в логотипе Coca-Cola заметили скрытый символ, о котором многие не знали 130 лет
Фокус
2025-09-23T15:45:55Z
Джон Бон Джові прокомментировал усыновление ребенка его сыном
Корреспондент
2025-09-23T15:42:46Z
Молдова готовится вернуться на Евровидение-2026
Корреспондент
2025-09-23T15:21:18Z
Анна Кошмал на свежем фото показала подросшую 6-месячную дочь и растрогала ее достижениями
TSN
2025-09-23T14:06:40Z
В мире увеличилось количество криптомиллиардеров
Корреспондент
2025-09-23T18:48:48Z
Украинцам с долгами назначат субсидию: в ПФУ раскрыли условия
Хвиля
2025-09-23T18:06:04Z
НБУ запустил систему мгновенных платежей: как это изменит денежные переводы в Украине
Хвиля
2025-09-23T16:51:14Z
Атаки дронов обрушили экспорт дизеля России до 5-летнего минимума - СМИ
Корреспондент
2025-09-23T16:51:03Z
Экономика и экология: бизнес и власть объединяют усилия ради "зеленых" инвестиций
Знай
2025-09-23T16:39:20Z
Курс доллара приостановил четырехдневный рост
Корреспондент
2025-09-23T16:12:27Z
Моршинская и Юнигран: бизнес критикует непрозрачность конкурсов АРМА
Корреспондент
2025-09-23T16:06:04Z
Перерасчет с подвохом: вместо повышения пенсионеры рискуют потерять часть выплаты
Знай
2025-09-23T15:36:19Z
Кабмин принял ряд решений относительно ВПЛ: на какую помощь можно рассчитывать
Знай
2025-09-23T15:06:59Z
Трамп сделал новый прогноз относительно окончания войны
Корреспондент
2025-09-23T18:51:58Z
Трамп сказал, что поговорит с Орбаном о покупке российской нефти
Европейская правда
2025-09-23T18:45:25Z
Трамп заявил, что изменения климата "не существует"
Корреспондент
2025-09-23T18:42:39Z
Трамп дал Путину месяц: что сказал президент США о диктаторе
TSN
2025-09-23T18:36:53Z
«Без России никак»: Венгрия открыто пошла против Трампа
Новости Украины
2025-09-23T18:36:24Z
Президент Словакии надеется, что его страна присоединится к "стене дронов"
Европейская правда
2025-09-23T18:18:59Z
В Путин сделали заявление о дронах в небе Дании
Comments UA
2025-09-23T18:18:47Z
Дроны над Данией: Трамп прокомментировал возможную угрозу — что он сказал
TSN
2025-09-23T18:06:17Z
Американские гарантии безопасности для Украины: что заявил Трамп
TSN
2025-09-23T18:06:13Z
Астраханский ГПЗ остановил производство топлива из-за пожара - СМИ
Корреспондент
2025-09-23T18:00:24Z
Дрон-камикадзе атаковал гостей вечеринки лидера криминальной группы "Короля Джумы", есть погибшие, среди них есть дети
TSN
2025-09-23T17:21:59Z
В Киеве умерла 24-летняя роженица, пострадавшая в результате атаки РФ
Корреспондент
2025-09-23T17:12:21Z
В Днепре 19-летняя внучка издевалась над своей бабушкой: детали инцидента
TSN
2025-09-23T17:06:50Z
«ТЦК крушили четверо, десятки — наблюдали»: новые подробности побега мобилизованных на Прикарпатье
TSN
2025-09-23T17:06:50Z
Террориста из Днепра, который закладывал бомбы в мечетях, нашли мертвым в тюрьме — что произошло
TSN
2025-09-23T17:06:16Z
На Франковщине авто въехало в стадо овец: погибло много животных
TSN
2025-09-23T16:18:43Z
Убийство кота возле "Форы" в Ирпене: какое доказательство потеряли в супермаркете
TSN
2025-09-23T15:48:30Z
Россияне нанесли пять ударов по Запорожью - есть погибшие, травмированные, горят автомобили
Комсомольская правда
2025-09-23T15:39:45Z
Отсрочка по уходу за женой с инвалидностью: как оформить и что делать, если откажут
UAToday
2025-09-23T18:45:24Z
Швеция готова сбивать российские самолеты, которые нарушат ее границы
UAToday
2025-09-23T18:45:17Z
Эстония готова разместить ядерное оружие
UAToday
2025-09-23T18:45:15Z
ЕС выделит 200 млн евро на школьное питание для украинских учеников
Европейская правда
2025-09-23T18:36:22Z
ВСУ освободили 360 км² территории - Зеленский
Корреспондент
2025-09-23T18:30:41Z
Штраф и даже конфискация: в Украине планируют усилить ответственность для водителей
GlavRed
2025-09-23T18:27:27Z
Пришли в школу и должны уметь хорошо читать: мама первоклассника пожаловалась на непродуманную программу
Знай
2025-09-23T18:21:22Z
США отправили авианосец для выполнения задач в Северном море
Корреспондент
2025-09-23T18:00:32Z
Китай впервые показал взлет истребителя J-15T с авианосца Фуцзянь
Корреспондент
2025-09-23T18:00:06Z
У людей началась зависимость от чатов с искусственным интеллектом, многие уже попали уже в "дурку"
TSN
2025-09-23T15:21:37Z
Ученые нашли в мозге систему, заживляющую тело во сне
ZN UA
2025-09-23T14:09:32Z
Главный врач страны ответил, будет ли в Украине новый карантин в 2025 году
Comments UA
2025-09-23T12:45:11Z
Назван худший вид сыра для здоровья сердца
UAToday
2025-09-23T12:03:11Z
В программу Доступные лекарства добавили 85 новых препаратов
Корреспондент
2025-09-23T11:36:46Z
Диетологи определили идеальный завтрак для борьбы с воспалением в организме: что есть утром
TSN
2025-09-23T11:15:57Z
Главный врач страны дал один важный совет украинцам
Comments UA
2025-09-23T10:51:12Z
Двое вместо одного: британские хирурги удалили у 70-летнего мужчины двойной аппендикс
TSN
2025-09-23T09:33:04Z
COVID-19, грипп и психическое здоровье: главные вызовы медицины этой осенью - Игорь Кузин
Comments UA
2025-09-23T09:15:21Z
MG показала новый пикап MGU9
Корреспондент
2025-09-23T18:24:34Z
Subaru прекращает производство Legacy после 35 лет выпуска
Корреспондент
2025-09-23T17:18:32Z
Новый Nissan Sentra 2026 стал похож на Leaf
Корреспондент
2025-09-23T17:09:33Z
Похожий на Leaf: Nissan презентовал недорогого конкурента Toyota Corolla и VW Jetta
Фокус
2025-09-23T15:51:41Z
Вам врали об электромобилях: пять популярных мифов, которые развеяли эксперты
Фокус
2025-09-23T12:36:53Z
В России рухнула продажа машины для чиновников, которую рекламировал Путин
Корреспондент
2025-09-23T11:54:03Z
Знаменитый флагман Subaru сняли с производства: известна причина
Фокус
2025-09-23T06:36:02Z
Porsche пересмотрела планы: ставка на ДВС и гибриды вместо электромобилей
Корреспондент
2025-09-22T18:24:29Z
BMW представила первый официальный взгляд на новый X5
Корреспондент
2025-09-22T16:48:26Z
Гороскоп на 24 сентября 2025 года по картам Таро для всех знаков зодиака
UAToday
2025-09-23T18:45:48Z
Заберут последних работников: чем грозит тотальная мобилизация украинским городам
Знай
2025-09-23T18:36:57Z
Гороскоп на 24 сентября: кого из знаков Зодиака подведет здоровье
Comments UA
2025-09-23T18:18:23Z
Міністр фінансів Німеччини обіцяє захистити металургію країни
AgroNews
2025-09-23T18:09:13Z
«Арктическое вторжение»: синоптик предупредил о резком похолодании и заморозках
TSN
2025-09-23T17:48:23Z
Ограничение движения в Харькове: где нельзя будет проехать длительное время, сделано предупреждение
Политека
2025-09-23T17:45:53Z
Кличко или Поворозник: депутаты горсовета требуют отставки мэра или последнего члена его команды
Comments UA
2025-09-23T16:30:11Z
Як сіяти гірчицю вручну для покращення ґрунту після збирання врожаю
AgroNews
2025-09-23T16:21:07Z
График отключения газа с 24 по 26 сентября во Львовской области: где будут действовать ограничения
Политека
2025-09-23T16:15:46Z
Сколько раз можно использовать один чайный пакетик: ответ точно вас удивит
UAToday
2025-09-23T18:45:42Z
Секреты идеального жареного риса: пошаговый рецепт для буднего вечера
Знай
2025-09-23T16:51:56Z
5 случаев, когда родителям не следует говорить "да" своим детям
Знай
2025-09-23T16:21:37Z
Как найти дешевые авиабилеты с помощью ChatGPT: пошаговая инструкция
TSN
2025-09-23T16:21:06Z
Как пожарить мойву, чтобы не было неприятного запаха: секретный трюк профессиональных поваров
TSN
2025-09-23T15:48:46Z
Рассыпчатая гречка с насыщенным вкусом: варим не "абы как", а по правилам
TSN
2025-09-23T15:21:56Z
Проверьте свою внимательность: сможете ли вы найти ошибку на картинке с бассейном за 9 секунд
TSN
2025-09-23T14:06:22Z
Пустынные улицы и мраморные дворцы: турист побывал в одном из "самых загадочных городов"
Фокус
2025-09-23T13:57:46Z
Чем подкормить грядку для озимого чеснока: что нельзя вносить, потому что головки будут мелкими
TSN
2025-09-23T13:03:24Z
Ведущий дизайнер The Elder Scrolls V: Skyrim объяснил, почему играм Bethesda можно простить обилие багов
GameMag
2025-09-23T19:00:45Z
Червоточины реальны? Астрономы считают, что поймали отголосок параллельной Вселенной
UAToday
2025-09-23T18:45:55Z
Работа приложения Резерв+ восстановлена
Корреспондент
2025-09-23T18:45:43Z
В Украине представили новую версию дрона "Лелека": в чем его преимущества
UAToday
2025-09-23T18:45:34Z
Хакеры украли персональные данные клиентов Stellantis
Корреспондент
2025-09-23T18:12:09Z
Священный союз между солнечным героем и богиней плодородия: в Испании нашли памятник иберийцев
Фокус
2025-09-23T17:57:56Z
Suzuki представила новый логотип впервые за более чем 20 лет
Корреспондент
2025-09-23T17:39:47Z
Заплатил – ухудшил положение: адвокат предостерег от ошибок со штрафами ТЦК
Знай
2025-09-23T17:21:41Z
Експорт брухту з України в серпні зріс на 22,1% р./р
AgroNews
2025-09-23T17:15:13Z
Богачук опустился в рейтинге из-за сенсационного поражения
Корреспондент
2025-09-23T18:03:01Z
Ванат в третий раз подряд оказался в стартовом составе
Корреспондент
2025-09-23T17:21:05Z
Экс-коллега предостерег Моуринью о "теплом" приеме
Корреспондент
2025-09-23T16:57:25Z
Чемпионка мира по борьбе Алла Белинская: Если нет света – тренируемся под фонариком
Комсомольская правда
2025-09-23T15:30:38Z
Свитолина объявила о досрочном завершении сезона
ZN UA
2025-09-23T14:12:12Z
Украинская федерация бокса официально стала частью World Boxing
Корреспондент
2025-09-23T13:51:41Z
Первая битва взглядов: Пол против Дэвиса
Корреспондент
2025-09-23T12:39:18Z
Стали известны подробности голосования премии "Золотой мяч-2025"
ZN UA
2025-09-23T11:57:21Z
Срна объяснил, как Шахтер адаптируется к потере ключевых игроков
Корреспондент
2025-09-23T10:30:26Z