OpenAI офіційно представила ШІ-агента Operator — інструмент автоматизації дій у браузері, який може взаємодіяти з елементами на екрані (кнопки, текстові поля тощо) майже так само, як це робила б людина.
Operator використовує нову модель штучного інтелекту під назвою Computer-Using Agent (CUA), що й забезпечує керування комп’ютером через візуальний інтерфейс (фактично тут поєднуються можливості GPT-4o із розпізнавання зображень з оновленим механізмом міркування). Дії відбуваються у кілька етапів: початково агент фіксує знімки екрана, аналізує їх і визначає, які дії має виконати — зрештою за допомогою симуляції миші та клавіатури він здійснює натискання, прокручування чи введення тексту.
Під час роботи Operator користувач бачитиме усі ці дії в мініатюрному вікні браузера.
Звісно, технологія відносна нова і далека від досконалості. Наразі агент найкраще справляється із повторюваними завданнями (такими, як створення списків покупок чи списків відтворення), але дещо «гальмує» на незнайомих інтерфейсах (таблиці чи календарі) і у редагуванні складних текстів.
A research preview of Operator, an agent that can use its own browser to perform tasks for you. pic.twitter.com/wkBBDIlVqj
— OpenAI (@OpenAI) January 23, 2025
OpenAI зазначає, що вбудувала в Operator кілька елементів керування безпекою, які вимагають підтвердження користувача перед виконанням конфіденційних дій, таких як надсилання електронних листів або здійснення покупок. Інструмент також має обмеження на те, що може переглядати — в основному це стосується сайтів для дорослих чи азартних ігор.
Відсьогодні Operator доступний в попередньому перегляді у передплаті ChatGPT Pro за $200 (лише у США), але «згодом» OpenAI додасть інструмент для власників тарифів Plus, Team і Enterprise. Також у планах — інтеграція Operator безпосередньо в ChatGPT і випуск CUA через API для розробників.
Попередній передогляд дасть змогу OpenAI зібрати відгуки про Operator і покращити систему для подальшої роботи.
OpenAI — не єдина компанія, яка просуває «агентські» системи ШІ. Торік у грудні Google анонсувала Project Mariner, який виконує автоматизовані завдання через браузер Chrome, а двома місяцями раніше подібну систему запустила Anthropic.