MY.UAНовини
Інструменти штучного інтелекту не можуть впоратися з основними фінансовими завданнями - дослідження
Інструменти штучного інтелекту не можуть впоратися з основними фінансовими завданнями - дослідження

Інструменти штучного інтелекту не можуть впоратися з основними фінансовими завданнями - дослідження

Тестування 22 моделей штучного інтелекту загального призначення від OpenAI, Anthropic, x.AI, Meta, Google та інших провідних гравців у сфері штучного інтелекту показало, що всі вони отримали в середньому менше ніж 50 відсотків точності для простих завдань, необхідних фінансовим аналітикам початкового рівня.

«Рівень BS, який ми бачимо там, абсурдний», — сказав генеральний директор Раян Крішнан, виконавчий директор компанії Vals AI, яка проводила дослідження.

Попри те, що останні моделі штучного інтелекту мають високі оцінки в загальнодоступних тестах вимірювання навичок математики чи програмування, питання для цих тестів широко розповсюджуються в Інтернеті та, ймовірно, стали частиною даних, на яких навчаються системи ШІ, сказав Крішнан.

«Люди роблять багато сміливих заяв про штучний інтелект, але це нереально, якщо про це повідомляють самі», — додав він. «У нас немає нічого схожого на експертну перевірку або сторонніх аудиторів або будь-яке регулювання».

Щоб оцінити моделі, Vals AI розробив власний набір даних із понад 500 запитань, написаних у співпраці з провідним банком, щоб оцінити такі навички, як дослідження ринку та прогнози.

Більшість моделей штучного інтелекту не справлялися зі звичайними завданнями, такими як пошук інформації в EDGAR, загальнодоступній базі даних Комісії з цінних паперів і бірж компаній — базовому ресурсі фінансових даних, який використовують аналітики, акціонери, журналісти та біржовики.

Останній випуск OpenAI, o3, модель «обґрунтування», призначена для спілкування сама з собою як спосіб генерації більш точних відповідей на складні запити, набрала в середньому 48,3 відсотка точності, але ціною в середньому 3,69 доларів США за запитання. Модель міркування Anthropic під назвою Claude 3.7 Sonnet (Thinking) отримала точність 44,1% за набагато нижчої ціни в 1,05 долара за запитання. Порівняно більш відкрита модель штучного інтелекту Meta, Llama, показала особливо погані результати: три версії показали в середньому менш як 10 відсотків точності.

Vals AI, стартап із Сан-Франциско, який стоїть за дослідженням, є частиною зростаючої ніші сторонніх фірм, які обіцяють тестувати, ранжувати або перевіряти моделі штучного інтелекту, оскільки промисловий ажіотаж стає дедалі складнішим для аналізу. Інші нові учасники цієї галузі включають Artificial Analysis і Chatbot Arena, популярний академічний дослідницький проект , який нещодавно став компанією, яка тепер називається LMArena.

Крішнан каже, що ретельне незалежне тестування того, як агенти штучного інтелекту виконують певні завдання, є життєво важливим для оцінки їх ефекту.

«Було таке бачення, що генеративний ШІ, ймовірно, матиме величезний вплив на економіку», — сказав він. «І все ж ми навіть не знаємо, в яких секторах економіки моделі можуть працювати добре і як насправді виглядатиме цей зрив».

За словами Крішнана, галузь надто довго покладалася на «оцінку за настроями» — окрему гру з моделлю та публікацію точкових прикладів на X. Підприємствам, які розглядають можливість придбання цих інструментів для збільшення або заміни працівників, потрібен більш суворий підхід.

Фірма нещодавно опублікувала серію подібних досліджень, в яких оцінювалися інструменти штучного інтелекту для юридичних завдань, розглядалися моделі штучного інтелекту загального призначення та агенти штучного інтелекту, створені для юристів, тестувались на запитах реального світу, розроблених спільно з юридичними фірмами. Оцінки були вищими для юриспруденції, ніж для фінансів, із середніми показниками точності в 70-му та 80-му процентилях для деяких із тих самих моделей.

Краща продуктивність, ймовірно, була тому, що Vals AI надав необхідні документи для більшості юридичних завдань, тоді як фінансове дослідження попросило моделей «провести власні дослідження у відкритому Інтернеті, щоб зробити контекст відповідним», — сказав Крішнан.

Meta відмовився коментувати звіт Vals AI. OpenAI та Anthropic не відповіли на запити про коментарі.

У своїй фінансовій оцінці Vals AI виявив, що моделі працювали набагато гірше, оскільки завдання ставали складнішими. Десять моделей отримали нуль балів за запитання, які просили модель визначити шаблон для однієї компанії в неодноразових деклараціях про цінні папери, як-от надання рекламного доходу YouTube у відсотках від доходу його материнської компанії Alphabet з 2021 по 2024 рік.

Згідно з аналізом Vals AI підрядників, яких попросили виконати ті самі завдання, моделі показали найкращі результати в простих завданнях пошуку кількісної та якісної інформації, які є легкими, але можуть потребувати багато часу для людей.

Зусилля стартапу порівняти ефективність виконання завдань, пов’язаних з фінансами, викликані зростаючим скептицизмом щодо претензій компанії, які часто руйнуються при найближчому розгляді.

В іншому випадку OpenAI повідомила про інші результати для своєї моделі o3 щодо математичних проблем, ніж сторонній аудитор. А під час оцінювання на Chatbot Arena, де користувачі голосують за свій вибір ШІ, Meta, як повідомляється, підіграла рейтингу своєї найновішої моделі Llama 4, опублікувавши версію, яка була «оптимізована для спілкування». Коментуючи це, представник Meta сказав: «Ми експериментуємо з усіма типами спеціальних варіантів».

Дослідження фінансового сектору, проведене Vals AI, по-іншому погляне на нещодавні заяви про те, що штучний інтелект знищує категорії робочих місць.

У лютому співзасновник Microsoft Білл Гейтс заявив, що ШІ замінить лікарів і вчителів протягом наступних 10 років. У нещодавньому інтерв’ю в подкасті Віктор Лазарте, генеральний партнер Benchmark, який підтримував Uber і WeWork, сказав, що розмови технологічних компаній про те, що штучний інтелект просто «доповнює» людей, вводять в оману, і що юристи та рекрутери повинні бути особливо стривожені.

Повідомлення від команди Vals AI передбачає більш скромну оцінку впливу штучного інтелекту на роботу багатьох білих комірців. Хоча системи постійно вдосконалюються, сказав Крішнан, ідея про те, що інструмент штучного інтелекту може виконувати чиюсь роботу наскрізно, все ще «досить химерна».

Поділитися
Поділитися сюжетом
Джерело матеріала
Згадувані персони
В Естонії через збій в IT-системах МВС було паралізовано прикордонний контроль
Европейская правда
2025-06-10T10:43:07Z
СБУ затримала агентку фсб, яка закликала до створення «буферних зон» в Україні та наводила російські удари на Харків
Мій Харків
2025-06-10T10:42:15Z
Партнери відмовляються посилити санкції через відсутність мобілізації з 18 років — Зеленський
ZN UA
2025-06-10T10:42:12Z
Сибіга візьме участь у зустрічі у форматі «Веймар плюс» та форумі Globsec
УкраинФорм
2025-06-10T10:40:31Z
Нові санкції проти РФ: Зеленський розкрив умову Заходу щодо мобілізації
GlavRed
2025-06-10T10:39:59Z
Україна веде активний діалог із США щодо закупівлі зброї - речник МЗС
УкраинФорм
2025-06-10T10:36:37Z
ABC News відсторонила журналіста, який назвав Трампа та його радника «ненависниками світового рівня»
InternetUA
2025-06-10T10:31:31Z
Дрони і ракети проти цивільної інфраструктури Києва й Одеси: наслідки нічної атаки РФ
УкраинФорм
2025-06-10T10:30:24Z
Київ розраховує, що політика Варшави щодо безпеки України залишиться незмінною
УкраинФорм
2025-06-10T10:30:21Z
ЗСУ збили новий російський дрон із V2U, оснащений ШІ: чим він небезпечний
Фокус
2025-06-10T10:42:55Z
Чому народжуваність у світі падає? ООН назвала основні причини
ГЛАВКОМ NET
2025-06-10T10:42:04Z
Україна та Чехія розширять виробництво гвинтівок Bren 2 Sich
УкраинФорм
2025-06-10T10:39:33Z
Викрито переплату майже ₴10 млн під час закупівлі ліжок для військових частин на Дніпропетровщині
Украина Криминальная
2025-06-10T10:36:59Z
Множинне громадянство. У Мін'єдності розповіли про "плюси" законопроєкту для українців
Лига
2025-06-10T10:36:54Z
Безкоштовні продукти для ВПО та пенсіонерів у Сумській області: перелік важливих адрес, де надають допомогу
Политека
2025-06-10T10:30:28Z
Мати впізнала сина на відео у полоні: 22-річний військовий з Калуша повернувся додому
24tv
2025-06-10T10:27:41Z
ЗСУ відмовляються приймати на роботу капеланів, що є священниками УПЦ МП
ГЛАВКОМ NET
2025-06-10T10:15:45Z
Індекс медіаграмотності працівників медіасектору
Детектор М
2025-06-10T10:09:14Z
У родині вагітної Ріанни сталося горе
TSN
2025-06-01T16:21:48Z
«Невимовна магія»: рімейк «Як приборкати дракона» отримав 83% на Rotten Tomatoes
ITC
2025-06-10T10:40:25Z
Максим Неліпа пішов зі сцени через вигорання
360ua.news
2025-06-10T10:33:40Z
"Потроху віддаляється": Шоптенко вийшла на зв'язок і з сумом звернулася до сина
GlavRed
2025-06-10T10:27:27Z
Міша Романова розповіла про причини розлучення з Роднянським-молодшим
Комсомольская правда
2025-06-10T10:21:14Z
55-річна Дженніфер Лопес виступила в боді з небезпечно високим вирізом
Фокус
2025-06-10T10:15:37Z
Головна музична подія літа повертається: що відомо про Atlas Festival 2025
24tv
2025-06-10T10:00:50Z
Гаррі Поттер від HBO — знайомтеся з Дурслями та Малфоями
ITC
2025-06-10T09:48:31Z
Суд відхилив позов Джастіна Бальдоні проти Блейк Лайвлі на суму 400 мільйонів доларів
Комсомольская правда
2025-06-10T09:40:48Z
Які овочі можна посіяти в червні після холодного і дощового травня
Gazeta UA
2025-06-10T10:30:14Z
5 помилок, через які ваші цинії гинуть: не знають навіть досвідчені садівники
24tv
2025-06-10T10:27:57Z
Гороскоп Таро на повню 11 червня: Тельцям - зцілення, Ракам - зміни, Терезам - баланс
GlavRed
2025-06-10T10:27:42Z
Забудьте про Ніагару: де заховався найкрасивіший водоспад України
Telegraf
2025-06-10T10:06:36Z
Китайський гороскоп на завтра 11 червня: Бикам - образа, Коням - занепокоєння
GlavRed
2025-06-10T09:27:34Z
Ще встигаєте додати барв у саду: топ-5 квітів, які можна посадити у червні
24tv
2025-06-10T09:27:16Z
Вісім причин, чому одяг краще сушити на мотузці
Gazeta UA
2025-06-10T09:03:18Z
Штрафи на сотні євро: що заборонено робити туристам в Іспанії
24tv
2025-06-10T07:57:58Z
Він замінить улюблені страви та ніколи не набридає: салат, який "тримає планку" вже роками
24tv
2025-06-10T07:51:56Z
Повітряні сили показали, як цієї ночі збивали «шахеди» над Одесою
ГЛАВКОМ NET
2025-06-10T10:42:55Z
«Не обслуговуються роками». В одному з районів Києва вирішено упорядкувати міжквартальні дороги
ГЛАВКОМ NET
2025-06-10T10:39:19Z
Терехов бідує чи жирує? Що приховують підлеглі мера Харкова
Telegraf
2025-06-10T10:33:51Z
У незаконному збагаченні на ₴33 млн викрито експравоохоронця
Украина Криминальная
2025-06-10T10:33:10Z
Росіяни просунулися у двох областях України: у DeepState назвали напрямки
GlavRed
2025-06-10T10:27:39Z
Чи будуть окупанти штурмувати Суми: експерт назвав головну мету армії РФ
GlavRed
2025-06-10T10:27:30Z
У Києві внаслідок російської атаки пошкоджений Софійський собор
УкраинФорм
2025-06-10T10:27:00Z
Майже два кілометри браконьєрських сіток: у Сулінському заказнику вилучили пастку для риби
Политека
2025-06-10T10:21:51Z
У Португалії після звернення діаспори інспекція перевірить підручник з «російським» Кримом
УкраинФорм
2025-06-10T10:18:54Z
Skoda показала Enyaq RS, орієнтований на трек
AutoCentre
2025-06-10T10:04:33Z
Електромобілі та гібриди: визначено найнадійніші китайські авто в 2025 році
Фокус
2025-06-10T09:57:15Z
Ягуар припинить виробництво авто з ДВЗ, але спочатку випустить для Австралії потужний F-Pace з двигуном V8
Топ Жир
2025-06-10T09:45:13Z
Ютубер встановив нову батарею в Nissan Leaf та подвоїв запас ходу
ITC
2025-06-10T09:37:41Z
Volkswagen вигадав як здешевити свої електромобілі
ЗаРулем
2025-06-10T09:24:51Z
Майбутні електромобілі Volkswagen збудують на базі Rivian
AutoCentre
2025-06-10T09:12:38Z
У США створили шикарного 800-сильного суперника Cadillac і Rolls-Royce в ретростилі
Фокус
2025-06-10T08:57:08Z
В Україні різко виріс попит на електромобілі з пробігом: популярні моделі
Фокус
2025-06-10T08:54:02Z
Іржавий раритетний Chevrolet C20 приховує щось особливе під капотом
AutoCentre
2025-06-10T08:03:39Z
У Києві є загибла внаслідок російського удару
Комсомольская правда
2025-06-10T10:43:48Z
У США внаслідок падіння літака в океан загинули всі шестеро людей на борту
УкраинФорм
2025-06-10T10:42:22Z
Стрілянина у школі в Австрії: влада підтвердила загибель дев'яти осіб
Европейская правда
2025-06-10T10:40:29Z
Масована атака по Києву: стало відомо про першу жертву, є постраждалі
24tv
2025-06-10T10:36:36Z
На Харківщині подружжя напало на військового ТЦК і поліцейського
Мій Харків
2025-06-10T10:36:25Z
Готував теракт біля ТЦК у Миколаєві: суд відправив до СІЗО 18-річного хлопця
УкраинФорм
2025-06-10T10:30:58Z
Масштабна пожежа у центрі Одеси: рятувальники намагаються перешкодити поширенню вогню
24tv
2025-06-10T10:30:07Z
В Одеському зоопарку через російську атаку загинув баран
Комсомольская правда
2025-06-10T10:27:38Z
У Калуші мати вбила свою малолітню доньку
Украина Криминальная
2025-06-10T10:24:50Z
Спалах гепатиту А у Києві: зафіксоване значне зниження активності захворювання
Известия Киев
2025-06-10T10:36:07Z
Науковці пояснили, чи корисно займатися спортом щодня, а чи на шкоду
24tv
2025-06-10T10:33:01Z
Чому огірки пусті всередині: добриво, яке може врятувати увесь урожай
24tv
2025-06-10T10:12:41Z
Може спричинити нову пандемію: у Китаї виявили ще один небезпечний коронавірус
24tv
2025-06-10T08:30:35Z
Європейський регулятор підтвердив новий небезпечний побічний ефект Оземпіку та інших аналогів
24tv
2025-06-10T07:42:01Z
Вчені попереджають: тривалий робочий день може фізично змінити ваш мозок
Portaltele
2025-06-10T07:37:14Z
Це шкідливо, але ви продовжуєте робити це щоранку: вчені назвали найшкідливішу ранкову звичку
Знай
2025-06-10T05:51:48Z
Вперше за тридцять років: відкрили новий клас антибіотиків проти супербактерій
24tv
2025-06-10T05:36:43Z
Вчені навчили нейромережу розпізнавати майже 200 видів раку
ГЛАВКОМ NET
2025-06-10T04:54:00Z
ЄС встановлює нові правила ручної поклажі: за дещо доведеться заплатити, а інше – безплатно
24tv
2025-06-10T10:42:22Z
У РФ обвалилося виробництво базових продуктів
Gazeta UA
2025-06-10T10:36:17Z
Що не так з системою горизонтального вирівнювання бюджетів та як це змінити?
ГЛАВКОМ NET
2025-06-10T10:33:35Z
Резервний фонд Путіна може повністю вичерпатися у 2026 році
УкраинФорм
2025-06-10T10:30:06Z
Чи подорожчають комунальні послуги до кінця року: експерт чітко відповів
GlavRed
2025-06-10T10:27:09Z
Видавець українського Forbes Артур Ґранц розповів про свій бізнес Duty Free та внесок у розвиток аеропортів
Фокус
2025-06-10T10:24:45Z
Літні майданчики приносять закладам до 30% від місячного виторгу — дослідження
AIN
2025-06-10T10:13:33Z
На валютному ринку України зафіксували зниження попиту на долар
Хвиля
2025-06-10T10:00:39Z
Добрива у Польщі дешевші, ніж в Україні
AgroPortal
2025-06-10T10:00:17Z
Зарядка для телефону підійде і для ноутбука, але є важливий нюанс: що потрібно перевірити
Фокус
2025-06-10T10:42:39Z
ChatGPT прокоментував свій збій. У роботі штучного інтелекту фіксують значні проблеми
Telegraf
2025-06-10T10:42:00Z
ChatGPT не працює в усьому світі
Украина Криминальная
2025-06-10T10:39:41Z
Підтверджено, що люди схильні бути схожими на своїх собак
Portaltele
2025-06-10T10:36:37Z
Mozilla закриває ще більше сервісів Firefox
Portaltele
2025-06-10T10:36:23Z
Новинки Apple на 2025 рік: що презентувала компанія на конференції WWDC
ZN UA
2025-06-10T10:34:13Z
Що робити, якщо не вмикається телефон
InternetUA
2025-06-10T10:31:37Z
Як використовувати Signal по максимуму: поради для приватних і безпечних чатів
InternetUA
2025-06-10T10:16:37Z
Небінарні з Китаю: новий тип процесорів ШІ вперше в світі йде у виробництво
ITC
2025-06-10T10:16:06Z
Тудор залишається головним тренером Ювентуса
Football.ua
2025-06-10T10:39:53Z
Футбольна збірна Нової Зеландії - команда на прізвисько «Усі в білому»
УкраинФорм
2025-06-10T10:30:32Z
Форвард ЛНЗ Бессала приєднався до Шерифа на правах оренди
Football.ua
2025-06-10T10:16:52Z
Стали відомі нові деталі можливого переходу футболіста збірної України в ПСЖ
ZN UA
2025-06-10T10:13:01Z
Усик "отримав ліхтарик" під оком перед реваншем проти Дюбуа
24tv
2025-06-10T10:12:34Z
Ракетку Надаля було продано за рекордну суму
ГЛАВКОМ NET
2025-06-10T10:06:52Z
Челсі та Арсенал у боротьбі за зірку МЮ
360ua.news
2025-06-10T10:00:52Z
Голкіпер Челсі Беттінеллі готується до переїзду в Манчестер Сіті
Football.ua
2025-06-10T09:57:59Z
Ексдружина скандального форварда розвіяла домисли про роман з одноклубником Довбика
24tv
2025-06-10T09:54:35Z