MY.UAНовини
Інструменти штучного інтелекту не можуть впоратися з основними фінансовими завданнями - дослідження
Інструменти штучного інтелекту не можуть впоратися з основними фінансовими завданнями - дослідження

Інструменти штучного інтелекту не можуть впоратися з основними фінансовими завданнями - дослідження

Тестування 22 моделей штучного інтелекту загального призначення від OpenAI, Anthropic, x.AI, Meta, Google та інших провідних гравців у сфері штучного інтелекту показало, що всі вони отримали в середньому менше ніж 50 відсотків точності для простих завдань, необхідних фінансовим аналітикам початкового рівня.

«Рівень BS, який ми бачимо там, абсурдний», — сказав генеральний директор Раян Крішнан, виконавчий директор компанії Vals AI, яка проводила дослідження.

Попри те, що останні моделі штучного інтелекту мають високі оцінки в загальнодоступних тестах вимірювання навичок математики чи програмування, питання для цих тестів широко розповсюджуються в Інтернеті та, ймовірно, стали частиною даних, на яких навчаються системи ШІ, сказав Крішнан.

«Люди роблять багато сміливих заяв про штучний інтелект, але це нереально, якщо про це повідомляють самі», — додав він. «У нас немає нічого схожого на експертну перевірку або сторонніх аудиторів або будь-яке регулювання».

Щоб оцінити моделі, Vals AI розробив власний набір даних із понад 500 запитань, написаних у співпраці з провідним банком, щоб оцінити такі навички, як дослідження ринку та прогнози.

Більшість моделей штучного інтелекту не справлялися зі звичайними завданнями, такими як пошук інформації в EDGAR, загальнодоступній базі даних Комісії з цінних паперів і бірж компаній — базовому ресурсі фінансових даних, який використовують аналітики, акціонери, журналісти та біржовики.

Останній випуск OpenAI, o3, модель «обґрунтування», призначена для спілкування сама з собою як спосіб генерації більш точних відповідей на складні запити, набрала в середньому 48,3 відсотка точності, але ціною в середньому 3,69 доларів США за запитання. Модель міркування Anthropic під назвою Claude 3.7 Sonnet (Thinking) отримала точність 44,1% за набагато нижчої ціни в 1,05 долара за запитання. Порівняно більш відкрита модель штучного інтелекту Meta, Llama, показала особливо погані результати: три версії показали в середньому менш як 10 відсотків точності.

Vals AI, стартап із Сан-Франциско, який стоїть за дослідженням, є частиною зростаючої ніші сторонніх фірм, які обіцяють тестувати, ранжувати або перевіряти моделі штучного інтелекту, оскільки промисловий ажіотаж стає дедалі складнішим для аналізу. Інші нові учасники цієї галузі включають Artificial Analysis і Chatbot Arena, популярний академічний дослідницький проект , який нещодавно став компанією, яка тепер називається LMArena.

Крішнан каже, що ретельне незалежне тестування того, як агенти штучного інтелекту виконують певні завдання, є життєво важливим для оцінки їх ефекту.

«Було таке бачення, що генеративний ШІ, ймовірно, матиме величезний вплив на економіку», — сказав він. «І все ж ми навіть не знаємо, в яких секторах економіки моделі можуть працювати добре і як насправді виглядатиме цей зрив».

За словами Крішнана, галузь надто довго покладалася на «оцінку за настроями» — окрему гру з моделлю та публікацію точкових прикладів на X. Підприємствам, які розглядають можливість придбання цих інструментів для збільшення або заміни працівників, потрібен більш суворий підхід.

Фірма нещодавно опублікувала серію подібних досліджень, в яких оцінювалися інструменти штучного інтелекту для юридичних завдань, розглядалися моделі штучного інтелекту загального призначення та агенти штучного інтелекту, створені для юристів, тестувались на запитах реального світу, розроблених спільно з юридичними фірмами. Оцінки були вищими для юриспруденції, ніж для фінансів, із середніми показниками точності в 70-му та 80-му процентилях для деяких із тих самих моделей.

Краща продуктивність, ймовірно, була тому, що Vals AI надав необхідні документи для більшості юридичних завдань, тоді як фінансове дослідження попросило моделей «провести власні дослідження у відкритому Інтернеті, щоб зробити контекст відповідним», — сказав Крішнан.

Meta відмовився коментувати звіт Vals AI. OpenAI та Anthropic не відповіли на запити про коментарі.

У своїй фінансовій оцінці Vals AI виявив, що моделі працювали набагато гірше, оскільки завдання ставали складнішими. Десять моделей отримали нуль балів за запитання, які просили модель визначити шаблон для однієї компанії в неодноразових деклараціях про цінні папери, як-от надання рекламного доходу YouTube у відсотках від доходу його материнської компанії Alphabet з 2021 по 2024 рік.

Згідно з аналізом Vals AI підрядників, яких попросили виконати ті самі завдання, моделі показали найкращі результати в простих завданнях пошуку кількісної та якісної інформації, які є легкими, але можуть потребувати багато часу для людей.

Зусилля стартапу порівняти ефективність виконання завдань, пов’язаних з фінансами, викликані зростаючим скептицизмом щодо претензій компанії, які часто руйнуються при найближчому розгляді.

В іншому випадку OpenAI повідомила про інші результати для своєї моделі o3 щодо математичних проблем, ніж сторонній аудитор. А під час оцінювання на Chatbot Arena, де користувачі голосують за свій вибір ШІ, Meta, як повідомляється, підіграла рейтингу своєї найновішої моделі Llama 4, опублікувавши версію, яка була «оптимізована для спілкування». Коментуючи це, представник Meta сказав: «Ми експериментуємо з усіма типами спеціальних варіантів».

Дослідження фінансового сектору, проведене Vals AI, по-іншому погляне на нещодавні заяви про те, що штучний інтелект знищує категорії робочих місць.

У лютому співзасновник Microsoft Білл Гейтс заявив, що ШІ замінить лікарів і вчителів протягом наступних 10 років. У нещодавньому інтерв’ю в подкасті Віктор Лазарте, генеральний партнер Benchmark, який підтримував Uber і WeWork, сказав, що розмови технологічних компаній про те, що штучний інтелект просто «доповнює» людей, вводять в оману, і що юристи та рекрутери повинні бути особливо стривожені.

Повідомлення від команди Vals AI передбачає більш скромну оцінку впливу штучного інтелекту на роботу багатьох білих комірців. Хоча системи постійно вдосконалюються, сказав Крішнан, ідея про те, що інструмент штучного інтелекту може виконувати чиюсь роботу наскрізно, все ще «досить химерна».

Поділитися
Поділитися сюжетом
Джерело матеріала
Згадувані персони
Отец Илона Маска приехал в Москву и сделал заявление о Путине
Comments UA
2025-06-09T13:12:21Z
«Срочно покидать города»: что известно о предполагаемой мести России за «Паутину»
Comments UA
2025-06-04T12:09:24Z
Часики тикают: почему у Украины осталось времени всего до конца июня
Comments UA
2025-06-04T12:42:14Z
Илон Маск отреагировал на удары по аэродромам в РФ
Корреспондент
2025-06-01T20:27:08Z
Искусственный интеллект будет влиять на карьерный рост дипломатов из Госдепа США
ZN UA
2025-06-10T14:04:35Z
Антимиграционные протесты: акции против политики Трампа вспыхнули в других городах США
Апостроф
2025-06-10T14:03:59Z
Полный разворот от Украины, какое решение приняли у Трампа, помимо пропуска Рамштайна
Comments UA
2025-06-04T12:30:15Z
Появилась реакция НАТО на удары Украины по аэродромам РФ и Крымскому мосту
Comments UA
2025-06-04T12:33:35Z
Кремль впервые отреагировал на операцию Паутина
Корреспондент
2025-06-03T11:18:55Z
Теперь не до шуток: Буданов рассказал, почему угроза от ракет KN-23 выросла в разы
Comments UA
2025-06-10T12:04:13Z
Что нельзя делать на Троицу 2025: полный список запретов
Факти ICTV
2025-06-08T04:42:04Z
4 категории мужчин исключат из воинского учета: их не мобилизуют
UAToday
2025-06-04T13:03:41Z
RMF 24: в Польше на границе с Украиной нашли брошенные системы ЗРК, предназначенные Киеву
Лига
2025-06-04T12:21:34Z
Двое солистов BTS завершили военную службу и встретились с фанатами в Южной Корее
Комсомольская правда
2025-06-10T14:01:18Z
Оба очень похожи на отца: что известно о сыновьях Роберта "Мадяра" Бровди
Telegraf
2025-06-10T13:48:15Z
8 июня - сегодня День святой Троицы, что нельзя делать, все об этом дне
Комсомольская правда
2025-06-08T02:34:32Z
Бесплатные продукты для ВПЛ: украинцам раздают пищу, что важно знать о такой помощи
Политека
2025-06-05T13:31:59Z
Владельцы земельных участков хватаются за голову: придется выложить до 30 тысяч
Знай
2025-06-04T12:30:36Z
Как прогнать всех насекомых из дома без "химии": один запах заставит их сбежать навсегда
UAToday
2025-06-03T14:15:46Z
Салат "Летний Оливье": хрустящий, свежий и очень вкусный
TSN
2025-06-04T12:36:31Z
Россия уничтожает уникальное "розовое" озеро в Украине: его называют аналогом Мертвого моря
Telegraf
2025-06-07T15:33:19Z
Оккупанты превратили его в грязную лужу: в Украине исчезает уникальное Чистое озеро
Telegraf
2025-06-04T13:03:16Z
Гороскоп на 11 июня: не воспринимайте события слишком серьёзно
Новости Украины
2025-06-10T13:57:19Z
Головоломка для самых внимательных: что скрыто среди цветов
Gazeta UA
2025-06-10T13:42:35Z
"Клубніка, суниця чи полуниця": как правильно называть первую ягоду летнего сезона
Gazeta UA
2025-06-08T12:24:34Z
Пять самых грязных вещей в спальне
Gazeta UA
2025-06-08T17:54:02Z
Пять фруктов, которые созревают после того, как их сорвали
Gazeta UA
2025-06-08T13:36:56Z
54-летняя Наоми Кэмпбелл снялась для глянца в откровенных образах
Gazeta UA
2025-06-04T12:03:15Z
Лилия Ребрик восхитила романтикой с мужем на вокзале и показалась сразу с тремя дочерьми
TSN
2025-06-04T12:36:19Z
Рада стать бабушкой: Волочкова заговорила о пополнении
GlavRed
2025-06-04T11:51:55Z
Киркоров вызверился на Малахова и оскорбил его
GlavRed
2025-06-04T19:42:05Z
Balenciaga представила юбку в виде разодранных мужских трусов: сколько стоит
Comments UA
2025-06-10T13:57:22Z
Одесская киностудия пострадала от атаки шахедов
Новости Украины
2025-06-10T13:03:19Z
Олена Тополя рассказала о пластической операции
Корреспондент
2025-06-03T08:57:59Z
Победительницей конкурса Мисс Мира стала 21-летняя представительница Таилан
Корреспондент
2025-06-02T09:18:21Z
Утреннее шоу возвращается: Apple TV объявил дату премьеры четвертого сезона
Корреспондент
2025-05-29T14:48:15Z
Российский военный расстрелял жилой дом из гранатомета в Курской области
Comments UA
2025-06-10T07:51:59Z
Эвакуация из города Сумы: что известно
Comments UA
2025-06-08T20:39:14Z
Срыв обмена пленными и телами погибших: что заявили в РФ
Comments UA
2025-06-07T18:15:21Z
Синоптики обновили прогноз на понедельник
Gazeta UA
2025-06-09T03:18:57Z
Возвращение из плена: что ожидает защитников после обмена?
ZN UA
2025-06-10T14:04:48Z
Гороскоп на 11 июня: страстные чувства у Тельцов, удача в жизни у Козерогов
Telegraf
2025-06-10T14:03:33Z
Буданов: Обмен телами погибших запланирован на следующую неделю
Лига
2025-06-08T12:30:52Z
С продвижением россиян появилась новая опасность для Сум
Telegraf
2025-06-07T11:15:23Z
В Украине станет прохладнее: синоптик порадовала прогнозом на понедельник
Gazeta UA
2025-06-08T13:21:49Z
Škoda Favorit 1987 года переосмыслили как электрокар для нового поколения
Корреспондент
2025-05-29T18:15:23Z
Автомобиль постоянно "жрет" горючее: автомеханики назвали причину перерасходов
Comments UA
2025-06-10T13:42:32Z
Путь в Формулу-1: суперлицензию досрочно получил юниор Ред Булл
Корреспондент
2025-06-10T13:33:04Z
Премиального собрата VW Tiguan от Audi показали до презентации
Фокус
2025-06-10T12:57:58Z
Старый 65-летний FIAT без окон и дверей продают по цене нового Porsche Cayenne
Фокус
2025-06-10T10:45:43Z
Полной компенсации не ждите. Можно ли возместить стоимость авто, пострадавшего в результате войны
Telegraf
2025-06-10T08:48:34Z
Автопроизводители в панике из-за дефицита редкоземельных магнитов
Корреспондент
2025-06-09T18:30:54Z
Стремительный дизайн и больше мощности: появились подробности кроссовера Nissan Leaf
Фокус
2025-06-09T18:12:08Z
Aston Martin ограниченно будет продавать трековый гиперкар с Ле-Мана
Корреспондент
2025-06-09T15:54:52Z
Шесть продуктов, которые уберегут от обезвоживания летом
Gazeta UA
2025-06-08T16:00:43Z
Делает пищу смертельно опасной: врачи назвали частую ошибку при употреблении популярного продукта
Знай
2025-06-07T10:51:21Z
Что происходит с давлением, когда вы пьете чай с шоколадом
UAToday
2025-06-07T09:03:19Z
Влияет на щитовидку и вызывает аллергию: врачи назвали самый вредный для здоровья чай
Знай
2025-06-07T16:51:36Z
Можно ли есть арбуз с косточками? Мифы, правда и научный взгляд
Знай
2025-06-10T13:51:10Z
Ученые выяснили, какой тип мужского телосложения считается наиболее привлекательным для женщин
Comments UA
2025-06-10T12:21:34Z
То, что ты ешь, может сделать тебя несчастным: учёные бьют тревогу
Знай
2025-06-04T12:51:48Z
Медицинские справки для водителей станут цифровыми: что изменится
Хвиля
2025-06-10T11:51:13Z
Что произойдет с организмом, если есть черешни каждый день
Comments UA
2025-06-10T09:21:25Z
Последствия сильных взрывов в Киеве: куда попали россияне
Comments UA
2025-06-06T03:45:35Z
В Польше голый украинец бегал по улице и прыгал на авто
TSN
2025-05-28T15:21:21Z
В Киеве 14-летний мальчик упал с канатного аттракциона, его госпитализировали
Комсомольская правда
2025-06-08T14:24:19Z
Трагический инцидент на отдыхе: девушка погибла во время полета на парасейлинге
Comments UA
2025-06-04T12:27:23Z
В австрийском Граце произошла стрельба в школе, по меньшей мере один погибший
Европейская правда
2025-06-10T13:33:14Z
В Греции медведь столкнул туриста в 800-метровое ущелье
Comments UA
2025-06-10T13:27:39Z
В России группа врачей продавала детей за границу
Корреспондент
2025-05-31T18:33:20Z
В российской Казани вспыхнул сильный пожар
Корреспондент
2025-06-09T09:03:06Z
В Киеве на американца упал балкон у подъезда многоэтажки
VGorode
2025-05-29T12:57:14Z
Российские акции обвалились после ударов СБУ по аэродромам
Корреспондент
2025-06-01T17:42:33Z
Тарифы выросли на 50% за выходные: Попенко объяснил, кто завышает цены на свет для украинцев
Хвиля
2025-06-08T12:15:11Z
Из-за 10-секундного опоздания самолет не пустили на посадку в Мюнхене - пассажиры провели в пути еще 12 часов
Апостроф
2025-06-04T11:57:13Z
Курс валют на выходные, 31 мая и 1 июня: сколько стоят доллар, евро и злотый
TSN
2025-05-31T06:51:29Z
В энергетике – полный коллапс, долги парализовали систему – Кучеренко
Апостроф
2025-06-10T13:54:11Z
В России дефицит госбюджета вырос четвертый месяц подряд
Корреспондент
2025-06-10T13:51:55Z
В Украине появится линия по выпуску 155-мм снарядов при участии чешской CSG, — Милитарный
Фокус
2025-06-04T12:36:13Z
Курс валют на 5 июня: сколько будут стоить доллар, евро и злотый
TSN
2025-06-04T12:48:57Z
Швеция ослабляет 100-летнюю жесткую монополию на продажу алкоголя
Европейская правда
2025-05-31T21:00:54Z
ГУР "выключил" сервисы российской железной дороги
Корреспондент
2025-06-08T15:36:08Z
Связь будет даже при блэкаутах: как продлить заряд батареи на смартфоне
Знай
2025-06-04T18:51:04Z
Pornhub остановил показ порно в одной из стран Европы: какая причина
Comments UA
2025-06-04T12:57:24Z
В Украине могут начаться отключение мобильной связи: причины и продолжительность
Знай
2025-06-06T04:36:53Z
Удалите со смартфона немедленно: более 20 приложений оказались вредоносными
Фокус
2025-06-10T13:33:49Z
Началось! Игра для Nintendo Switch 2 впервые возглавила британский чарт
GameMag
2025-06-10T13:30:41Z
Превращает смартфоны в кирпичи: в сети "разнесли" бета-версию популярного обновления
Фокус
2025-06-10T13:21:11Z
Україна приєднається до Міжнародного договору про генетичні ресурси рослин
AgroNews
2025-06-10T13:12:02Z
Представитель Украины в киберспорте выиграл турнир по Hearthstone
Корреспондент
2025-06-10T13:00:43Z
Впервые за 28 лет: украинка стала чемпионкой Европы по художественной гимнастике
Апостроф
2025-06-08T13:43:28Z
Главный тренер львовского Руха уходит с должности досрочно
Корреспондент
2025-06-04T14:03:40Z
Гарсия перед провальным боем травмировался: Была операция
Корреспондент
2025-05-28T21:30:01Z
Составлена символическая сборная команда Лиги чемпионов
Корреспондент
2025-06-01T17:24:06Z
Боруссия Д сообщила о приобретении Беллингема-младшего
Корреспондент
2025-06-10T13:45:44Z
Украинская легкоатлетка попала под российский обстрел в Киеве
ZN UA
2025-06-10T13:27:51Z
Известная блогерша поцелуем проводила звезду "Динамо" на Евро
Telegraf
2025-06-10T12:36:16Z
Клуб Челси решил не искать нового голкипера
Корреспондент
2025-06-10T12:18:23Z
Бывший тренер Ромы отказался возглавить сборную Италии
Корреспондент
2025-06-10T11:52:44Z