MY.UAНовини
Інструменти штучного інтелекту не можуть впоратися з основними фінансовими завданнями - дослідження
Інструменти штучного інтелекту не можуть впоратися з основними фінансовими завданнями - дослідження

Інструменти штучного інтелекту не можуть впоратися з основними фінансовими завданнями - дослідження

Тестування 22 моделей штучного інтелекту загального призначення від OpenAI, Anthropic, x.AI, Meta, Google та інших провідних гравців у сфері штучного інтелекту показало, що всі вони отримали в середньому менше ніж 50 відсотків точності для простих завдань, необхідних фінансовим аналітикам початкового рівня.

«Рівень BS, який ми бачимо там, абсурдний», — сказав генеральний директор Раян Крішнан, виконавчий директор компанії Vals AI, яка проводила дослідження.

Попри те, що останні моделі штучного інтелекту мають високі оцінки в загальнодоступних тестах вимірювання навичок математики чи програмування, питання для цих тестів широко розповсюджуються в Інтернеті та, ймовірно, стали частиною даних, на яких навчаються системи ШІ, сказав Крішнан.

«Люди роблять багато сміливих заяв про штучний інтелект, але це нереально, якщо про це повідомляють самі», — додав він. «У нас немає нічого схожого на експертну перевірку або сторонніх аудиторів або будь-яке регулювання».

Щоб оцінити моделі, Vals AI розробив власний набір даних із понад 500 запитань, написаних у співпраці з провідним банком, щоб оцінити такі навички, як дослідження ринку та прогнози.

Більшість моделей штучного інтелекту не справлялися зі звичайними завданнями, такими як пошук інформації в EDGAR, загальнодоступній базі даних Комісії з цінних паперів і бірж компаній — базовому ресурсі фінансових даних, який використовують аналітики, акціонери, журналісти та біржовики.

Останній випуск OpenAI, o3, модель «обґрунтування», призначена для спілкування сама з собою як спосіб генерації більш точних відповідей на складні запити, набрала в середньому 48,3 відсотка точності, але ціною в середньому 3,69 доларів США за запитання. Модель міркування Anthropic під назвою Claude 3.7 Sonnet (Thinking) отримала точність 44,1% за набагато нижчої ціни в 1,05 долара за запитання. Порівняно більш відкрита модель штучного інтелекту Meta, Llama, показала особливо погані результати: три версії показали в середньому менш як 10 відсотків точності.

Vals AI, стартап із Сан-Франциско, який стоїть за дослідженням, є частиною зростаючої ніші сторонніх фірм, які обіцяють тестувати, ранжувати або перевіряти моделі штучного інтелекту, оскільки промисловий ажіотаж стає дедалі складнішим для аналізу. Інші нові учасники цієї галузі включають Artificial Analysis і Chatbot Arena, популярний академічний дослідницький проект , який нещодавно став компанією, яка тепер називається LMArena.

Крішнан каже, що ретельне незалежне тестування того, як агенти штучного інтелекту виконують певні завдання, є життєво важливим для оцінки їх ефекту.

«Було таке бачення, що генеративний ШІ, ймовірно, матиме величезний вплив на економіку», — сказав він. «І все ж ми навіть не знаємо, в яких секторах економіки моделі можуть працювати добре і як насправді виглядатиме цей зрив».

За словами Крішнана, галузь надто довго покладалася на «оцінку за настроями» — окрему гру з моделлю та публікацію точкових прикладів на X. Підприємствам, які розглядають можливість придбання цих інструментів для збільшення або заміни працівників, потрібен більш суворий підхід.

Фірма нещодавно опублікувала серію подібних досліджень, в яких оцінювалися інструменти штучного інтелекту для юридичних завдань, розглядалися моделі штучного інтелекту загального призначення та агенти штучного інтелекту, створені для юристів, тестувались на запитах реального світу, розроблених спільно з юридичними фірмами. Оцінки були вищими для юриспруденції, ніж для фінансів, із середніми показниками точності в 70-му та 80-му процентилях для деяких із тих самих моделей.

Краща продуктивність, ймовірно, була тому, що Vals AI надав необхідні документи для більшості юридичних завдань, тоді як фінансове дослідження попросило моделей «провести власні дослідження у відкритому Інтернеті, щоб зробити контекст відповідним», — сказав Крішнан.

Meta відмовився коментувати звіт Vals AI. OpenAI та Anthropic не відповіли на запити про коментарі.

У своїй фінансовій оцінці Vals AI виявив, що моделі працювали набагато гірше, оскільки завдання ставали складнішими. Десять моделей отримали нуль балів за запитання, які просили модель визначити шаблон для однієї компанії в неодноразових деклараціях про цінні папери, як-от надання рекламного доходу YouTube у відсотках від доходу його материнської компанії Alphabet з 2021 по 2024 рік.

Згідно з аналізом Vals AI підрядників, яких попросили виконати ті самі завдання, моделі показали найкращі результати в простих завданнях пошуку кількісної та якісної інформації, які є легкими, але можуть потребувати багато часу для людей.

Зусилля стартапу порівняти ефективність виконання завдань, пов’язаних з фінансами, викликані зростаючим скептицизмом щодо претензій компанії, які часто руйнуються при найближчому розгляді.

В іншому випадку OpenAI повідомила про інші результати для своєї моделі o3 щодо математичних проблем, ніж сторонній аудитор. А під час оцінювання на Chatbot Arena, де користувачі голосують за свій вибір ШІ, Meta, як повідомляється, підіграла рейтингу своєї найновішої моделі Llama 4, опублікувавши версію, яка була «оптимізована для спілкування». Коментуючи це, представник Meta сказав: «Ми експериментуємо з усіма типами спеціальних варіантів».

Дослідження фінансового сектору, проведене Vals AI, по-іншому погляне на нещодавні заяви про те, що штучний інтелект знищує категорії робочих місць.

У лютому співзасновник Microsoft Білл Гейтс заявив, що ШІ замінить лікарів і вчителів протягом наступних 10 років. У нещодавньому інтерв’ю в подкасті Віктор Лазарте, генеральний партнер Benchmark, який підтримував Uber і WeWork, сказав, що розмови технологічних компаній про те, що штучний інтелект просто «доповнює» людей, вводять в оману, і що юристи та рекрутери повинні бути особливо стривожені.

Повідомлення від команди Vals AI передбачає більш скромну оцінку впливу штучного інтелекту на роботу багатьох білих комірців. Хоча системи постійно вдосконалюються, сказав Крішнан, ідея про те, що інструмент штучного інтелекту може виконувати чиюсь роботу наскрізно, все ще «досить химерна».

Поділитися
Поділитися сюжетом
Джерело матеріала
Згадувані персони
«Срочно покидать города»: что известно о предполагаемой мести России за «Паутину»
Comments UA
2025-06-04T12:09:24Z
Часики тикают: почему у Украины осталось времени всего до конца июня
Comments UA
2025-06-04T12:42:14Z
Отец Илона Маска приехал в Москву и сделал заявление о Путине
Comments UA
2025-06-09T13:12:21Z
Илон Маск отреагировал на удары по аэродромам в РФ
Корреспондент
2025-06-01T20:27:08Z
Чеченский вариант террора: почему Кремль бомбит Софию Киевскую
Корреспондент
2025-06-11T14:48:21Z
Кремль подтвердил новые переговоры с США
Корреспондент
2025-06-11T14:46:44Z
Полный разворот от Украины, какое решение приняли у Трампа, помимо пропуска Рамштайна
Comments UA
2025-06-04T12:30:15Z
Появилась реакция НАТО на удары Украины по аэродромам РФ и Крымскому мосту
Comments UA
2025-06-04T12:33:35Z
Кремль впервые отреагировал на операцию Паутина
Корреспондент
2025-06-03T11:18:55Z
4 категории мужчин исключат из воинского учета: их не мобилизуют
UAToday
2025-06-04T13:03:41Z
Что нельзя делать на Троицу 2025: полный список запретов
Факти ICTV
2025-06-08T04:42:04Z
RMF 24: в Польше на границе с Украиной нашли брошенные системы ЗРК, предназначенные Киеву
Лига
2025-06-04T12:21:34Z
Отправят на заслуженный отдых: ряд украинцев смогут уйти на пенсию на 10 лет раньше
Знай
2025-06-09T03:21:54Z
ВСУ поразили Тамбовский пороховой завод. Было громко в Воронежской и Курской областях
Лига
2025-06-11T14:57:19Z
Украинцам напомнили, когда военное командование может принудительно изымать имущество граждан
Новости Украины
2025-06-11T14:33:35Z
Теперь не до шуток: Буданов рассказал, почему угроза от ракет KN-23 выросла в разы
Comments UA
2025-06-10T12:04:13Z
8 июня - сегодня День святой Троицы, что нельзя делать, все об этом дне
Комсомольская правда
2025-06-08T02:34:32Z
Бесплатные продукты для ВПЛ: украинцам раздают пищу, что важно знать о такой помощи
Политека
2025-06-05T13:31:59Z
Россия уничтожает уникальное "розовое" озеро в Украине: его называют аналогом Мертвого моря
Telegraf
2025-06-07T15:33:19Z
Как прогнать всех насекомых из дома без "химии": один запах заставит их сбежать навсегда
UAToday
2025-06-03T14:15:46Z
Салат "Летний Оливье": хрустящий, свежий и очень вкусный
TSN
2025-06-04T12:36:31Z
Оккупанты превратили его в грязную лужу: в Украине исчезает уникальное Чистое озеро
Telegraf
2025-06-04T13:03:16Z
Внимание дачникам: сажайте кукурузу рядом с огурцами — и будете приятно удивлены
Знай
2025-06-11T14:51:32Z
Сколько раз и когда нужно окучивать картошку: это знают единицы
Gazeta UA
2025-06-11T14:16:13Z
"Клубніка, суниця чи полуниця": как правильно называть первую ягоду летнего сезона
Gazeta UA
2025-06-08T12:24:34Z
Пять самых грязных вещей в спальне
Gazeta UA
2025-06-08T17:54:02Z
Пять фруктов, которые созревают после того, как их сорвали
Gazeta UA
2025-06-08T13:36:56Z
Лилия Ребрик восхитила романтикой с мужем на вокзале и показалась сразу с тремя дочерьми
TSN
2025-06-04T12:36:19Z
54-летняя Наоми Кэмпбелл снялась для глянца в откровенных образах
Gazeta UA
2025-06-04T12:03:15Z
Рада стать бабушкой: Волочкова заговорила о пополнении
GlavRed
2025-06-04T11:51:55Z
Киркоров вызверился на Малахова и оскорбил его
GlavRed
2025-06-04T19:42:05Z
Анастасия Цимбалару похвасталась похудением и показала свой вес
Gazeta UA
2025-06-11T14:42:01Z
"Я - свободный человек": победительница "Холостяка" объяснила, почему не говорит на украинском
Апостроф
2025-06-11T14:39:44Z
Олена Тополя рассказала о пластической операции
Корреспондент
2025-06-03T08:57:59Z
Победительницей конкурса Мисс Мира стала 21-летняя представительница Таилан
Корреспондент
2025-06-02T09:18:21Z
Кабмин назначил нового руководителя Госкино
Корреспондент
2025-05-30T16:36:49Z
Эвакуация из города Сумы: что известно
Comments UA
2025-06-08T20:39:14Z
Российский военный расстрелял жилой дом из гранатомета в Курской области
Comments UA
2025-06-10T07:51:59Z
Срыв обмена пленными и телами погибших: что заявили в РФ
Comments UA
2025-06-07T18:15:21Z
Синоптики обновили прогноз на понедельник
Gazeta UA
2025-06-09T03:18:57Z
Безуглая заявила, что россияне зашли на Днепропетровщину: что говорят военные
Comments UA
2025-06-11T14:57:10Z
Закатали в асфальт? В Киеве нашли новые следы захоронения гетмана Сагайдачного
Telegraf
2025-06-11T14:54:51Z
Буданов: Обмен телами погибших запланирован на следующую неделю
Лига
2025-06-08T12:30:52Z
В Украине станет прохладнее: синоптик порадовала прогнозом на понедельник
Gazeta UA
2025-06-08T13:21:49Z
С продвижением россиян появилась новая опасность для Сум
Telegraf
2025-06-07T11:15:23Z
Последствия сильных взрывов в Киеве: куда попали россияне
Comments UA
2025-06-06T03:45:35Z
В Польше голый украинец бегал по улице и прыгал на авто
TSN
2025-05-28T15:21:21Z
В Киеве 14-летний мальчик упал с канатного аттракциона, его госпитализировали
Комсомольская правда
2025-06-08T14:24:19Z
Трагический инцидент на отдыхе: девушка погибла во время полета на парасейлинге
Comments UA
2025-06-04T12:27:23Z
Избиение курсанта на полигоне: инструктору сообщили о подозрении
Корреспондент
2025-06-11T14:51:12Z
В Брюсселе арестовали полицейского, который во время преследования убил 11-летнего мальчика
Европейская правда
2025-06-11T14:42:33Z
В России группа врачей продавала детей за границу
Корреспондент
2025-05-31T18:33:20Z
В Киеве на американца упал балкон у подъезда многоэтажки
VGorode
2025-05-29T12:57:14Z
В российской Казани вспыхнул сильный пожар
Корреспондент
2025-06-09T09:03:06Z
Делает пищу смертельно опасной: врачи назвали частую ошибку при употреблении популярного продукта
Знай
2025-06-07T10:51:21Z
Шесть продуктов, которые уберегут от обезвоживания летом
Gazeta UA
2025-06-08T16:00:43Z
Что происходит с давлением, когда вы пьете чай с шоколадом
UAToday
2025-06-07T09:03:19Z
Влияет на щитовидку и вызывает аллергию: врачи назвали самый вредный для здоровья чай
Знай
2025-06-07T16:51:36Z
Первый в области ИИ для эндоскопии: Валерий Дубиль и БФ молодежной инициативы Надежда передали современное оборудование на Харьковщину
Знай
2025-06-11T14:54:58Z
Игнорируя этот симптом, можно потерять мужскую силу: о каких болезнях сигнализирует боль в яичках
Comments UA
2025-06-11T14:18:48Z
То, что ты ешь, может сделать тебя несчастным: учёные бьют тревогу
Знай
2025-06-04T12:51:48Z
Суп с фрикадельками и сельдереем: сохраняйте идею обеда от победительницы "Взвешенные и счастливые"
Gazeta UA
2025-06-11T13:18:48Z
О каких болезнях говорит белый налет на языке?
UAToday
2025-06-11T12:03:42Z
Škoda Favorit 1987 года переосмыслили как электрокар для нового поколения
Корреспондент
2025-05-29T18:15:23Z
Быстрее Porsche и Tesla: спортивный электрокар Xiaomi отметился рекордом
Фокус
2025-06-11T13:57:03Z
В Украине резко возрос спрос на подержанные электромобили
Хвиля
2025-06-11T12:42:12Z
Представлен самый мощный и быстрый кроссовер Opel на 325 сил
Фокус
2025-06-11T09:57:33Z
Новые правила ПДД: о чем должны знать водители в июне
Знай
2025-06-11T09:51:37Z
Почему важно покупать запчасти у проверенных продавцов?
AutoGeek
2025-06-11T07:49:00Z
Как арендовать авто правильно и безопасно
Gazeta UA
2025-06-11T06:09:28Z
Надежнее швейцарских часов: топ-3 легендарные Toyota, которые продают в Украине за смешные деньги
Telegraf
2025-06-11T06:06:51Z
Названы привычки водителей, которые снижают ресурс автомобилей
UAToday
2025-06-11T04:00:47Z
Тарифы выросли на 50% за выходные: Попенко объяснил, кто завышает цены на свет для украинцев
Хвиля
2025-06-08T12:15:11Z
Российские акции обвалились после ударов СБУ по аэродромам
Корреспондент
2025-06-01T17:42:33Z
Из-за 10-секундного опоздания самолет не пустили на посадку в Мюнхене - пассажиры провели в пути еще 12 часов
Апостроф
2025-06-04T11:57:13Z
Курс валют на выходные, 31 мая и 1 июня: сколько стоят доллар, евро и злотый
TSN
2025-05-31T06:51:29Z
Пенсии пересчитают по-новому: как военное положение повлияло на расчет стажа и заработка
Знай
2025-06-11T14:30:28Z
Максим Криппа получил контроль над МВЦ
Telegraf
2025-06-11T14:21:00Z
В Украине появится линия по выпуску 155-мм снарядов при участии чешской CSG, — Милитарный
Фокус
2025-06-04T12:36:13Z
Курс валют на 5 июня: сколько будут стоить доллар, евро и злотый
TSN
2025-06-04T12:48:57Z
Швеция ослабляет 100-летнюю жесткую монополию на продажу алкоголя
Европейская правда
2025-05-31T21:00:54Z
ГУР "выключил" сервисы российской железной дороги
Корреспондент
2025-06-08T15:36:08Z
Связь будет даже при блэкаутах: как продлить заряд батареи на смартфоне
Знай
2025-06-04T18:51:04Z
Pornhub остановил показ порно в одной из стран Европы: какая причина
Comments UA
2025-06-04T12:57:24Z
В Украине могут начаться отключение мобильной связи: причины и продолжительность
Знай
2025-06-06T04:36:53Z
Тесты не врут: какой смартфон оказался мощнее и вдвое дешевле Samsung Galaxy S25 Ultra
Фокус
2025-06-11T14:12:32Z
Три сценария развития ИИ: гегемония, сотрудничество или конфликты?
ZN UA
2025-06-11T14:04:11Z
Удар по создателям Days Gone: Студия Bend потеряла треть сотрудников
GameMag
2025-06-11T13:43:59Z
Ця імітація Polo стане вирішальним тестом для Volkswagen
Топ Жир
2025-06-11T13:18:12Z
Экстренные рекомендации: что делать пользователям, если смартфон украли
Фокус
2025-06-11T13:15:53Z
Впервые за 28 лет: украинка стала чемпионкой Европы по художественной гимнастике
Апостроф
2025-06-08T13:43:28Z
Главный тренер львовского Руха уходит с должности досрочно
Корреспондент
2025-06-04T14:03:40Z
Гарсия перед провальным боем травмировался: Была операция
Корреспондент
2025-05-28T21:30:01Z
Составлена символическая сборная команда Лиги чемпионов
Корреспондент
2025-06-01T17:24:06Z
Милан рассматривает трансфер некогда очень перспективного вратаря
Корреспондент
2025-06-11T14:30:33Z
Шахтер намерен усилится ведущим игроком турецкого клуба
Корреспондент
2025-06-11T14:06:36Z
Президент Спортинга прокомментировал конфликт с Дьокерешем
Корреспондент
2025-06-11T12:18:41Z
Ребров: Украина превзошла Канаду по ключевым аспектам
Корреспондент
2025-06-11T11:57:27Z
Историческое поражение: Англия впервые проиграла африканской команде
Корреспондент
2025-06-11T11:15:46Z