MY.UAНовини
Інструменти штучного інтелекту не можуть впоратися з основними фінансовими завданнями - дослідження
Інструменти штучного інтелекту не можуть впоратися з основними фінансовими завданнями - дослідження

Інструменти штучного інтелекту не можуть впоратися з основними фінансовими завданнями - дослідження

Тестування 22 моделей штучного інтелекту загального призначення від OpenAI, Anthropic, x.AI, Meta, Google та інших провідних гравців у сфері штучного інтелекту показало, що всі вони отримали в середньому менше ніж 50 відсотків точності для простих завдань, необхідних фінансовим аналітикам початкового рівня.

«Рівень BS, який ми бачимо там, абсурдний», — сказав генеральний директор Раян Крішнан, виконавчий директор компанії Vals AI, яка проводила дослідження.

Попри те, що останні моделі штучного інтелекту мають високі оцінки в загальнодоступних тестах вимірювання навичок математики чи програмування, питання для цих тестів широко розповсюджуються в Інтернеті та, ймовірно, стали частиною даних, на яких навчаються системи ШІ, сказав Крішнан.

«Люди роблять багато сміливих заяв про штучний інтелект, але це нереально, якщо про це повідомляють самі», — додав він. «У нас немає нічого схожого на експертну перевірку або сторонніх аудиторів або будь-яке регулювання».

Щоб оцінити моделі, Vals AI розробив власний набір даних із понад 500 запитань, написаних у співпраці з провідним банком, щоб оцінити такі навички, як дослідження ринку та прогнози.

Більшість моделей штучного інтелекту не справлялися зі звичайними завданнями, такими як пошук інформації в EDGAR, загальнодоступній базі даних Комісії з цінних паперів і бірж компаній — базовому ресурсі фінансових даних, який використовують аналітики, акціонери, журналісти та біржовики.

Останній випуск OpenAI, o3, модель «обґрунтування», призначена для спілкування сама з собою як спосіб генерації більш точних відповідей на складні запити, набрала в середньому 48,3 відсотка точності, але ціною в середньому 3,69 доларів США за запитання. Модель міркування Anthropic під назвою Claude 3.7 Sonnet (Thinking) отримала точність 44,1% за набагато нижчої ціни в 1,05 долара за запитання. Порівняно більш відкрита модель штучного інтелекту Meta, Llama, показала особливо погані результати: три версії показали в середньому менш як 10 відсотків точності.

Vals AI, стартап із Сан-Франциско, який стоїть за дослідженням, є частиною зростаючої ніші сторонніх фірм, які обіцяють тестувати, ранжувати або перевіряти моделі штучного інтелекту, оскільки промисловий ажіотаж стає дедалі складнішим для аналізу. Інші нові учасники цієї галузі включають Artificial Analysis і Chatbot Arena, популярний академічний дослідницький проект , який нещодавно став компанією, яка тепер називається LMArena.

Крішнан каже, що ретельне незалежне тестування того, як агенти штучного інтелекту виконують певні завдання, є життєво важливим для оцінки їх ефекту.

«Було таке бачення, що генеративний ШІ, ймовірно, матиме величезний вплив на економіку», — сказав він. «І все ж ми навіть не знаємо, в яких секторах економіки моделі можуть працювати добре і як насправді виглядатиме цей зрив».

За словами Крішнана, галузь надто довго покладалася на «оцінку за настроями» — окрему гру з моделлю та публікацію точкових прикладів на X. Підприємствам, які розглядають можливість придбання цих інструментів для збільшення або заміни працівників, потрібен більш суворий підхід.

Фірма нещодавно опублікувала серію подібних досліджень, в яких оцінювалися інструменти штучного інтелекту для юридичних завдань, розглядалися моделі штучного інтелекту загального призначення та агенти штучного інтелекту, створені для юристів, тестувались на запитах реального світу, розроблених спільно з юридичними фірмами. Оцінки були вищими для юриспруденції, ніж для фінансів, із середніми показниками точності в 70-му та 80-му процентилях для деяких із тих самих моделей.

Краща продуктивність, ймовірно, була тому, що Vals AI надав необхідні документи для більшості юридичних завдань, тоді як фінансове дослідження попросило моделей «провести власні дослідження у відкритому Інтернеті, щоб зробити контекст відповідним», — сказав Крішнан.

Meta відмовився коментувати звіт Vals AI. OpenAI та Anthropic не відповіли на запити про коментарі.

У своїй фінансовій оцінці Vals AI виявив, що моделі працювали набагато гірше, оскільки завдання ставали складнішими. Десять моделей отримали нуль балів за запитання, які просили модель визначити шаблон для однієї компанії в неодноразових деклараціях про цінні папери, як-от надання рекламного доходу YouTube у відсотках від доходу його материнської компанії Alphabet з 2021 по 2024 рік.

Згідно з аналізом Vals AI підрядників, яких попросили виконати ті самі завдання, моделі показали найкращі результати в простих завданнях пошуку кількісної та якісної інформації, які є легкими, але можуть потребувати багато часу для людей.

Зусилля стартапу порівняти ефективність виконання завдань, пов’язаних з фінансами, викликані зростаючим скептицизмом щодо претензій компанії, які часто руйнуються при найближчому розгляді.

В іншому випадку OpenAI повідомила про інші результати для своєї моделі o3 щодо математичних проблем, ніж сторонній аудитор. А під час оцінювання на Chatbot Arena, де користувачі голосують за свій вибір ШІ, Meta, як повідомляється, підіграла рейтингу своєї найновішої моделі Llama 4, опублікувавши версію, яка була «оптимізована для спілкування». Коментуючи це, представник Meta сказав: «Ми експериментуємо з усіма типами спеціальних варіантів».

Дослідження фінансового сектору, проведене Vals AI, по-іншому погляне на нещодавні заяви про те, що штучний інтелект знищує категорії робочих місць.

У лютому співзасновник Microsoft Білл Гейтс заявив, що ШІ замінить лікарів і вчителів протягом наступних 10 років. У нещодавньому інтерв’ю в подкасті Віктор Лазарте, генеральний партнер Benchmark, який підтримував Uber і WeWork, сказав, що розмови технологічних компаній про те, що штучний інтелект просто «доповнює» людей, вводять в оману, і що юристи та рекрутери повинні бути особливо стривожені.

Повідомлення від команди Vals AI передбачає більш скромну оцінку впливу штучного інтелекту на роботу багатьох білих комірців. Хоча системи постійно вдосконалюються, сказав Крішнан, ідея про те, що інструмент штучного інтелекту може виконувати чиюсь роботу наскрізно, все ще «досить химерна».

Поділитися
Поділитися сюжетом
Джерело матеріала
Згадувані персони
Ізраїль передав Україні системи Patriot – посол
1News
2025-06-09T14:06:54Z
Можливе звіряче "самогубство"? Загородній пояснив, чим загрожує Маску сварка з Трампом
Telegraf
2025-06-09T14:06:14Z
3 ознаки вказують, що економіка РФ зазнає краху: Новак назвав терміни й умови її падіння
GlavRed
2025-06-09T14:03:46Z
Ізраїль затримав Тунберг та активістів, що пливли до Гази - відео
Лига
2025-06-09T14:03:23Z
Під час можливої ракетної атаки РФ на Німеччину пріоритети захисту визначатиме не Берлін і навіть не Бундесвер – NZZ
ZN UA
2025-06-09T14:01:43Z
До Києва прибув глава МЗС Литви: говоритиме про ситуацію на фронті і тиск на РФ
Европейская правда
2025-06-09T14:01:37Z
Удар по заводу в Чебоксарах: чим важливі для ЗС РФ "Комети", які робив "ВНДИР-Прогресс"
Фокус
2025-06-09T14:00:49Z
"Про це не багато говорили": посол Ізраїлю про передачу Україні ЗРК Patriot
GlavRed
2025-06-09T14:00:35Z
Насмілився критикувати Трампа: телеканал у США звільнив журналіста
ГЛАВКОМ NET
2025-06-09T14:00:18Z
З проживанням на морі та харчуванням: в Україні пропонують роботу мрії для студентів
Telegraf
2025-06-09T14:06:51Z
Чи можуть росіяни запускати тисячу "Шахедів" щоночі: відповідь офіцера ЗСУ
24tv
2025-06-09T14:03:35Z
Чи можна оформити довідку про доходи пенсіонера, перебуваючи за кордоном
24tv
2025-06-09T14:03:28Z
РФ у 5 разів збільшила темпи виробництва "Шахедів" - ЗМІ
GlavRed
2025-06-09T14:03:07Z
Історичне збиття: ЗСУ могли знищити російський винищувач Су-35 новою зброєю
24tv
2025-06-09T14:03:02Z
Залишилися тільки стволи: в Україні завершується локалізація виробництва гвинтівки UAR-15
Фокус
2025-06-09T14:00:47Z
Український дрон безконтактно посадив ворожий ударний БпЛА "Молнія": як це зробили
24tv
2025-06-09T13:57:40Z
У ПС розповіли, як знищили російські Кинджали
1News
2025-06-09T13:57:33Z
Виїхала за кордон, але не забула про коріння: хто став володаркою титулу "Міс Всесвіт Україна"
24tv
2025-06-09T13:57:26Z
Ви ніколи не дізнаєтесь про це: скільки людей зраджують під час відпустки
24tv
2025-06-09T13:51:39Z
Загроза реальна: у популярній країні просять туристів не користуватися додатками для знайомств
24tv
2025-06-09T13:48:01Z
Натовпи туристів замінила пустка: що росіяни зробили з унікальними "українськими Мальдівами"
Telegraf
2025-06-09T13:36:13Z
Впливає не лише розміщення меблів: 5 способів, як можна створити затишну і вишукану вітальню
24tv
2025-06-09T13:12:37Z
Де відпочити в Болгарії: найкращі готелі, розваги, рибна чорба і троянди
Фокус
2025-06-09T12:00:13Z
5 помилок, які роблять кухонний острів дешевим на вигляд
24tv
2025-06-09T11:30:43Z
Нізащо не садіть ці рослини поряд з перцем: він виросте гірким
24tv
2025-06-09T11:30:27Z
Китайський гороскоп на завтра 10 червня: Собакам - образи, Свиням - стрес
GlavRed
2025-06-09T11:27:16Z
Не поспішайте купувати кондиціонер. Як охолодити приміщення в спеку
Telegraf
2025-06-09T11:18:39Z
У родині вагітної Ріанни сталося горе
TSN
2025-06-01T16:21:48Z
"Я лесбійка" - зірка "Топмодель по-українськи" здійснила камінг-аут
Gazeta UA
2025-06-09T13:33:38Z
Ілон Маск поділився зображеннями Grok — вони виявилися роботами фотографа
ITC
2025-06-09T13:33:28Z
"Я неймовірно пишаюся": Мурат Налчаджиоглу показав доньку, яку важко впізнати
GlavRed
2025-06-09T13:27:29Z
Чернов під час прем’єри «2000 метрів до Андріївки» на Docudays UA: «Українці хочуть миру, але битимуться за свої сім’ї і землю до кінця»
Детектор М
2025-06-09T13:18:57Z
На фоні чуток про вагітність: Леся Нікітюк привітала нареченого зі святом, хто він такий
Фокус
2025-06-09T13:12:23Z
Стрижки каре 2025: модні варіанти для жінок будь-якого віку
24tv
2025-06-09T13:12:22Z
«Кожне слово, кадр і репортаж — це літопис нашої перемоги»
Детектор М
2025-06-09T13:06:57Z
Декого не впізнати: як виглядають актори серіалу "Джинні та Джорджія" в реальному житті
24tv
2025-06-09T13:00:44Z
На Закарпатті чоловіки намагалися перетнути кордон під «прикриттям» кіз та свиней
ГЛАВКОМ NET
2025-06-09T14:01:05Z
Безкоштовне житло для ВПО у Харкові: українцям надають прихисток, де можна оселитись
Политека
2025-06-09T14:01:05Z
Не "місто Лева": історик розкрив першу назву Львова та його вік
GlavRed
2025-06-09T14:00:08Z
Київську лікарню "Охматдит" планують відбудувати до кінця року
Комсомольская правда
2025-06-09T13:58:09Z
На Кіровоградщині зафіксували масове отруєння бджіл
УкраинФорм
2025-06-09T13:57:44Z
Відбувся новий обмін полоненими: імена захисників, яких вдалося повернути
24tv
2025-06-09T13:57:09Z
Ворог наближається: в ОВА пояснили, чи може ворог вдарити FPV-дронами по Сумах
GlavRed
2025-06-09T13:51:16Z
Агентство відновлення ремонтує дорогу у прифронтових громадах Чернігівщини
УкраинФорм
2025-06-09T13:51:01Z
Відключення світла в Полтавській області: за якими адресами люди терпітимуть незручності
Политека
2025-06-09T13:45:52Z
РОПА Україна представила на AGRO Challenge найтехнологічніші машини HORSCH
AgroPortal
2025-05-27T09:00:44Z
На європейський ринок виходить доступніший конкурент Ferrari від General Motors
Фокус
2025-06-09T14:00:55Z
Не лишайте ці речі в авто на сонці — ризик вибуху і отруєння
360ua.news
2025-06-09T14:00:01Z
Виявлено культовий американський спорткар 90-х без пробігу і в заводському пакуванні
Фокус
2025-06-09T13:21:24Z
Новий Optiq-V швидко заряджається на станціях Tesla та розганяється до 60 за 3,5 секунди
Топ Жир
2025-06-09T13:15:53Z
Nissan запатентував новий бізнес-седан
AutoCentre
2025-06-09T12:15:27Z
Наступний Nismo SUV від Nissan з’явився у червоних акцентах
Топ Жир
2025-06-09T12:00:42Z
Швидкість перемикання передач у механічних КПП: хто найшвидший?
AutoCentre
2025-06-09T11:42:48Z
Шикарні та безпроблемні: названо найнадійніші вживані авто преміумкласу
Фокус
2025-06-09T11:42:27Z
У Рівненській області під час нічної атаки РФ не працювали укриття: будуть перевірки
Лига
2025-06-09T14:03:31Z
Повідомлено про про підозру підприємиці, яка ошукала іноземну благодійну організацію на суму понад пів мільйона гривень
Украина Криминальная
2025-06-09T14:01:51Z
На Херсонщині внаслідок дронової атаки згорів будинок
УкраинФорм
2025-06-09T13:57:02Z
Екскерівник управління Сил логістики ЗСУ отримав підозру в незаконному збагаченні на ₴12 мільйонів
УкраинФорм
2025-06-09T13:54:57Z
Вбивство підлітка на фунікулері у Києві: апеляційний суд залишив підозрюваного під вартою
УкраинФорм
2025-06-09T13:51:29Z
На Львівщині депутат облради та його спільник намагались видурити гроші у підприємця
Украина Криминальная
2025-06-09T13:48:07Z
Вбивство українок у Бельгії: підозрюваного помістили до спецзакладу для неповнолітніх
Европейская правда
2025-06-09T13:46:59Z
Поліція розслідує побиття 12-річного хлопця на Одещині
УкраинФорм
2025-06-09T13:45:20Z
У міграційній службі на Закарпатті викрито дві корупційні схеми прискореного виготовлення закордонних паспортів
Украина Криминальная
2025-06-09T13:45:09Z
Чому огірки гірчать: дачники роблять великі помилки у вирощуванні
24tv
2025-06-09T13:27:21Z
Чому кофеїн заважає відновленню мозку під час сну
360ua.news
2025-06-09T13:03:07Z
Більше не вбиратимуть олію: 2 дієві способи смаження нежирних дерунів
24tv
2025-06-09T12:51:48Z
6 причин, чому ваш томатний кущ гине, і як його врятувати
24tv
2025-06-09T12:18:04Z
У Києві з початку року зафіксували чотири спалахи кору
УкраинФорм
2025-06-09T12:06:15Z
Психологічна витривалість у часи війни, що радять експерти
360ua.news
2025-06-09T12:00:46Z
Особливо для чоловіків: знайшли новий негативний вплив дієт
24tv
2025-06-09T11:57:28Z
«Це дуже мало»: головний санлікар Києва розповів про рівень вакцинації проти грипу
УкраинФорм
2025-06-09T11:12:40Z
Забудете про розводи: як ефективно мити вікна влітку
24tv
2025-06-09T10:06:02Z
Після удару Нацбанку: NovaPay запровадить жорсткий контроль за переказами та післяплатами
Хвиля
2025-06-09T14:03:29Z
Долар раптово злетів після мінімуму за 1,5 місяця: яким буде курс з 10 червня
GlavRed
2025-06-09T14:03:08Z
Ринок сонячних панелей: другий гігант у США оголосив про банкрутство
InternetUA
2025-06-09T14:01:42Z
В Україні дещо здешевшала готова молочна продукція - профільна асоціація
УкраинФорм
2025-06-09T14:01:05Z
УКАБ Агротехнології 2025: дводенне польове шоу, 100 компаній, десятки тест-драйвів
AgroPortal
2025-06-09T14:00:35Z
AGRO UKRAINE SUMMIT 2025: як пройшов міжнародний агросаміт у Києві?
Agravery
2025-06-09T13:51:01Z
Долар подорожчав, що з іншими валютами
Gazeta UA
2025-06-09T13:45:32Z
П'ять речей, на які люди марно витрачають гроші: поради Баффета
ГЛАВКОМ NET
2025-06-09T13:45:03Z
Зміни є: що відбувається з курсом долара влітку 2025
24tv
2025-06-09T13:42:57Z
Компанія Google представила нову функцію запланованих дій для свого штучного інтелекту Gemini
Детектор М
2025-06-09T14:03:38Z
Платина у кратерах Місяця на $1 трлн — вчені знайшли ймовірні родовища
ITC
2025-06-09T14:01:58Z
Рис не допоможе: експерти пояснили, як врятувати смартфон після падіння у воду і не тільки
Фокус
2025-06-09T14:00:53Z
У Резерв+ можна буде сплатити штраф: коли запланований запуск сервісу
24tv
2025-06-09T14:00:35Z
Штучний інтелект у UX: виклики та трансформація ролі дизайнера
AIN
2025-06-09T14:00:24Z
Samsung знову “економить”: новий потрійний складаний смартфон не отримає бажаної функції
InternetUA
2025-06-09T13:43:43Z
Owlcat анонсувала The Expanse: Osiris Reborn — Mass Effect у світі «Простору»
ITC
2025-06-09T13:43:33Z
Чи може бездротова зарядка "вбити" батарею смартфона: що кажуть фахівці
Фокус
2025-06-09T13:36:57Z
Новий вид лінз перетворює інфрачервоне світло на видиме
ITC
2025-06-09T13:33:51Z
Кращий за Мессі та Пеле: головні рекорди Роналду у футболі
24tv
2025-06-09T14:03:36Z
Шевченко: Ми були солдатами Моурінью
Football.ua
2025-06-09T13:58:22Z
Манчестер Сіті погодив з Ліоном трансфер Шеркі
Football.ua
2025-06-09T13:48:50Z
Лунін може повернутись в Ов’єдо – все залежить від виходу клубу до Ла Ліги
Football.ua
2025-06-09T13:42:16Z
Визначились всі учасники чемпіонату Європи з баскетболу 3х3
ГЛАВКОМ NET
2025-06-09T13:27:33Z
Левандовські під загрозою дискваліфікації в Барселоні через конфлікт у збірній Польщі
Football.ua
2025-06-09T13:22:50Z
Максимов залишить Ворсклу
Football.ua
2025-06-09T13:12:36Z
Йовічевич залишив Лудогорець після тріумфального сезону
Football.ua
2025-06-09T13:01:47Z
Фенербахче вагається щодо майбутнього Моурінью через високу компенсацію
Football.ua
2025-06-09T13:01:08Z