MY.UAНовини
Нові міркування від моделей штучного інтелекту OpenAI більше подібні до галюцинацій
Нові міркування від моделей штучного інтелекту OpenAI більше подібні до галюцинацій

Нові міркування від моделей штучного інтелекту OpenAI більше подібні до галюцинацій

Нещодавно випущені моделі OpenAI o3 і o4-mini AI є найсучаснішими в багатьох аспектах. Однак нові моделі все ще викликають галюцинації або щось вигадують — фактично, вони галюцинують більше , ніж деякі старіші моделі OpenAI.

Виявилося, що галюцинації є однією з найбільших і найважчих проблем для вирішення в ШІ, яка впливає навіть на найефективніші сучасні системи . Історично склалося так, що кожна нова модель дещо покращувала галюцинаційний відділ, галюцинуючи менше, ніж її попередник. Але це, здається, не стосується o3 і o4-mini.

Відповідно до внутрішніх тестів OpenAI, o3 і o4-mini, які є так званими моделями міркувань, галюцинують частіше , ніж попередні моделі міркувань компанії — o1, o1-mini та o3-mini — а також традиційні моделі OpenAI, «не міркуючі», такі як GPT-4o.

Можливо, більш занепокоєним є те, що виробник ChatGPT насправді не знає, чому це відбувається.

У своєму технічному звіті для o3 і o4-mini OpenAI пише, що «потрібні додаткові дослідження», щоб зрозуміти, чому галюцинації погіршуються, оскільки він масштабує моделі міркування. O3 і o4-mini працюють краще в деяких сферах, включаючи завдання, пов’язані з кодуванням і математикою. Але оскільки вони «загалом роблять більше тверджень», вони часто спонукаються робити «точніші твердження, а також більш неточні/галюциновані заяви», згідно зі звітом.

OpenAI виявив, що o3 галюцинував у відповідь на 33% запитань на PersonQA, внутрішньому еталоні компанії для вимірювання точності знань моделі про людей. Це приблизно вдвічі більше, ніж у попередніх моделях міркування OpenAI, o1 і o3-mini, які набрали 16% і 14,8% відповідно. O4-mini показав ще гірші результати на PersonQA — галюцинував у 48% випадків.

Тестування третьою стороною, проведене Transluce, некомерційною дослідницькою лабораторією ШІ, також виявило докази того, що o3 має тенденцію вигадувати дії, які він виконував у процесі отримання відповідей. В одному прикладі Transluce спостерігав, як o3 стверджував, що він запускає код на MacBook Pro 2021 року «поза ChatGPT», а потім скопіював числа у свою відповідь. Хоча o3 має доступ до деяких інструментів, він не може цього зробити.

«Наша гіпотеза полягає в тому, що тип навчання з підкріпленням, який використовується для моделей серії o, може посилити проблеми, які зазвичай пом’якшуються (але не повністю стираються) стандартними конвеєрами після навчання», — сказав Ніл Чоудхурі, дослідник Transluce і колишній співробітник OpenAI, в електронному листі до TechCrunch.

Сара Шветманн, співзасновник Transluce, додала, що рівень галюцинацій o3 може зробити його менш корисним, ніж це було б інакше.

Кіан Катанфоруш, ад’юнкт-професор Стенфордського університету та генеральний директор стартапу Workera, що займається підвищенням кваліфікації, розповів TechCrunch, що його команда вже тестує o3 у своїх робочих процесах кодування, і вони виявили, що це на крок вище конкурентів. Однак Катанфоруш каже, що o3 схильний галюцинувати непрацюючі посилання на веб-сайти. Модель надасть посилання, яке не працює після натискання.

Галюцинації можуть допомогти моделям прийти до цікавих ідей і бути креативними у своєму «мисленні», але вони також роблять деякі моделі важкопроданими для компаній на ринках, де точність має першорядне значення. Наприклад, юридична фірма, ймовірно, не буде задоволена моделлю, яка вставляє багато фактичних помилок у контракти з клієнтами.

Одним із перспективних підходів до підвищення точності моделей є надання їм можливостей веб-пошуку. GPT-4o OpenAI із веб-пошуком досягає  90% точності  на SimpleQA, ще одному з тестів точності OpenAI. Потенційно пошук також може покращити показники галюцинацій моделей міркувань — принаймні у випадках, коли користувачі бажають надавати підказки сторонньому пошуковому провайдеру.

Якщо масштабування моделей міркування справді продовжуватиме погіршувати галюцинації, це зробить пошуки рішення ще більш актуальними.

«Подолання галюцинацій у всіх наших моделях — це постійна сфера досліджень, і ми постійно працюємо над підвищенням їх точності та надійності», — сказав представник OpenAI Ніко Фелікс в електронному листі до TechCrunch.

Минулого року ширша індустрія ШІ зосередилася на моделях міркування після того, як методи вдосконалення традиційних моделей ШІ почали показувати меншу віддачу . Розуміння покращує продуктивність моделі для різноманітних завдань, не вимагаючи величезних обсягів обчислень і даних під час навчання. Проте, здається, міркування також можуть призвести до більшої галюцинації — представляти виклик.

Джерело матеріала
Джамала продала дом под Киевом: певица назвала причину и где сейчас живет с детьми
TSN
Какие платья нельзя носить женщинам за 50: такие модели выглядят нелепо и добавляют возраст
TSN
Яна Глущенко с мужем и сыном показала свой роскошный особняк за 200 тыс. долларов: вид изнутри
TSN
Утреннее шоу возвращается: Apple TV объявил дату премьеры четвертого сезона
Корреспондент
Netflix анонсировал продолжение сериала Джентльмены от Гая Ричи
Корреспондент
Финал Евровидения посмотрели более 166 миллионов человек по всему миру
Корреспондент
Мадонна кардинально изменила стиль ради мамы
Корреспондент
Известный украинский певец высказался о неизлечимом сыне и раскрыл главную проблему
TSN
Победитель Евровидения-2025 хочет исключить Израиль из конкурса
Корреспондент
Этот паразит грызет клетки человека: ученые сделали жуткое открытие
TSN
Какое питание поможет сохранить здоровье в старости — исследование
TSN
Враги помидоров: список растений, которые нельзя сажать рядом
TSN
Как личность влияет на сон: ученые поразили исследованием
UAToday
«Коктейль молодости» продлил жизнь мышей почти на треть
Корреспондент
Эти три продукта мешают вам похудеть: вы едите их каждый день
UAToday
Тля на смородине: методы борьбы с вредителями
TSN
Мыло или гель для душа: что выбрать для кожи и гигиены
UAToday
Чем полезен творог и стоит ли есть его каждый день: диетологи рассказали обо всех нюансах
UAToday
Эти два знака зодиака могут тянуть из вас энергию: как их распознать и защититься
TSN
Главная стрижка лета-2025: трендовые варианты
TSN
Клубничный бум: непревзойденная галета к кофе или чаю
TSN
Что добавить в лунку во время высадки рассады сладкого перца для хорошего урожая
TSN
Какой цветок посадить на огороде, чтобы вредители забыли к вам дорогу
TSN
Гороскоп на 30 мая 2025 года по картам Таро для всех знаков зодиака
UAToday
Гороскоп на 18 мая 2025 года по картам Таро для всех знаков зодиака
UAToday
Гороскоп для знаков зодиака на 22 мая 2025 года
Корреспондент
Гороскоп на 23 мая 2025 года по картам Таро для всех знаков зодиака
UAToday
Зеленский рассказал о ситуации с ракетами Taurus
Корреспондент
Как движение в ЕС заставляет Украину изменить правила выборов
Европейская правда
В России заявили об атаке на Москву
Корреспондент
Разведка США раскрыла планы Путина на 2025 год
Корреспондент
Воздушные силы раскрыли детали ночной атаки России
Корреспондент
США готовы обсуждать требования РФ по гарантиям нерасширения НАТО - Келлог
Корреспондент
Германия не приняла решение о передаче Украине ракет Taurus - СМИ
Корреспондент
США представили России мощный мирный план - Рубио
Корреспондент
Трамп озвучил Канаде цену присоединения к Золотому куполу
Корреспондент
Почему Закарпатская область не Ужгородская: историк удивил ответом
TSN
ВСУ ведут бои на девяти направлениях - Генштаб
Корреспондент
В Киеве объявлена воздушная тревога: что угрожает столице
TSN
Генштаб рассказал о ситуации с боями на фронте
Корреспондент
Генштаб оценил ситуацию на фронте
Корреспондент
Удар по Харькову: повреждены более 30 домов и транспортное депо
Корреспондент
Атака шахедов: в Киеве прогремели взрывы
Корреспондент
На подконтрольную Украине территорию вернули еще 9 детей
Корреспондент
Синоптики дали прогноз погоды на сегодня 24 мая в Украине
UAToday
Стало известно, каким водителям больше нельзя управлять автомобилем
UAToday
Китай поставил под угрозу производство электромобилей в Европе
Корреспондент
Škoda Favorit 1987 года переосмыслили как электрокар для нового поколения
Корреспондент
Лобстеры как извинение: Албон угостил Расселла за Гран-при Монако
Корреспондент
Французская Alpine представила электрокроссовер A390 с тремя двигателями
Корреспондент
Китайский автопроизводитель разозлил владельцев авто рекламой в салоне
Корреспондент
Представлен обновленный Land Rover Defender
Корреспондент
На китайском вторичном рынке появились автомобили с "нулевым пробегом"
Корреспондент
Итальянская Zagato представила авто на базе BMW M4
Корреспондент
25 мая — какой церковный праздник, почему нельзя резать, рубить или использовать острые лезвия
TSN
Германия вооружит Украину дополнительно на €5 млрд
Корреспондент
Новое усиление мобилизации: кого ищут ТЦК
Корреспондент
18 мая: церковный праздник сегодня, три вещи, которые лучше не делать в этот день
UAToday
Генштаб обновил данные о потерях России в войне
Корреспондент
30 мая: церковный праздник сегодня, чем опасен этот день
UAToday
Максим Нелипа погиб на войне: когда будет прощание и почему его сын не сможет попасть на похороны
TSN
В Турции обнаружили христианскую мозаику накануне визита Папы Римского
Корреспондент
Украина подписала контракт о производстве ЗРК IRIS-T и ракет к ним
UAToday
В NASA зафиксировали в океане гигантскую форму жизни: ее видно даже из космоса
UAToday
В Великобритании нашли скульптуру богини победы возрастом более 1800 лет
Корреспондент
Команда с украинцем выиграла в Казахстане турнир по Counter-Strike 2
Корреспондент
Головоломка "отправляет в ад" из-за неправильного ответа
TSN
OnePlus представила два доступных флагманских смартфона
Корреспондент
iPhone 16 стал самым популярным смартфоном в мире
Корреспондент
Украина впервые применила дрон-матку с искусственным интеллектом
VGorode
Глобальное потепление пересечет критическую черту уже в ближайшие пять лет, - Forbes
UAToday
Китай впервые испытал многоразовую ракету
Корреспондент
Выращивание картофеля: аграрные секреты, о которых знают не все
TSN
В Украине выросло энергопотребление в конце недели
Корреспондент
Санкции уничтожают агросектор РФ - разведка
Корреспондент
Немецкий банк заблокировал Шредеру выплаты из России
Корреспондент
ЗАЭС три недели остается на одной линии электропитания - МАГАТЭ
Корреспондент
Украина договорилась с МВФ о транше в $500 млн
Корреспондент
Moody's снизило кредитный рейтинг США
Корреспондент
Доллар подорожал: курс валют на 19 мая 2025
TSN
Новые лимиты на перевод денег, повторная ВВК и техосмотр авто: что изменится с 1 июня
UAToday
В Киеве на американца упал балкон у подъезда многоэтажки
VGorode
Главу центрального банка Словакии осудили за коррупцию
Корреспондент
В Польше голый украинец бегал по улице и прыгал на авто
TSN
Атака на Киев: известны уточненные данные о последствиях
Корреспондент
Россияне уничтожили отделение Новой почты в Одесской области
Корреспондент
Экс-руководитель управления Миграционной службы начислил себе 365% премии
Корреспондент
На Франковщине чиновник торговал закрытыми данными ГПСУ
Корреспондент
Поджог имущества Стармера: задержан второй подозреваемый
Корреспондент
На Харьковщине из-за обстрела пострадали 8 человек
Корреспондент
Гарсия перед провальным боем травмировался: Была операция
Корреспондент
Совладелец МЮ лишился почти трети своего состояния
Корреспондент
Довбик назвал настоящего лидера сборной Украины
Корреспондент
90 лет без титула, и вот наконец Юнион Сент-Жиллуаз в Бельгии снова чемпион
Корреспондент
Шахтер готовится к битве в Лиге Европы: известны детали
Корреспондент
Ротань возглавил футбольный клуб Полесье: детали соглашения
Корреспондент
Достойное обновление эмблемы на форме Динамо после 30-го чемпионства
Корреспондент
Прощание с Реалом: заключительный матч сезона стал последним для Модрича
Корреспондент
Соперник пойманного на допинге Мунгии отреагировал на скандал
Корреспондент