Самые современные модели искусственного интеллекта решили лишь 2% сложных математических задач, разработанных ведущими математиками мира.
Исследовательский институт Epoch AI представил новый набор тестов FrontierMath, который требует докторского уровня математических знаний. К разработке привлекли профессоров математики, в частности лауреатов Филдсовской премии
Если в предыдущих тестах MMLU
«Эти задачи чрезвычайно сложные. Сейчас их можно решить только с участием специалиста в этой области или с помощью аспиранта в смежной сфере в сочетании с современным ИИ и другими алгебраическими инструментами», — отметил лауреат Филдсовской премии 2006 года Теренс Тао.
В исследовании протестировали шесть ведущих моделей ИИ. Gemini 1.5 Pro (002) от Google и Claude 3.5 Sonnet от Anthropic показали лучший результат — 2% правильных ответов. Модели o1-preview, o1-mini и GPT-4o от OpenAI справились с 1% задач, а Grok-2 Beta от xAI не смогла решить ни одной задачи.
FrontierMath охватывает различные математические области — от теории чисел до алгебраической геометрии. Все тестовые задания доступны на сайте Epoch AI. Разработчики создали уникальные задачи, которых нет в учебных данных моделей ИИ.
Исследователи отмечают, что даже когда модель давала правильный ответ, это не всегда свидетельствовало о правильности рассуждений — иногда результат можно было получить через простые симуляции без глубокого математического понимания.
Источник: Livescience