В тестах, включающих математику и кодирование, s1 демонстрирует производительность, сопоставимую с передовыми моделями, такими как o1 от OpenAI и R1 от DeepSeek.
Группа исследователей из Стэнфорда и Вашингтонского университета разработала модель рассуждений искусственного интеллекта s1 менее чем за 50 долларов. Об этом пишет Interesting Engineering.
Исследователи достигли высокого уровня производительности, используя технику, известную как "дистилляция". Она включает в себя обучение s1 для воспроизведения способностей к рассуждению другой модели ИИ, в данном случае экспериментальной модели Gemini 2.0 Flash Thinking от Google.
S1 обучался на наборе данных из 1000 вопросов и ответов, сопровождаемых процессом "мышления" модели Gemini. Это позволило ему научиться приходить к точным решениям.
Для оптимизации процесса обучения исследователи использовали контролируемую тонкую настройку (SFT). Этот метод подразумевает предоставление модели ИИ явных инструкций и примеров. Это обеспечивает более быстрое и эффективное обучение по сравнению с другими методами, такими как обучение с подкреплением.
Используя SFT, исследователи обучили s1 менее чем за 30 минут, используя 16 графических процессоров Nvidia H100, при общей стоимости вычислений около 20 долларов США.
"Обучение занимает всего 26 минут на 16 графических процессорах NVIDIA H100", — отмечают исследователи в исследовании.
Интересным наблюдением при разработке s1 стало влияние включения инструкции "ожидание" в процесс рассуждений модели. Это простое дополнение привело к заметному улучшению точности. Это говорит о том, что предоставление модели времени на паузу и размышление повышает ее способность приходить к правильным ответам.
Развитие ИИ происходит на фоне усиливающейся гонки за разработку эффективных моделей рассуждений, на которую тратится лишь малая часть тех миллионов, которые обычно тратятся крупными лабораториями ИИ.
Примечательно, что буквально на прошлой неделе китайский стартап DeepSeek произвел фурор во всем мире, представив свою модель рассуждений на основе искусственного интеллекта R1. По данным DeepSeek, затраты на обучение при разработке R1 составили всего около 6 миллионов долларов, что намного меньше, чем OpenAI, Google, Meta и другие тратят на свои модели ИИ.
Однако некоторые отчеты оспаривают заявления DeepSeek, сообщая, что общая стоимость R1 может составить около 1,3 млрд долларов. Более того, также утверждалось, что DeepSeek скомпрометировал функции безопасности и защиты ради производительности и стоимости. Во время теста, проведенного Cisco, DeepSeek R1 продемонстрировал 100-процентный показатель успешности атак, то есть не смог заблокировать ни одного вредоносного запроса.