![У США зроблять конкурента китайському ШІ DeepSeek за 50 доларів: як це вийде](https://thumbor.my.ua/dhNS1V_U3PyMdkWxkgnrsqhNyNc=/335x225/smart/filters:format(jpeg)/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F53%2Fe61509258ed2a62922ab37068f5dfae1.jpg)
У США зроблять конкурента китайському ШІ DeepSeek за 50 доларів: як це вийде
У тестах, що включають математику і кодування, s1 демонструє продуктивність, яку можна порівняти з передовими моделями, такими як o1 від OpenAI і R1 від DeepSeek.
Група дослідників зі Стенфорда і Вашингтонського університету розробила модель міркувань штучного інтелекту s1 менш ніж за 50 доларів. Про це пише Interesting Engineering.
Дослідники досягли високого рівня продуктивності, використовуючи техніку, відому як "дистиляція". Вона включає в себе навчання s1 для відтворення здібностей до міркування іншої моделі ШІ, в даному випадку експериментальної моделі Gemini 2.0 Flash Thinking від Google.
S1 навчався на наборі даних із 1000 запитань і відповідей, супроводжуваних процесом "мислення" моделі Gemini. Це дало йому змогу навчитися приходити до точних рішень.
Для оптимізації процесу навчання дослідники використовували контрольоване тонке налаштування (SFT). Цей метод передбачає надання моделі ШІ явних інструкцій і прикладів. Це забезпечує більш швидке й ефективне навчання порівняно з іншими методами, такими як навчання з підкріпленням.
Використовуючи SFT, дослідники навчили s1 менш ніж за 30 хвилин, використовуючи 16 графічних процесорів Nvidia H100, за загальної вартості обчислень близько 20 доларів США.
"Навчання займає всього 26 хвилин на 16 графічних процесорах NVIDIA H100", — зазначають дослідники в дослідженні.
Цікавим спостереженням під час розроблення s1 став вплив включення інструкції "очікування" в процес міркувань моделі. Це просте доповнення призвело до помітного поліпшення точності. Це свідчить про те, що надання моделі часу на паузу і роздуми підвищує її здатність приходити до правильних відповідей.
Розвиток ШІ відбувається на тлі дедалі більших перегонів за розробку ефективних моделей міркувань, на які витрачається лише мала частина тих мільйонів, які зазвичай витрачаються великими лабораторіями ШІ.
Примітно, що буквально минулого тижня китайський стартап DeepSeek викликав фурор у всьому світі, представивши свою модель міркувань на основі штучного інтелекту R1. За даними DeepSeek, витрати на навчання під час розроблення R1 становили всього близько 6 мільйонів доларів, що набагато менше, ніж OpenAI, Google, Meta та інші витрачають на свої моделі ШІ.
Однак деякі звіти оскаржують заяви DeepSeek, повідомляючи, що загальна вартість R1 може становити близько 1,3 млрд доларів. Ба більше, також стверджувалося, що DeepSeek скомпрометував функції безпеки та захисту заради продуктивності та вартості. Під час тесту, проведеного Cisco, DeepSeek R1 продемонстрував 100-відсотковий показник успішності атак, тобто не зміг заблокувати жодного шкідливого запиту.
Нагадаємо, вчені з Каліфорнійського університету в Берклі стверджують, що їм вдалося відтворити основну технологію, яка лежить в основі китайського DeepSeek, витративши менше 30 доларів на її навчання.