Google запускає «неявне кешування», щоб зробити доступ до своїх новіих моделей штучного інтелекту дешевшим

Google впроваджує функцію у своєму Gemini API, яка, за твердженням компанії, зробить її новітні моделі штучного інтелекту дешевшими для сторонніх розробників.

Google називає цю функцію «неявним кешуванням» і стверджує, що вона може забезпечити 75% економії на «повторюваному контексті», що передається моделям через Gemini API. Вона підтримує моделі Google Gemini 2.5 Pro та 2.5 Flash.

Це, ймовірно, буде приємною новиною для розробників , оскільки вартість використання передових моделей продовжує зростати .

Кешування, широко поширена практика в галузі штучного інтелекту, повторно використовує часто використовувані або попередньо обчислені дані з моделей, щоб зменшити обчислювальні вимоги та витрати. Наприклад, кеші можуть зберігати відповіді на запитання, які користувачі часто ставлять моделі, усуваючи необхідність для моделі повторно створювати відповіді на той самий запит.

Раніше Google пропонував кешування запитів моделей, але лише явне кешування запитів, а це означало, що розробникам доводилося визначати запити з найвищою частотою використання. Хоча економія коштів мала бути гарантована, явне кешування запитів зазвичай передбачало багато ручної роботи.

Деякі розробники були незадоволені тим, як працювала реалізація явного кешування Google для Gemini 2.5 Pro, що, за їхніми словами, може призвести до напрочуд великих рахунків за API. Скарги досягли апогею минулого тижня, що спонукало команду Gemini вибачитися та пообіцяти внести зміни.

На відміну від явного кешування, неявне кешування є автоматичним. Увімкнене за замовчуванням для моделей Gemini 2.5, воно передає економію коштів, якщо запит API Gemini до моделі потрапляє в кеш.

«[Коли] ви надсилаєте запит до однієї з моделей Gemini 2.5, і запит має спільний префікс з одним із попередніх запитів, то він має право на потрапляння до кешу», – пояснив Google у своєму блозі. «Ми динамічно передамо вам заощадження».

Згідно з документацією розробника Google, мінімальна кількість токенів запиту для неявного кешування становить 1024 для Flash версії 2.5 та 2048 для Pro версії 2.5, що не є надто великою кількістю, а це означає, що для запуску цих автоматичних заощаджень не повинно знадобитися багато часу. Токени – це необроблені фрагменти даних, з якими працюють моделі, причому тисяча токенів еквівалентна приблизно 750 словам.

З огляду на те, що останні заяви Google про економію коштів завдяки кешуванню виявилися невдалими, у цій новій функції є деякі аспекти, які варто врахувати покупцям. По-перше, Google рекомендує розробникам зберігати повторюваний контекст на початку запитів, щоб збільшити ймовірність неявних звернень до кешу. Контекст, який може змінюватися від запиту до запиту, слід додавати в кінці, зазначає компанія.

По-друге, Google не надав жодного стороннього підтвердження того, що нова система неявного кешування забезпечить обіцяну автоматичну економію. Тож подивимося, що скажуть перші користувачі.

Поділитися

Поділитися сюжетом

Джерело матеріала

InternetUA

Оригінальна версія

Россия нанесла удар по пригороду Харькова: подробности от Терехова

Апостроф

2025-06-28T18:48:07Z

"Большая часть ляжет в могилы": Арестович шокировал новым прогнозом будущего Украины

Comments UA

2025-06-17T20:00:36Z

Путин готовится значительно усилить ракетный террор Украины: названы 5 наиболее опасных городов