feedback

AI саммари

В статье рассказывается о функции кеширования промптов в OpenAI API, которая позволяет существенно сократить расходы и уменьшить задержку при использовании длинных и повторяющихся запросов. Описывается, как работает кеш, что именно кешируется и как понять, что кеширование сработало, а также даются рекомендации по его эффективному использованию.
от FlowFeed AI
Обновлено: 1 month ago
Если ваш стартап, продукт или сервис часто отправляет в OpenAI один и тот же системный промпт, вы можете существенно сократить расходы благодаря функции кеширования (Prompt Caching). Многие об этом не знают и не используют эту возможность в полной мере.
Prompt Caching - это механизм, при котором система запоминает и повторно использует ранее обработанные запросы, чтобы ускорить обработку и снизить затраты.


Что это такое?
OpenAI автоматически кеширует начало промпта (префикс), если оно уже обрабатывалось недавно. Это позволяет избежать повторного вычисления при каждом запросе.

Результат:

  • Задержка может снизиться до 80%

  • Стоимость токенов для префикса — до 50%



Когда работает кеш?

  • Срабатывает, если промпт длиннее 1024 токенов.

  • Проверяется, использовался ли этот префикс недавно.

  • Время жизни кеша — от 5 до 10 минут, иногда до часа (если не было запросов, кеш очищается).



Эта функция особенно полезна, когда отправляется много запросов с одинаковым началом. Вероятно, ваш случай подходит, особенно если вы используете RAG
Retrieval-Augmented Generation (RAG) — это архитектура, в которой LLM использует внешние источники для получения дополнительной информации, улучшая ответы.


Что считается совпадением?
Промпт должен совпадать с точностью до символа: пробелы, порядок строк и даже кавычки имеют значение. Кеш работает блоками: 1024, 1152, 1280 токенов и далее с шагом 128 токенов (в зависимости от длины вашего входного промпта).

Что кешируется?

  • System-промпт

  • Инструкции, примеры, структура вывода

  • Список инструментов

  • Изображения (когда они передаются в формате base64 и если они одинаковые каждый раз)



Важно: все эти элементы должны находиться в начале промпта.

Как понять, что кеш сработал?
Обратите внимание на поле cached_tokens в ответе API. Если значение больше нуля, это означает, что часть промпта была взята из кеша.

Нужно ли что-то включать?
Нет. Кеш работает автоматически, без дополнительных настроек и доплат. Он встроен во все модели, начиная с gpt-4.

Рекомендации:

  • Фиксируйте начало промпта (префикс должен оставаться статичным).

  • Избегайте мелких правок и случайных изменений.

  • Динамический контент размещайте в конце.



Если вы работаете с длинными и повторяющимися промптами, кеширование — это то, что вам нужно.

Подробнее о кешировании в OpenAI API можно прочитать здесь.
Как сократить расходы на длинные промпты в OpenAI API до 4 раз
Link copied