Как сократить расходы на длинные промпты в OpenAI API до 4 раз

Если ваш стартап, продукт или сервис часто отправляет в OpenAI один и тот же системный промпт, вы можете существенно сократить расходы благодаря функции кеширования (Prompt Caching). Многие об этом не знают и не используют эту возможность в полной мере.

Prompt Caching - это механизм, при котором система запоминает и повторно использует ранее обработанные запросы, чтобы ускорить обработку и снизить затраты.

Что это такое?
OpenAI автоматически кеширует начало промпта (префикс), если оно уже обрабатывалось недавно. Это позволяет избежать повторного вычисления при каждом запросе.

Результат:

Задержка может снизиться до 80%

Стоимость токенов для префикса — до 50%

Когда работает кеш?

Срабатывает, если промпт длиннее 1024 токенов.

Проверяется, использовался ли этот префикс недавно.

Время жизни кеша — от 5 до 10 минут, иногда до часа (если не было запросов, кеш очищается).

Эта функция особенно полезна, когда отправляется много запросов с одинаковым началом. Вероятно, ваш случай подходит, особенно если вы используете RAG

Retrieval-Augmented Generation (RAG) — это архитектура, в которой LLM использует внешние источники для получения дополнительной информации, улучшая ответы.

Что считается совпадением?
Промпт должен совпадать с точностью до символа: пробелы, порядок строк и даже кавычки имеют значение. Кеш работает блоками: 1024, 1152, 1280 токенов и далее с шагом 128 токенов (в зависимости от длины вашего входного промпта).

Что кешируется?

System-промпт

Инструкции, примеры, структура вывода

Список инструментов

Изображения (когда они передаются в формате base64 и если они одинаковые каждый раз)

Важно: все эти элементы должны находиться в начале промпта.

Как понять, что кеш сработал?
Обратите внимание на поле cached_tokens в ответе API. Если значение больше нуля, это означает, что часть промпта была взята из кеша.

Нужно ли что-то включать?
Нет. Кеш работает автоматически, без дополнительных настроек и доплат. Он встроен во все модели, начиная с gpt-4.

Рекомендации:

Фиксируйте начало промпта (префикс должен оставаться статичным).

Избегайте мелких правок и случайных изменений.

Динамический контент размещайте в конце.

Если вы работаете с длинными и повторяющимися промптами, кеширование — это то, что вам нужно.

Подробнее о кешировании в OpenAI API можно прочитать здесь.

Как сократить расходы на длинные промпты в OpenAI API до 4 раз

AI саммари

Как сократить расходы на длинные промпты в OpenAI API до 4 раз