ZeroSearch: фреймворк для обучения LLM поиску с экономией до 88%

ZeroSearch — это фреймворк на базе обучения с подкреплением (RL) от Alibaba, который позволяет обучать языковые модели поиску информации, не используя при этом реальные поисковые системы.

Пайплайн ZeroSearch начинается с тонкой настройки (SFT), где модель обучается генерировать документы, имитирующие выдачу настоящих поисковиков. С помощью промптов, таких как «создай пять полезных/мусорных документов», большая языковая модель (LLM) осваивает два режима: генерацию релевантных ответов с правильными фактами и создание «мусора» со случайной информацией.

Затем в процесс включается RL. Модель-агент взаимодействует с этим «виртуальным поисковиком»: сначала размышляет в тегах <think>, затем генерирует поисковые запросы через <search>, а получив смоделированные документы, формирует окончательный ответ в <answer>.

По мере обучения сложность задачи постепенно увеличивается. На начальном этапе 90% документов являются «чистыми», чтобы агент освоил базовую логику. С каждым шагом доля шума увеличивается по определенной формуле: после 200 итераций вероятность получить бесполезный документ возрастает в четыре раза. Это вынуждает модель учиться фильтровать информацию даже в условиях хаоса.

Чтобы избежать «смешивания» собственных выводов агента и сгенерированных документов, в градиентах маскируются токены чужих ответов. Таким образом, фокус остается на улучшении стратегии поиска, а не на подгонке под шум.

В результате получается автономный агент, который не только ищет, но и учится определять, когда искать, как правильно формулировать запросы и что следует игнорировать. И все это без использования реальных API, только симуляция и математические методы.

Экспериментальные тесты показывают позитивные результаты. На датасете NQ ZeroSearch с моделью Qwen-2.5-7B-Instruct продемонстрировала 43.24% точности (EM), опередив Search-R1 с его 41.46%, хотя последний использует реальный Google. Для многосложных вопросов в HotpotQA разрыв еще более заметен: 29.21% против 34.55% у конкурента.

Примечательно, что 14B-версия модели превосходит реальный поисковик по среднему показателю: 33.97% против 32.47% у Google. Также интересно, как масштаб влияет на результат: 3B модель показывает 33.97% точности, 7B — 38.61%, а 14B — уже 40.54%.

На Hugging Face опубликованы Simulation модели с 3, 7 и 14 млрд параметров, предназначенные для имитации работы поисковых систем в рамках фреймворка ZeroSearch. Их задача — генерировать документы двух типов:

Релевантные (содержащие точные ответы на запросы);

Зашумленные (включающие нерелевантный текст, ошибки или отвлеченные факты).

В промпте к этим моделям необходимо добавить метки [useful] или [noisy]. При инференсе модель возвращает 5 документов заданного типа.

Готовые модели на базе Qwen2.5 и Llama2.5 с ZeroSearch доступны в коллекции.

ZEROSEARCH основан на ключевом наблюдении: LLM уже приобрели обширные общие знания в процессе предварительного обучения и способны генерировать релевантные документы в ответ на поисковые запросы. Свежие подходы сталкиваются с двумя проблемами: непредсказуемым качеством документов из поисковых систем и высокими затратами на API при обучении.

Фреймворк Zerosearch включает три ключевых компонента:

1. Симуляция поисковой системы: через supervised fine-tuning LLM генерирует как релевантные ответы, так и зашумленные документы путем изменения нескольких слов в промпте.

2. Во время RL-тренировки ZEROSEARCH использует стратегию curriculum-based rollout, которая постепенно снижает качество генерируемых документов. Подход последовательно развивает способность модели к рассуждению, прибегая ко всё более сложным сценариям.

3. Низкие затраты на обучение по сравнению с использованием коммерческих поисковых API. Реализация подхода требует GPU-инфраструктуры, но он снижает затраты на обучение на 88%.

В результате 7B-модель достигла производительности, сравнимой с использованием реальной поисковой системы для обучения. Модель с 14B параметров превосходит производительность модели, обученной на данных из реальной поисковой системы сразу на нескольких бенчмарках.

Исследователи опубликовали в открытом доступе реализацию кода, датасеты и предварительно обученные модели.

ZeroSearch: фреймворк для обучения LLM поиску с экономией до 88%

AI саммари

ZeroSearch: фреймворк для обучения LLM поиску с экономией до 88%