ZeroSearch — это фреймворк на базе обучения с подкреплением (RL) от Alibaba, который позволяет обучать языковые модели поиску информации, не используя при этом реальные поисковые системы.
Пайплайн ZeroSearch начинается с тонкой настройки (SFT), где модель обучается генерировать документы, имитирующие выдачу настоящих поисковиков. С помощью промптов, таких как «создай пять полезных/мусорных документов», большая языковая модель (LLM) осваивает два режима: генерацию релевантных ответов с правильными фактами и создание «мусора» со случайной информацией.
Затем в процесс включается RL. Модель-агент взаимодействует с этим «виртуальным поисковиком»: сначала размышляет в тегах
По мере обучения сложность задачи постепенно увеличивается. На начальном этапе 90% документов являются «чистыми», чтобы агент освоил базовую логику. С каждым шагом доля шума увеличивается по определенной формуле: после 200 итераций вероятность получить бесполезный документ возрастает в четыре раза. Это вынуждает модель учиться фильтровать информацию даже в условиях хаоса.
Чтобы избежать «смешивания» собственных выводов агента и сгенерированных документов, в градиентах маскируются токены чужих ответов. Таким образом, фокус остается на улучшении стратегии поиска, а не на подгонке под шум.
В результате получается автономный агент, который не только ищет, но и учится определять, когда искать, как правильно формулировать запросы и что следует игнорировать. И все это без использования реальных API, только симуляция и математические методы.
Экспериментальные тесты показывают позитивные результаты. На датасете NQ ZeroSearch с моделью Qwen-2.5-7B-Instruct продемонстрировала 43.24% точности (EM), опередив Search-R1 с его 41.46%, хотя последний использует реальный Google. Для многосложных вопросов в HotpotQA разрыв еще более заметен: 29.21% против 34.55% у конкурента.
Примечательно, что 14B-версия модели превосходит реальный поисковик по среднему показателю: 33.97% против 32.47% у Google. Также интересно, как масштаб влияет на результат: 3B модель показывает 33.97% точности, 7B — 38.61%, а 14B — уже 40.54%.
На Hugging Face опубликованы Simulation модели с 3, 7 и 14 млрд параметров, предназначенные для имитации работы поисковых систем в рамках фреймворка ZeroSearch. Их задача — генерировать документы двух типов:
В промпте к этим моделям необходимо добавить метки
Готовые модели на базе Qwen2.5 и Llama2.5 с ZeroSearch доступны в коллекции.
ZEROSEARCH основан на ключевом наблюдении: LLM уже приобрели обширные общие знания в процессе предварительного обучения и способны генерировать релевантные документы в ответ на поисковые запросы. Свежие подходы сталкиваются с двумя проблемами: непредсказуемым качеством документов из поисковых систем и высокими затратами на API при обучении.
Фреймворк Zerosearch включает три ключевых компонента:
1. Симуляция поисковой системы: через supervised fine-tuning LLM генерирует как релевантные ответы, так и зашумленные документы путем изменения нескольких слов в промпте.
2. Во время RL-тренировки ZEROSEARCH использует стратегию curriculum-based rollout, которая постепенно снижает качество генерируемых документов. Подход последовательно развивает способность модели к рассуждению, прибегая ко всё более сложным сценариям.
3. Низкие затраты на обучение по сравнению с использованием коммерческих поисковых API. Реализация подхода требует GPU-инфраструктуры, но он снижает затраты на обучение на 88%.
В результате 7B-модель достигла производительности, сравнимой с использованием реальной поисковой системы для обучения. Модель с 14B параметров превосходит производительность модели, обученной на данных из реальной поисковой системы сразу на нескольких бенчмарках.
Исследователи опубликовали в открытом доступе реализацию кода, датасеты и предварительно обученные модели.
Пайплайн ZeroSearch начинается с тонкой настройки (SFT), где модель обучается генерировать документы, имитирующие выдачу настоящих поисковиков. С помощью промптов, таких как «создай пять полезных/мусорных документов», большая языковая модель (LLM) осваивает два режима: генерацию релевантных ответов с правильными фактами и создание «мусора» со случайной информацией.
Затем в процесс включается RL. Модель-агент взаимодействует с этим «виртуальным поисковиком»: сначала размышляет в тегах
<think>
, затем генерирует поисковые запросы через <search>
, а получив смоделированные документы, формирует окончательный ответ в <answer>
.По мере обучения сложность задачи постепенно увеличивается. На начальном этапе 90% документов являются «чистыми», чтобы агент освоил базовую логику. С каждым шагом доля шума увеличивается по определенной формуле: после 200 итераций вероятность получить бесполезный документ возрастает в четыре раза. Это вынуждает модель учиться фильтровать информацию даже в условиях хаоса.
Чтобы избежать «смешивания» собственных выводов агента и сгенерированных документов, в градиентах маскируются токены чужих ответов. Таким образом, фокус остается на улучшении стратегии поиска, а не на подгонке под шум.
В результате получается автономный агент, который не только ищет, но и учится определять, когда искать, как правильно формулировать запросы и что следует игнорировать. И все это без использования реальных API, только симуляция и математические методы.
Экспериментальные тесты показывают позитивные результаты. На датасете NQ ZeroSearch с моделью Qwen-2.5-7B-Instruct продемонстрировала 43.24% точности (EM), опередив Search-R1 с его 41.46%, хотя последний использует реальный Google. Для многосложных вопросов в HotpotQA разрыв еще более заметен: 29.21% против 34.55% у конкурента.
Примечательно, что 14B-версия модели превосходит реальный поисковик по среднему показателю: 33.97% против 32.47% у Google. Также интересно, как масштаб влияет на результат: 3B модель показывает 33.97% точности, 7B — 38.61%, а 14B — уже 40.54%.
На Hugging Face опубликованы Simulation модели с 3, 7 и 14 млрд параметров, предназначенные для имитации работы поисковых систем в рамках фреймворка ZeroSearch. Их задача — генерировать документы двух типов:
- Релевантные (содержащие точные ответы на запросы);
- Зашумленные (включающие нерелевантный текст, ошибки или отвлеченные факты).
В промпте к этим моделям необходимо добавить метки
[useful]
или [noisy]
. При инференсе модель возвращает 5 документов заданного типа.Готовые модели на базе Qwen2.5 и Llama2.5 с ZeroSearch доступны в коллекции.
ZEROSEARCH основан на ключевом наблюдении: LLM уже приобрели обширные общие знания в процессе предварительного обучения и способны генерировать релевантные документы в ответ на поисковые запросы. Свежие подходы сталкиваются с двумя проблемами: непредсказуемым качеством документов из поисковых систем и высокими затратами на API при обучении.
Фреймворк Zerosearch включает три ключевых компонента:
1. Симуляция поисковой системы: через supervised fine-tuning LLM генерирует как релевантные ответы, так и зашумленные документы путем изменения нескольких слов в промпте.
2. Во время RL-тренировки ZEROSEARCH использует стратегию curriculum-based rollout, которая постепенно снижает качество генерируемых документов. Подход последовательно развивает способность модели к рассуждению, прибегая ко всё более сложным сценариям.
3. Низкие затраты на обучение по сравнению с использованием коммерческих поисковых API. Реализация подхода требует GPU-инфраструктуры, но он снижает затраты на обучение на 88%.
В результате 7B-модель достигла производительности, сравнимой с использованием реальной поисковой системы для обучения. Модель с 14B параметров превосходит производительность модели, обученной на данных из реальной поисковой системы сразу на нескольких бенчмарках.
Исследователи опубликовали в открытом доступе реализацию кода, датасеты и предварительно обученные модели.

