feedback

AI саммари

Статья «Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index» была признана лучшей на EMNLP2025. Она предлагает революционный подход к поиску n-грамм в петабайтных текстовых корпусах, используя FM-Index и суффиксные массивы. Это решение значительно повышает эффективность хранения, скорость индексации и снижает потребление памяти, открывая новые возможности для RAG систем и обработки больших данных.
от FlowFeed AI
Обновлено: 7 hours ago

Представьте, что вы можете мгновенно искать по триллионам токенов, находить точные совпадения и при этом тратить минимум ресурсов. Недавно на конференции EMNLP2025 (одной из ведущих в области обработки естественного языка) лучшей работой была признана статья, предлагающая именно такое решение: «Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index».



Это исследование представляет собой прорыв в создании систем для точного поиска n-грамм в сверхбольших текстовых корпусах. Для тех, кто не знаком с термином:

"N-граммы — это непрерывные последовательности из n элементов (например, слов или символов) в данном тексте. N-граммный поиск — это подход, похожий на TF-IDF, основанный на поиске совпадений в строках путем сравнения общих n-грамм токенов или символов."
Он может быть особенно интересен тем, кто разрабатывает
"RAG (Retrieval-Augmented Generation) — это архитектура языковых моделей, которая улучшает генерацию ответов за счет поиска релевантной информации из большой базы знаний."
системы, использующие BM25 индексы и аналогичные подходы, например, SPLADE.



Зачем это нужно? Проблема масштаба


Современные языковые модели обучаются на колоссальных объемах текстовых данных из интернета. Понимание этих данных критически важно. Точный поиск по таким корпусам позволяет не только подсчитывать вхождения строк, но и находить исходные документы. Однако существующие системы сталкиваются с серьезными трудностями при работе с данными петабайтного масштаба из-за высоких требований к хранилищу и производительности. Авторы статьи поставили амбициозную задачу: создать эффективную и масштабируемую систему, которая сделает эти гигантские текстовые массивы легкодоступными для поиска.



Революционная идея: FM-Index и Infini-gram mini


Основная инновация алгоритма заключается в использовании FM-Index (Full Text Minute Index). Этот метод, разработанный Феррагиной и Манзини, уникален тем, что одновременно индексирует и сжимает текст. Это позволяет достичь невероятных показателей:



  • Эффективность хранения: Infini-gram mini создает индекс, размер которого составляет всего 44% от исходного текстового корпуса. Это значительно превосходит существующие реализации FM-Index.

  • Производительность индексации: Скорость индексации повышается в 18 раз по сравнению с традиционными методами.

  • Снижение использования памяти: Потребление памяти в процессе индексации сокращается в 3.2 раза, а при выполнении запросов — до практически незначительного уровня.



Infini-gram работает принципиально иначе, чем традиционные модели n-грамм. Вместо заранее вычисленных таблиц частот, которые для больших N становятся астрономически огромными (например, 5-граммная таблица для 1.4 триллиона токенов заняла бы около 28 ТБ), он использует структуру данных суффиксный массив всего корпуса текстов. Это позволяет обрабатывать n-граммы практически неограниченной длины с очень низкой задержкой, делая ранее невозможные задачи реальными.



Применение и перспективы


Итак, зачем все это нам? Недавно мы обсуждали, как можно использовать поиск, встроенный в файловую систему, для эффективной работы RAG и механизмов памяти в AI-системах. Подход с Infini-gram + FM-Index может стать мощной альтернативой для агентных систем с памятью, позволяя им эффективно работать с огромными массивами данных. И, конечно, это значительно упрощает прямую задачу — фильтрацию и анализ очень больших наборов текстовых данных.

Infini-gram mini и FM-Index: Революция в поиске n-грамм для петабайтных корпусов
Link copied