🌟 olmOCR — инструмент для обработки PDF-документов и изображений.
OlmOCR — это проект, который преобразует PDF-файлы и изображения документов в структурированный текст формата Markdown. Он умеет работать с уравнениями, таблицами и даже рукописным текстом, при этом сохраняя правильный порядок чтения, даже если у документа сложный многоколоночный макет.
OlmOCR обучен распознавать эвристические признаки, чтобы обрабатывать распространенные ошибки парсинга и метаданные. Он поддерживает работу в SGLang и vLLM, что позволяет масштабировать его от одного до сотен GPU, делая его подходящим решением для крупных задач.
Главное преимущество olmOCR — его экономичность. Обработка миллиона страниц PDF обойдется всего в $190 при аренде GPU. Это примерно в 32 раза дешевле, чем использование API GPT-4o для того же объема работы.
Команда разработчиков создала уникальный метод «document anchoring» (привязка документа), чтобы улучшить качество извлеченного текста. Этот метод использует текст и метаданные из PDF-файлов, чтобы повысить точность обработки. Области изображений и текстовые блоки извлекаются, объединяются и вставляются в промпт модели. Когда VLM запрашивает текстовую версию документа, «привязанный» текст используется вместе с изображением страницы.
В тестах olmOCR показал хорошие результаты по сравнению с Marker, MinerU и GOT-OCR 2.0. В ходе тестирования olmOCR оказался предпочтительнее в 61,3% случаев против Marker, в 58,6% — против GOT-OCR и в 71,4% — против MinerU.
▶️ Релиз olmOCR:
🟢 Модель olmOCR-7B-0225-preview — это модель Qwen2-VL-7B-Instruct, дообученная на датасете olmOCR-mix-0225.
🟢 Датасет olmOCR-mix-0225 содержит более 250 тысяч страниц цифровых книг и документов из публичного доступа, распознанных с помощью gpt-4o-2024-08-06 и специальной стратегии промптов, которая сохраняет все цифровое содержимое каждой страницы.
🟢 Набор кода для инференса и обучения.
▶️ Рекомендованная среда для инференса:
🟠 NVIDIA GPU (RTX 4090 и выше)
🟠 30 GB свободного пространства на SSD \ HDD
🟠 установленный пакет
🟠
▶️ Локальная установка и запуск:
📌 Лицензирование: Apache 2.0 License.
🟡 Статья
🟡 Demo
🟡 Модель
🟡 Arxiv
🟡 Сообщество в Discord
🖥 Github
@ai_machinelearning_big_data
OlmOCR — это проект, который преобразует PDF-файлы и изображения документов в структурированный текст формата Markdown. Он умеет работать с уравнениями, таблицами и даже рукописным текстом, при этом сохраняя правильный порядок чтения, даже если у документа сложный многоколоночный макет.
OlmOCR обучен распознавать эвристические признаки, чтобы обрабатывать распространенные ошибки парсинга и метаданные. Он поддерживает работу в SGLang и vLLM, что позволяет масштабировать его от одного до сотен GPU, делая его подходящим решением для крупных задач.
Главное преимущество olmOCR — его экономичность. Обработка миллиона страниц PDF обойдется всего в $190 при аренде GPU. Это примерно в 32 раза дешевле, чем использование API GPT-4o для того же объема работы.
Команда разработчиков создала уникальный метод «document anchoring» (привязка документа), чтобы улучшить качество извлеченного текста. Этот метод использует текст и метаданные из PDF-файлов, чтобы повысить точность обработки. Области изображений и текстовые блоки извлекаются, объединяются и вставляются в промпт модели. Когда VLM запрашивает текстовую версию документа, «привязанный» текст используется вместе с изображением страницы.
В тестах olmOCR показал хорошие результаты по сравнению с Marker, MinerU и GOT-OCR 2.0. В ходе тестирования olmOCR оказался предпочтительнее в 61,3% случаев против Marker, в 58,6% — против GOT-OCR и в 71,4% — против MinerU.
▶️ Релиз olmOCR:
🟢 Модель olmOCR-7B-0225-preview — это модель Qwen2-VL-7B-Instruct, дообученная на датасете olmOCR-mix-0225.
🟢 Датасет olmOCR-mix-0225 содержит более 250 тысяч страниц цифровых книг и документов из публичного доступа, распознанных с помощью gpt-4o-2024-08-06 и специальной стратегии промптов, которая сохраняет все цифровое содержимое каждой страницы.
🟢 Набор кода для инференса и обучения.
▶️ Рекомендованная среда для инференса:
🟠 NVIDIA GPU (RTX 4090 и выше)
🟠 30 GB свободного пространства на SSD \ HDD
🟠 установленный пакет
poppler-utils
🟠
sglang
с flashinfer
для GPU-инференса▶️ Локальная установка и запуск:
# Install dependencies
sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools
# Set up a conda env
conda create -n olmocr python=3.11
conda activate olmocr
git clone https://github.com/allenai/olmocr.git
cd olmocr
pip install -e .
# Convert a Single PDF
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/test.pdf
# Convert Multiple PDFs
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/*.pdf{}
📌 Лицензирование: Apache 2.0 License.
🟡 Статья
🟡 Demo
🟡 Модель
🟡 Arxiv
🟡 Сообщество в Discord
🖥 Github
@ai_machinelearning_big_data

