olmOCR: Инструмент для преобразования PDF и изображений в текст

🌟 olmOCR — инструмент для обработки PDF-документов и изображений.

OlmOCR — это проект, который преобразует PDF-файлы и изображения документов в структурированный текст формата Markdown. Он умеет работать с уравнениями, таблицами и даже рукописным текстом, при этом сохраняя правильный порядок чтения, даже если у документа сложный многоколоночный макет.

OlmOCR обучен распознавать эвристические признаки, чтобы обрабатывать распространенные ошибки парсинга и метаданные. Он поддерживает работу в SGLang и vLLM, что позволяет масштабировать его от одного до сотен GPU, делая его подходящим решением для крупных задач.

Главное преимущество olmOCR — его экономичность. Обработка миллиона страниц PDF обойдется всего в $190 при аренде GPU. Это примерно в 32 раза дешевле, чем использование API GPT-4o для того же объема работы.

Команда разработчиков создала уникальный метод «document anchoring» (привязка документа), чтобы улучшить качество извлеченного текста. Этот метод использует текст и метаданные из PDF-файлов, чтобы повысить точность обработки. Области изображений и текстовые блоки извлекаются, объединяются и вставляются в промпт модели. Когда VLM запрашивает текстовую версию документа, «привязанный» текст используется вместе с изображением страницы.

В тестах olmOCR показал хорошие результаты по сравнению с Marker, MinerU и GOT-OCR 2.0. В ходе тестирования olmOCR оказался предпочтительнее в 61,3% случаев против Marker, в 58,6% — против GOT-OCR и в 71,4% — против MinerU.

▶️ Релиз olmOCR:

🟢 Модель olmOCR-7B-0225-preview — это модель Qwen2-VL-7B-Instruct, дообученная на датасете olmOCR-mix-0225.

🟢 Датасет olmOCR-mix-0225 содержит более 250 тысяч страниц цифровых книг и документов из публичного доступа, распознанных с помощью gpt-4o-2024-08-06 и специальной стратегии промптов, которая сохраняет все цифровое содержимое каждой страницы.

🟢 Набор кода для инференса и обучения.

▶️ Рекомендованная среда для инференса:

🟠 NVIDIA GPU (RTX 4090 и выше)
🟠 30 GB свободного пространства на SSD \ HDD
🟠 установленный пакет poppler-utils
🟠 sglang с flashinfer для GPU-инференса

▶️ Локальная установка и запуск:



    

        # Install dependencies

sudo apt-get update

sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools



# Set up a conda env 

conda create -n olmocr python=3.11

conda activate olmocr



git clone https://github.com/allenai/olmocr.git

cd olmocr

pip install -e .



# Convert a Single PDF

python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/test.pdf



# Convert Multiple PDFs

python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/*.pdf{}

📌 Лицензирование: Apache 2.0 License.

🟡 Статья
🟡 Demo
🟡 Модель
🟡 Arxiv
🟡 Сообщество в Discord
🖥 Github

@ai_machinelearning_big_data

olmOCR: Инструмент для преобразования PDF и изображений в текст

AI саммари

olmOCR: Инструмент для преобразования PDF и изображений в текст