HumanOmniV2 от Alibaba: Модель для понимания контекста видео

Alibaba Group разработала HumanOmniV2, модель на базе Qwen2.5-Omni-7B-thinker, которая научилась осмысливать визуальный контекст, изменив сам процесс мышления. Модель обучена строгому формату: сначала описание контекста, затем рассуждение и только потом ответ.

Теперь, перед ответом на вопрос, модель генерирует подробное описание сцены в теге <context>, фиксируя действия, фон и звуки. Затем, в теге <think>, строится логическая цепочка рассуждений, связывающая вопрос с контекстом. И только в конце выдается результат в теге <answer>.

Для улучшения работы подхода использована система вознаграждений на основе RL

RL (Reinforcement Learning) - метод машинного обучения, в котором система обучается, взаимодействуя с окружающей средой и получая награды или штрафы за свои действия.

. За точность и правильный формат модель получает стандартные награды, а также две новых:

🟢«Награда за контекст» дается за полное и релевантное описание, оцениваемое другой, более мощной LLM

LLM (Large Language Model) - большая языковая модель, обученная на огромных объемах текста для генерации, понимания и перевода языков.

;

🟢«Логическая награда» проверяет использование данных из видео и аудио в рассуждениях.

Для оценки HumanOmniV2 создан бенчмарк IntentBench (633 видео, 2689 вопросов) на основе Social-IQ 2.0, EMER и MDPE.

Его особенность в одновременном анализе видеоряда (жесты, микровыражения), диалогов (тон, смысл реплик) и социального контекста (ирония, обман, скрытые намерения).

Тестовая модель превзошла открытые аналоги на 3 бенчмарках:

🟠Daily-Omni: 58.47% (53.13% у MiniCPM-o 2.6);
🟠WorldSense: 47.1% (45.4% у Qwen2.5-Omni);
🟠IntentBench: 69.33% (64.20% у Qwen2.5-Omni).

📌Лицензирование: Apache 2.0 License.

🟡

Модель

🟡

Arxiv

🖥

GitHub

Ресерч.
Если встретите название HumanOmniV2, не путайте его с OmniHuman

Проект HumanOmniV2 от Alibaba направлен на улучшение способности больших языковых моделей (LLM) понимать и интерпретировать человеческие намерения и эмоции через мультимодальные данные.

Если кому нужен код, вот

Код

HumanOmniV2 от Alibaba: Модель для понимания контекста видео

AI саммари

HumanOmniV2 от Alibaba: Модель для понимания контекста видео