Alibaba Group разработала HumanOmniV2, модель на базе
Теперь, перед ответом на вопрос, модель генерирует подробное описание сцены в теге
Для улучшения работы подхода использована система вознаграждений на основе RL
🟢 «Награда за контекст» дается за полное и релевантное описание, оцениваемое другой, более мощной LLM
🟢 «Логическая награда» проверяет использование данных из видео и аудио в рассуждениях.
Для оценки HumanOmniV2 создан бенчмарк IntentBench (633 видео, 2689 вопросов) на основе Social-IQ 2.0, EMER и MDPE.
Его особенность в одновременном анализе видеоряда (жесты, микровыражения), диалогов (тон, смысл реплик) и социального контекста (ирония, обман, скрытые намерения).
Тестовая модель превзошла открытые аналоги на 3 бенчмарках:
🟠 Daily-Omni: 58.47% (53.13% у MiniCPM-o 2.6);
🟠 WorldSense: 47.1% (45.4% у Qwen2.5-Omni);
🟠 IntentBench: 69.33% (64.20% у Qwen2.5-Omni).
📌 Лицензирование: Apache 2.0 License.
🟡 Модель
🟡 Arxiv
🖥 GitHub
Ресерч.
Если встретите название HumanOmniV2, не путайте его с OmniHuman
Проект HumanOmniV2 от Alibaba направлен на улучшение способности больших языковых моделей (LLM) понимать и интерпретировать человеческие намерения и эмоции через мультимодальные данные.
Если кому нужен код, вот
Код
Qwen2.5-Omni-7B-thinker
, которая научилась осмысливать визуальный контекст, изменив сам процесс мышления. Модель обучена строгому формату: сначала описание контекста, затем рассуждение и только потом ответ.Теперь, перед ответом на вопрос, модель генерирует подробное описание сцены в теге
<context>
, фиксируя действия, фон и звуки. Затем, в теге <think>
, строится логическая цепочка рассуждений, связывающая вопрос с контекстом. И только в конце выдается результат в теге <answer>
.Для улучшения работы подхода использована система вознаграждений на основе RL
RL (Reinforcement Learning) - метод машинного обучения, в котором система обучается, взаимодействуя с окружающей средой и получая награды или штрафы за свои действия.
. За точность и правильный формат модель получает стандартные награды, а также две новых:
LLM (Large Language Model) - большая языковая модель, обученная на огромных объемах текста для генерации, понимания и перевода языков.
;Для оценки HumanOmniV2 создан бенчмарк IntentBench (633 видео, 2689 вопросов) на основе Social-IQ 2.0, EMER и MDPE.
Его особенность в одновременном анализе видеоряда (жесты, микровыражения), диалогов (тон, смысл реплик) и социального контекста (ирония, обман, скрытые намерения).
Тестовая модель превзошла открытые аналоги на 3 бенчмарках:
Ресерч.
Если встретите название HumanOmniV2, не путайте его с OmniHuman
Проект HumanOmniV2 от Alibaba направлен на улучшение способности больших языковых моделей (LLM) понимать и интерпретировать человеческие намерения и эмоции через мультимодальные данные.
Если кому нужен код, вот
Код

