Представлен проект MoCha, который позиционируется как потенциальный «убийца» Hedra. Этот проект специализируется на генеративном липсинге, то есть создает видео, где движения губ персонажа синхронизированы с речью.
MoCha генерирует не только говорящую голову, но и почти всё тело, включая руки, что делает результат более живым и реалистичным благодаря использованию языка тела. Разработчики утверждают, что научились создавать диалоги между двумя и более людьми с переключением камеры, сохраняя консистентность, хотя и не предоставили примеров.
В основе MoCha лежит обычная диффузионная модель, обученная на текстах, видео и речи без каких-либо дополнительных улучшений. Из ограничений: нативная работа с img2video не поддерживается, но команда, возможно, найдет решение в будущем.
Интересно, что обучение модели проходило в четыре этапа: сначала предварительное обучение на чистом text-to-video (20% времени), что добавило динамики, затем фокусировка на крупных планах (close-up), и постепенное отдаление камеры. Также была разработана технология speech-video window attention, ограничивающая область внимания модели для повышения точности липсинга. Важно отметить, что генерация происходит не в реальном времени.
Пейпер
Project page
MoCha генерирует не только говорящую голову, но и почти всё тело, включая руки, что делает результат более живым и реалистичным благодаря использованию языка тела. Разработчики утверждают, что научились создавать диалоги между двумя и более людьми с переключением камеры, сохраняя консистентность, хотя и не предоставили примеров.
В основе MoCha лежит обычная диффузионная модель, обученная на текстах, видео и речи без каких-либо дополнительных улучшений. Из ограничений: нативная работа с img2video не поддерживается, но команда, возможно, найдет решение в будущем.
Интересно, что обучение модели проходило в четыре этапа: сначала предварительное обучение на чистом text-to-video (20% времени), что добавило динамики, затем фокусировка на крупных планах (close-up), и постепенное отдаление камеры. Также была разработана технология speech-video window attention, ограничивающая область внимания модели для повышения точности липсинга. Важно отметить, что генерация происходит не в реальном времени.
Пейпер
Project page