ПРОЕКТ: МоЧА
Да, первого апреля только такие новости, но это настоящая... (Пощу с небольшим опозданием)
Можно сказать, это убийца Hedra. Кстати, статейка от ребят из моей команды в Мете.
Проект специализируется на генеративном липсинке по тексту и речи — и генерит не просто говорящую голову, а почти всё тело, включая руки. Это даёт гораздо более живой результат, так как подключается язык тела. Ещё научились делать целый диалог двух или даже более человек (диалог в формате «через плечо» с катом между кадрами, но консистентно). Хотя, примеров не дают.
Это обычная диффузионка, причём тренили без всяких примочек — чисто текст, видео и речь. Из минусов — то, что img2video нативно работать не будет, но что-то может и придумают. Ещё интересно, что тренили в 4 стадии:
сначала претрейн на чистом text-to-video (примерно 20%, что дало больше динамики в кадре), затем только close-up, а потом потихоньку отдаляли камеру. Ну и ещё изобрели speech-video window attention, которое ограничивает окно внимания модельки для более точного липсинка.
Генерация, конечно же не онлайн.
Пейпер
Project page
@ai_newz
Да, первого апреля только такие новости, но это настоящая... (Пощу с небольшим опозданием)
Можно сказать, это убийца Hedra. Кстати, статейка от ребят из моей команды в Мете.
Проект специализируется на генеративном липсинке по тексту и речи — и генерит не просто говорящую голову, а почти всё тело, включая руки. Это даёт гораздо более живой результат, так как подключается язык тела. Ещё научились делать целый диалог двух или даже более человек (диалог в формате «через плечо» с катом между кадрами, но консистентно). Хотя, примеров не дают.
Это обычная диффузионка, причём тренили без всяких примочек — чисто текст, видео и речь. Из минусов — то, что img2video нативно работать не будет, но что-то может и придумают. Ещё интересно, что тренили в 4 стадии:
сначала претрейн на чистом text-to-video (примерно 20%, что дало больше динамики в кадре), затем только close-up, а потом потихоньку отдаляли камеру. Ну и ещё изобрели speech-video window attention, которое ограничивает окно внимания модельки для более точного липсинка.
Генерация, конечно же не онлайн.
Пейпер
Project page
@ai_newz