feedback
LongCat-Video

Бдительные подписчики не дадут пропустить выход нового видеогенератора даже в выходной

Новая базовая (не является доработкой WAN или другого видеогенератора) опенсорсная модель видеогенерации на 13.6B параметров

Умеет создавать видео по тексту, картинке и продлевать исходное видео. Все это делает одна модель, а не разные ее модицфикации как у WAN

Основная особенность - создает длинные видео (несколько минут) не теряя связности и не деградируя.

Выдает 189 кадров в 720p за 142 секунды на H800. 16/5 шагов с flash attention 3.

Авторы использовали обучение с подкреплением по методу GRPO (как в BLIP3o-NEXT)

Позиционируют модель как "первый шаг к модели мира"

Гитхаб
HF - там только текстовый энкодер на 23 ГБ, а DIT на 55 ГБ

Ждем кванты и воркфлоу?

Спасибо @m_franz

#text2video #image2video #video2video
Link copied