LongCat-Video
Бдительные подписчики не дадут пропустить выход нового видеогенератора даже в выходной
Новая базовая (не является доработкой WAN или другого видеогенератора) опенсорсная модель видеогенерации на 13.6B параметров
Умеет создавать видео по тексту, картинке и продлевать исходное видео. Все это делает одна модель, а не разные ее модицфикации как у WAN
Основная особенность - создает длинные видео (несколько минут) не теряя связности и не деградируя.
Выдает 189 кадров в 720p за 142 секунды на H800. 16/5 шагов с flash attention 3.
Авторы использовали обучение с подкреплением по методу GRPO (как в BLIP3o-NEXT)
Позиционируют модель как "первый шаг к модели мира"
Гитхаб
HF - там только текстовый энкодер на 23 ГБ, а DIT на 55 ГБ
Ждем кванты и воркфлоу?
Спасибо @m_franz
#text2video #image2video #video2video
Бдительные подписчики не дадут пропустить выход нового видеогенератора даже в выходной
Новая базовая (не является доработкой WAN или другого видеогенератора) опенсорсная модель видеогенерации на 13.6B параметров
Умеет создавать видео по тексту, картинке и продлевать исходное видео. Все это делает одна модель, а не разные ее модицфикации как у WAN
Основная особенность - создает длинные видео (несколько минут) не теряя связности и не деградируя.
Выдает 189 кадров в 720p за 142 секунды на H800. 16/5 шагов с flash attention 3.
Авторы использовали обучение с подкреплением по методу GRPO (как в BLIP3o-NEXT)
Позиционируют модель как "первый шаг к модели мира"
Гитхаб
HF - там только текстовый энкодер на 23 ГБ, а DIT на 55 ГБ
Ждем кванты и воркфлоу?
Спасибо @m_franz
#text2video #image2video #video2video