feedback
Video4Spatial

Видеогенератор демонстрирует визуально-пространственный интеллект, используя только визуальные данные.

— выполняет сложные пространственные задачи, опираясь исключительно на контекст видео

— планирует навигацию и определяет целевые объекты

— следует инструкциям по управлению камерой, сохраняя пространственную согласованность

— обобщает на длинные контексты и среды, не использовавшиеся при обучении

— понимает семантическую структуру сцены и может локализовать объекты по текстовым инструкциям

— генерирует видео, которое соответствует заданным инструкциям и сохраняет геометрию сцены

На базе WAN 2.2

#research
Link copied