Video4Spatial
Видеогенератор демонстрирует визуально-пространственный интеллект, используя только визуальные данные.
— выполняет сложные пространственные задачи, опираясь исключительно на контекст видео
— планирует навигацию и определяет целевые объекты
— следует инструкциям по управлению камерой, сохраняя пространственную согласованность
— обобщает на длинные контексты и среды, не использовавшиеся при обучении
— понимает семантическую структуру сцены и может локализовать объекты по текстовым инструкциям
— генерирует видео, которое соответствует заданным инструкциям и сохраняет геометрию сцены
На базе WAN 2.2
#research
Видеогенератор демонстрирует визуально-пространственный интеллект, используя только визуальные данные.
— выполняет сложные пространственные задачи, опираясь исключительно на контекст видео
— планирует навигацию и определяет целевые объекты
— следует инструкциям по управлению камерой, сохраняя пространственную согласованность
— обобщает на длинные контексты и среды, не использовавшиеся при обучении
— понимает семантическую структуру сцены и может локализовать объекты по текстовым инструкциям
— генерирует видео, которое соответствует заданным инструкциям и сохраняет геометрию сцены
На базе WAN 2.2
#research