Представлен Video4Spatial – видеогенератор, демонстрирующий визуально-пространственный интеллект, используя исключительно визуальные данные. Система способна:
Решение разработано на базе WAN 2.2.
- Выполнять сложные пространственные задачи, опираясь на контекст видео.
- Планировать навигацию и определять целевые объекты.
- Следовать инструкциям по управлению камерой, сохраняя пространственную согласованность.
- Обобщать на длинные контексты и среды, не использовавшиеся при обучении.
- Понимать семантическую структуру сцены и локализовать объекты по текстовым инструкциям.
- Генерировать видео, которое соответствует заданным инструкциям и сохраняет геометрию сцены.
Решение разработано на базе WAN 2.2.