feedback

AI саммари

Apple выпустила FastVLM и MobileCLIP2 на Hugging Face, обеспечивающие значительное увеличение скорости и уменьшение размера моделей для обработки видео в реальном времени прямо на устройствах. Это позволяет создавать приложения, такие как генерация субтитров в реальном времени, без необходимости подключения к облаку, что открывает новые возможности для мобильного AI.
от FlowFeed AI
Обновлено: 8 hours ago
Apple представила FastVLM и MobileCLIP2 — новые семейства быстрых и легких визуальных языковых моделей (VLM), предназначенных для эффективной работы прямо на устройствах. FastVLM теперь доступна на Hugging Face.

Эти модели, разработанные Apple, доступны в нескольких размерах: 0.5B, 1.5B и 7B параметров. Их ключевая особенность — способность функционировать непосредственно на смартфоне, что открывает широкие возможности для развития мобильного искусственного интеллекта.

По сравнению с предыдущими решениями, FastVLM обеспечивает 85-кратный прирост скорости и 3.4-кратное уменьшение размера, что позволяет обрабатывать изображения и видео в реальном времени прямо на устройстве. Это открывает возможности для создания субтитров к видео в реальном времени в браузере без необходимости доступа к облачным сервисам.

"Визуальные языковые модели (VLM) — это тип нейронных сетей, который способен понимать и генерировать текст на основе визуальной информации (изображений и видео), а также отвечать на вопросы о содержимом этих медиафайлов."


FastVLM и MobileCLIP2 могут стать основой для создания более умных и быстрых мобильных ассистентов, систем обработки изображений в реальном времени и других приложений, требующих глубокого понимания визуального контента без задержек и необходимости постоянного подключения к облачным сервисам.

Более подробную информацию и возможность ознакомиться с кодом можно найти по ссылкам:
GitHub
HuggingFace
FastVLM WebGPU Demo
Link copied