Apple выпустила FastVLM и MobileCLIP2 на Hugging Face: мгновенная обработка видео на устройстве

Apple представила FastVLM и MobileCLIP2 — новые семейства быстрых и легких визуальных языковых моделей (VLM), предназначенных для эффективной работы прямо на устройствах. FastVLM теперь доступна на Hugging Face.

Эти модели, разработанные Apple, доступны в нескольких размерах: 0.5B, 1.5B и 7B параметров. Их ключевая особенность — способность функционировать непосредственно на смартфоне, что открывает широкие возможности для развития мобильного искусственного интеллекта.

По сравнению с предыдущими решениями, FastVLM обеспечивает 85-кратный прирост скорости и 3.4-кратное уменьшение размера, что позволяет обрабатывать изображения и видео в реальном времени прямо на устройстве. Это открывает возможности для создания субтитров к видео в реальном времени в браузере без необходимости доступа к облачным сервисам.

"Визуальные языковые модели (VLM) — это тип нейронных сетей, который способен понимать и генерировать текст на основе визуальной информации (изображений и видео), а также отвечать на вопросы о содержимом этих медиафайлов."

FastVLM и MobileCLIP2 могут стать основой для создания более умных и быстрых мобильных ассистентов, систем обработки изображений в реальном времени и других приложений, требующих глубокого понимания визуального контента без задержек и необходимости постоянного подключения к облачным сервисам.

Более подробную информацию и возможность ознакомиться с кодом можно найти по ссылкам:
GitHub
HuggingFace
FastVLM WebGPU Demo

AI саммари

Apple выпустила FastVLM и MobileCLIP2 на Hugging Face: мгновенная обработка видео на устройстве