Apple представила FastVLM и MobileCLIP2 — новые семейства быстрых и легких визуальных языковых моделей (VLM), предназначенных для эффективной работы прямо на устройствах. FastVLM теперь доступна на Hugging Face.
Эти модели, разработанные Apple, доступны в нескольких размерах: 0.5B, 1.5B и 7B параметров. Их ключевая особенность — способность функционировать непосредственно на смартфоне, что открывает широкие возможности для развития мобильного искусственного интеллекта.
По сравнению с предыдущими решениями, FastVLM обеспечивает 85-кратный прирост скорости и 3.4-кратное уменьшение размера, что позволяет обрабатывать изображения и видео в реальном времени прямо на устройстве. Это открывает возможности для создания субтитров к видео в реальном времени в браузере без необходимости доступа к облачным сервисам.
FastVLM и MobileCLIP2 могут стать основой для создания более умных и быстрых мобильных ассистентов, систем обработки изображений в реальном времени и других приложений, требующих глубокого понимания визуального контента без задержек и необходимости постоянного подключения к облачным сервисам.
Более подробную информацию и возможность ознакомиться с кодом можно найти по ссылкам:
GitHub
HuggingFace
FastVLM WebGPU Demo
Эти модели, разработанные Apple, доступны в нескольких размерах: 0.5B, 1.5B и 7B параметров. Их ключевая особенность — способность функционировать непосредственно на смартфоне, что открывает широкие возможности для развития мобильного искусственного интеллекта.
По сравнению с предыдущими решениями, FastVLM обеспечивает 85-кратный прирост скорости и 3.4-кратное уменьшение размера, что позволяет обрабатывать изображения и видео в реальном времени прямо на устройстве. Это открывает возможности для создания субтитров к видео в реальном времени в браузере без необходимости доступа к облачным сервисам.
"Визуальные языковые модели (VLM) — это тип нейронных сетей, который способен понимать и генерировать текст на основе визуальной информации (изображений и видео), а также отвечать на вопросы о содержимом этих медиафайлов."
FastVLM и MobileCLIP2 могут стать основой для создания более умных и быстрых мобильных ассистентов, систем обработки изображений в реальном времени и других приложений, требующих глубокого понимания визуального контента без задержек и необходимости постоянного подключения к облачным сервисам.
Более подробную информацию и возможность ознакомиться с кодом можно найти по ссылкам:
GitHub
HuggingFace
FastVLM WebGPU Demo