Команда MoonshotAI представила Kimi-Audio — инструктивную модель с 7 млрд параметров, предназначенную для решения аудиозадач. Она объединяет распознавание речи, анализ аудиоконтента и генерацию ответов в реальном времени в единую архитектуру.
Модель продемонстрировала передовые результаты (SOTA) на множестве аудиобенчмарков, охватывающих задачи от распознавания речи до эмоционального анализа.
Архитектура Kimi-Audio состоит из трех основных компонентов:
🟢 Гибридный токенизатор: Преобразует аудио в дискретные семантические токены (12.5 Гц) через векторное квантование и дополняет их непрерывными акустическими признаками из Whisper.
🟢 Модифицированная LLM: Использует Qwen 2.5 7B в качестве основы с общими слоями для мультимодальных данных и раздельными "головами" для генерации текста и аудио.
🟢 Детокенизатор: Основан на flow matching и BigVGAN, преобразует токены обратно в звук с задержкой менее секунды благодаря чанковому потоковому декодированию и look-ahead механизму.
Особое внимание команда уделила пайплайну обучения: 13 миллионов часов аудио были обработаны через автоматический конвейер, включающий шумоподавление, диаризацию и транскрипцию.
Для повышения качества сегменты объединялись по контексту, а транскрипции дополнялись пунктуацией на основе пауз. После предварительного обучения на задачах ASR
В тестах ASR Kimi-Audio показала WER
📌 Лицензия на код: Apache 2.0 License.
📌 Лицензия на модель: MIT License.
🟡 Модель
🟡 Техотчет
🖥 GitHub
Модель продемонстрировала передовые результаты (SOTA) на множестве аудиобенчмарков, охватывающих задачи от распознавания речи до эмоционального анализа.
Архитектура Kimi-Audio состоит из трех основных компонентов:
Особое внимание команда уделила пайплайну обучения: 13 миллионов часов аудио были обработаны через автоматический конвейер, включающий шумоподавление, диаризацию и транскрипцию.
Для повышения качества сегменты объединялись по контексту, а транскрипции дополнялись пунктуацией на основе пауз. После предварительного обучения на задачах ASR
Automatic Speech Recognition - автоматическое распознавание речи
и TTS
Text-to-Speech - технология преобразования текста в речь
модель прошла этап SFT
Supervised Fine-Tuning - контролируемая донастройка
на 300 тыс. часов данных (развернутые диалоги и аудиочаты).В тестах ASR Kimi-Audio показала WER
Word Error Rate - метрика оценки качества распознавания речи
1.28 на LibriSpeech test-clean против 2.37 у Qwen2.5-Omni. В аудиопонимании она лидирует на ClothoAQA (73.18) и MELD (59.13), а в классификации сцен (CochlScene) показывает 80.99 — на 17 пунктов выше ближайшего соперника. В диалогах модель близка к GPT-4o (3.90 против 4.06 по субъективной оценке).
