feedback

AI саммари

MoonshotAI представила Kimi-Audio, новую открытую модель для решения аудиозадач, объединяющую распознавание речи, анализ аудио и генерацию ответов. Модель демонстрирует SOTA результаты на различных аудиобенчмарках и имеет лицензию MIT, что делает её доступной для широкого использования и дальнейших исследований.
от FlowFeed AI
Обновлено: 10 hours ago
Команда MoonshotAI представила Kimi-Audio — инструктивную модель с 7 млрд параметров, предназначенную для решения аудиозадач. Она объединяет распознавание речи, анализ аудиоконтента и генерацию ответов в реальном времени в единую архитектуру.

Модель продемонстрировала передовые результаты (SOTA) на множестве аудиобенчмарков, охватывающих задачи от распознавания речи до эмоционального анализа.

Архитектура Kimi-Audio состоит из трех основных компонентов:

🟢Гибридный токенизатор: Преобразует аудио в дискретные семантические токены (12.5 Гц) через векторное квантование и дополняет их непрерывными акустическими признаками из Whisper.

🟢Модифицированная LLM: Использует Qwen 2.5 7B в качестве основы с общими слоями для мультимодальных данных и раздельными "головами" для генерации текста и аудио.

🟢Детокенизатор: Основан на flow matching и BigVGAN, преобразует токены обратно в звук с задержкой менее секунды благодаря чанковому потоковому декодированию и look-ahead механизму.

Особое внимание команда уделила пайплайну обучения: 13 миллионов часов аудио были обработаны через автоматический конвейер, включающий шумоподавление, диаризацию и транскрипцию.

Для повышения качества сегменты объединялись по контексту, а транскрипции дополнялись пунктуацией на основе пауз. После предварительного обучения на задачах ASR
Automatic Speech Recognition - автоматическое распознавание речи
и TTS
Text-to-Speech - технология преобразования текста в речь
модель прошла этап SFT
Supervised Fine-Tuning - контролируемая донастройка
на 300 тыс. часов данных (развернутые диалоги и аудиочаты).

В тестах ASR Kimi-Audio показала WER
Word Error Rate - метрика оценки качества распознавания речи
1.28 на LibriSpeech test-clean против 2.37 у Qwen2.5-Omni. В аудиопонимании она лидирует на ClothoAQA (73.18) и MELD (59.13), а в классификации сцен (CochlScene) показывает 80.99 — на 17 пунктов выше ближайшего соперника. В диалогах модель близка к GPT-4o (3.90 против 4.06 по субъективной оценке).

📌 Лицензия на код: Apache 2.0 License.

📌 Лицензия на модель: MIT License.

🟡Модель
🟡Техотчет
🖥GitHub
Kimi-Audio: Открытая модель для решения аудиозадач от MoonshotAI
Link copied