feedback
Новости с полей расшифровки и анализа голоса\речи.

Eleven Labs бахнули новую модель Scribe - как написано (а как же еще) the world's most accurate ASR model (ASR - это расшифровка речи).

Попробовать самим на больших файлах уже можно тут:
https://elevenlabs.io/app/speech-to-text

В разделе Цены - Цены. Есть бесплатный план с 10 000 кредитов.

Про саму модель и ее кунштюки, тут:
https://elevenlabs.io/blog/meet-scribe

Анонсированы 99 языков и кинжальная точность: по неким метрикам они побивают Gemini 2.0 Flash, Whisper Large V3 and Deepgram Nova-3.

Есть АПИ (в отличие от Suno) - $0.40 за час входного аудиосигнала, а в течение следующих 6 недель действует дополнительная скидка 50%. Это как бы дорого. Потому что качественно.

P.S. Кстати про Суно, кто-то нашел костыли, как четвертую модель дергать по API?
@cgevent
Link copied