Новости с полей расшифровки и анализа голоса\речи.
Eleven Labs бахнули новую модель Scribe - как написано (а как же еще) the world's most accurate ASR model (ASR - это расшифровка речи).
Попробовать самим на больших файлах уже можно тут:
https://elevenlabs.io/app/speech-to-text
В разделе Цены - Цены. Есть бесплатный план с 10 000 кредитов.
Про саму модель и ее кунштюки, тут:
https://elevenlabs.io/blog/meet-scribe
Анонсированы 99 языков и кинжальная точность: по неким метрикам они побивают Gemini 2.0 Flash, Whisper Large V3 and Deepgram Nova-3.
Есть АПИ (в отличие от Suno) - $0.40 за час входного аудиосигнала, а в течение следующих 6 недель действует дополнительная скидка 50%. Это как бы дорого. Потому что качественно.
P.S. Кстати про Суно, кто-то нашел костыли, как четвертую модель дергать по API?
@cgevent
Eleven Labs бахнули новую модель Scribe - как написано (а как же еще) the world's most accurate ASR model (ASR - это расшифровка речи).
Попробовать самим на больших файлах уже можно тут:
https://elevenlabs.io/app/speech-to-text
В разделе Цены - Цены. Есть бесплатный план с 10 000 кредитов.
Про саму модель и ее кунштюки, тут:
https://elevenlabs.io/blog/meet-scribe
Анонсированы 99 языков и кинжальная точность: по неким метрикам они побивают Gemini 2.0 Flash, Whisper Large V3 and Deepgram Nova-3.
Есть АПИ (в отличие от Suno) - $0.40 за час входного аудиосигнала, а в течение следующих 6 недель действует дополнительная скидка 50%. Это как бы дорого. Потому что качественно.
@cgevent