Нейросеть для генерации речи от двух аспирантов превзошла коммерческие аналоги

Два аспиранта без опыта в аудио всего за 3 месяца разработали нейросеть, генерирующую речь, которая звучит лучше, чем у коммерческих сервисов!

Послушайте, насколько естественно она звучит и как точно следует указаниям, например, «со смехом» или «грустно». Более того, она создает целые диалоги с несколькими голосами «за один проход» — быстрее и эффективнее конкурентов.

Мы привыкли, что подобные модели анонсируют OpenAI, Google или Илон Маск. Эта нейросеть привлекла внимание именно создателями. Похоже, в сфере ИИ сейчас настолько мощные инструменты и так много публичных наработок, что пара умных ребят за несколько месяцев могут сделать то, на что раньше у крупных компаний уходили годы.

Наверное, наше время чем-то напоминает конец 19 века, когда только в Америке было 1900 независимых автопроизводителей, или 1980-е, когда подростки собирали персональные компьютеры в гаражах.

Конкретно в сфере синтеза речи: нас ждут виртуальные дикторы и ведущие подкастов, которых не отличишь от живых. Ну и мошенникам, конечно, раздолье.

Модель открытая, работает даже на макбуках. Пока говорит только на английском. Примеры и сравнение с ведущими моделями можно посмотреть здесь, попробовать можно на hf, скачать здесь.

AI саммари

Нейросеть для генерации речи от двух аспирантов превзошла коммерческие аналоги