Нейросеть для генерации речи, созданная двумя аспирантами, превосходит коммерческие аналоги от @запуск завтра

Два аспиранта без опыта в аудио за 3 месяца собрали нейросеть, которая генерирует речь лучше коммерческих сервисов!

Послушайте, как естественно она звучит и насколько точно следует указаниям вроде «со смехом» или «грустно». А ещё она создает целый диалог с несколькими голосами «за один проход» — быстрее и эффективнее конкурентов.

Мы уже привыкли, когда подобные модели анонсируют OpenAI, Google или Илон Маск. Эта нейросеть привлекла мое внимание именно создателями. Похоже, в сфере ИИ теперь такие мощные инструменты и так много публичных наработок, что пара умных ребят за месяцы смогут сделать то, на что раньше у богатых компаний уходили годы.

Наверное, наше время чем-то похоже на конец 19 века, когда в одной Америке было 1900 независимых автопроизводителей, и 1980-е, когда подростки собирали в гаражах персональные компьютеры.

—

Конкретно в сфере синтеза речи: нас ждут виртуальные дикторы и ведущие подкастов, которых не отличишь от живых. Ну и мошенникам, конечно, раздолье.

Модель открытая, работает даже на макбуках. Пока говорит только на английском. Примеры и сравнение с ведущими моделями, попробовать можно на hf, скачивать здесь.