Высококачественное (коммерческое) программное обеспечение для преобразования текста в английскую речь?

13491
bodacydo

Я работаю над программным проектом и изучаю продукты преобразования текста в речь. Кто-нибудь знает, каково современное состояние систем преобразования текста в речь? В идеале речь должна быть неотличима от носителей американского или английского языка. Я ищу продукты с SDK или API, которые я могу легко подключить.

Просто чтобы прояснить и повторить мой вопрос - я не ищу такие вещи, как бесплатная программа Microsoft для преобразования текста в речь, я ищу высококачественный профессиональный продукт.

2
@Psycogeek Я сделал ошибку. Это «текст в речь». Я исправляю это сейчас. (Сделано сейчас - исправил ошибку.) bodacydo 12 лет назад 0
Я извиняюсь @iglvzx и @random? почему вы закрыли вопрос? Это правильный программный вопрос. bodacydo 12 лет назад 0
Вопросы о покупках не по теме в сети SE random 12 лет назад 0
@ Случайный - извините, это не был вопрос покупки. Я только упомянул бюджет, который был выделен для решения, и что я не искал условно-бесплатное программное обеспечение Windows API-оболочки для 35 долларов, а был очень серьезный продукт. Могу ли я отредактировать вопрос, и вы сделаете его снова доступным? bodacydo 12 лет назад 0
@random - Спасибо, что позволили мне отредактировать вопрос. Теперь я удалил оценку и структурировал ее так, чтобы она не включалась. Не могли бы вы сейчас разблокировать мой вопрос? bodacydo 12 лет назад 0
Это все еще вопрос о покупке, а также слишком локализованное текущее состояние рынка, что также является вопросом сравнения. Кроме того, это также было бы неконструктивно, предлагая кавалькаду возможных продуктов вместо того, чтобы найти текущее решение для ваших нужд. random 12 лет назад 0
Спасибо @random за ответ. Некоторым людям удалось ответить на мой вопрос и дать мне идеи для поиска решения. bodacydo 12 лет назад 1

2 ответа на вопрос

4
Psycogeek

Лучшие голоса для преобразования текста в речь я слышал до сих пор по брендингу.
Acapela Voices http://www.acapela-group.com/text-to-speech-interactive-demo.html
Cepstral http://cepstral.com/demos/
ATT natural http://www2.research.att.com/ ~ ttsweb / tts / demo.php
Nuance RealSpeak Voices http://www.nuance.com/vocalizer5/flash/index.html
Версии Microsoft
L & H & True Voice, находящиеся внизу, если только они не улучшили его в последнее время.

(не уверен, где его разместить) Cereproc http://www.cereproc.com/support/live_demo

Я считаю, что английские голоса типа «Великобритания» могут звучать «лучше» с моей американской точки зрения, чем «американские» голоса. Либо акцент скрывает больше проблем, либо я недостаточно знаю о фальсификациях и нюансах Великобритании, чтобы критиковать их.

Все это будет работать в системе Windows, используя SAPI 4 & 5.
Голоса - это не все, что нужно, хотя для идеального голоса хорошая программа со словарями, редактированием произношения и обычной настройкой голоса для конкретных слов будет очень нужна, если вы хотите приблизиться к звучанию настоящего человека.

Это место http://www.nextup.com/TextAloud/SpeechEngine/voices.html содержит множество примеров, которые вы можете услышать о голосах. Это была хорошая подборка разных голосов.

Лучшие из лучших голосов, которые они говорят (я их еще не слышал), не работают только с системой, они работают только через отдельную программу для голоса. Программа и голос нужны и работают вместе. Я еще не нашел это.

1
Lèse majesté

Я не эксперт по синтезаторам речи, но я думаю, что лучшее решение, вероятно, зависит от множества факторов. Например:

  • Вы ищете аппаратное или программное решение?
  • Есть ли ограничение на объем памяти или ресурсоемкость? Есть ли соображения пропускной способности?
  • Вам нужна индивидуальная интеграция?
  • Как вы определяете качество? Естественность важнее, понятность или последовательность? Т.е. каскадный синтез обычно производит наиболее естественные / звучащие человеком голоса, так как он сделан из коротких записанных фрагментов реальных человеческих голосов. Тем не менее, он также производит очень отчетливые сбои, когда различные записи соединяются вместе, чего нет у полностью синтетических голосов.
  • Какой тип голоса вы ищете? Большинство программ синтеза речи, кажется, имеют более реалистичные мужские голоса, чем женские. Также, как американец, голоса с иностранными (например, австрийскими или британскими) акцентами звучат для меня более естественно, чем простые американские голоса.
  • Точно так же некоторые речевые механизмы производят речь с естественным звучанием в широком диапазоне конфигураций, в то время как другие могут иметь более низкое общее качество, но могут производить очень реалистичную речь в конкретной конфигурации.
  • Еще одно соображение, относящееся к конкретному приложению, - это разнообразие текста ввода, который вы ожидаете получить. Потому что программы синтеза речи в конкретной области могут быть наиболее реалистичными, поскольку они создаются на основе реальных предварительных записей целых слов или фраз. Но это может использоваться только тогда, когда вводимый текст поступает из определенного домена, который может быть легко реализован (например, система, которая считывает время кино или расписание автобусов и т. Д.). Если входной домен достаточно мал, лучше всего нанять голосового актера, чтобы записать все необходимые фразы и предложения.
  • Хотите ли вы клонировать голос конкретного человека для этого приложения? CereProc - это одна компания, которая специализируется на этом типе синтеза голоса, и они достигли довольно невероятных результатов, которые действительно отражают индивидуальность целевой личности.
  • Хотя все предыдущие рассуждения касаются главным образом выходного голоса, синтаксический анализ текста также является основным компонентом синтеза речи, поскольку многим синтезаторам речи трудно справляться с различными типами знаков препинания и числовых представлений (дроби, проценты, деньги, показатели степени, так далее.). Так что вам также следует подумать о том, как выбранный вами речевой движок будет обрабатывать сложные токенизации.

Если у вас есть такие деньги, чтобы потратить, я бы посмотрел на некоторые из ведущих брендов, таких как Acapela, Cepestral, AT & T, CereProc, RealSpeak и т. Д., Чтобы они точно знали ваши требования к проекту и предложили вам или, по крайней мере, продемонстрируйте каждого из них перед основными заинтересованными сторонами этого проекта, используя некоторый фактический исходный текст, который необходимо обработать для окончательной заявки.

Большое спасибо, я не думал об этих аспектах. Я теперь связался со всеми компаниями, и я устанавливаю конференц-связь завтра. bodacydo 12 лет назад 0