RHVoice 1.2.4

Теги

Программа RHVoice совместима с типовыми TTS-интерфейсами (text-to-speech) для преобразования текста в речь.

RHVoice использует статистический параметрический синтез. Он опирается на уже существующие речевые технологии с открытым исходным кодом (прежде всего HTS и связанные компоненты). Голоса создаются на основе записей естественной человеческой речи. Они компактны, так как на компьютере пользователей хранятся только статистические модели. И хотя голосам не хватает естественности тех синтезаторов, которые генерируют речь, комбинируя фрагменты самих записей, они всё же очень разборчивы и напоминают дикторов, которые записали исходный материал.

Изначально RHVoice говорил только по-русски. Теперь он также поддерживает американский английский, бразильский португальский, эсперанто, грузинский, украинский, киргизский и татарский. Теоретически, поддержка других языков может быть реализована, если удастся найти или создать все необходимые ресурсы.

RHVoice поддерживает Windows, GNU/Linux и Android. Он совместим со стандартными интерфейсами преобразования текста в речь на этих платформах SAPI5 в Windows, Speech Dispatcher в GNU/Linux и API для преобразования текста в речь в Android. Он также может использоваться чтецом экрана NVDA напрямую (драйвер предоставляется самим RHVoice).

В программе применяются наработки проекта HTS (HMM/DNN-based Speech Synthesis System) и параметрический метод синтеза со статистическими моделями (Statistical Parametric Synthesis на базе HMM - Hidden Markov Model). Плюсом статистической модели являются низкие накладные расходы и нетребовательность к мощности CPU. Все операции выполняются локально на системе пользователя. Поддерживается три уровня качества речи (чем ниже качество - тем выше производительность и меньше время реакции). 

Поддерживается настройка и смена голосов. Для русского языка доступно 9 вариантов голосов, для английского - 5. Голоса формируются на основе записей естественной речи. Из-за использования статистической модели качество произношения не достигает уровня синтезаторов, генерирующих речь на основе комбинации фрагментов естественной речи, но тем не менее результат вполне разборчив и напоминает трансляцию записи с громкоговорителя. 

В настройках можно изменять скорость, высоту и громкость. Для изменения темпа может применяться библиотека Sonic. Возможно автоматическое определение и переключение языка на основе анализа входного текста (например, для слов и цитат на другом языке может использоваться родная для данного языка модель синтеза). Поддерживаются голосовые профили, определяющие сочетания голосов для разных языков. 

Разрешается и одобряется использование, копирование, распространение и изменение продукта при условии, что этот продукт и его производные не будут использованы для продажи.


Код написан на С++ и распространяется под лицензией LGPL 2.1.

 

Последние материалы