DeepSpeech 0.9

Опубликовано August@Karro - пн, 11/09/2020 - 16:11

Поддерживается работа в Linux, Android, macOS и Windows. Производительности достаточно для использования движка на платах LePotato, Raspberry Pi 3 и Raspberry Pi 4, а также на смартфонах Google Pixel 2, Sony Xperia Z Premium и Nokia 1.3. Для встраивания функции распознавания речи в свои программы предложены готовые к применению модули для Python, NodeJS, C++ и .NET (сторонними разработчиками отдельно подготовлены модули для Rust, Go и V).

Обратной стороной подобного подхода является то, что для получения качественного распознавания и обучения нейронной сети движок DeepSpeech требует большого объёма разнородных данных, надиктованных в реальных условиях разными голосами и при наличии естественных шумов. Сбором подобных данных занимается созданный в Mozilla проект Common Voice, предоставляющий проверенный набор данных с 1469 часами на английском языке, 692 на немецком, 554 на французском, 105 часами на русском и 22 часами на украинском. При обучении итоговой модели английского языка для DeepSpeech, кроме Common Voice дополнительно используются данные от проектов LibriSpeech, Fisher и Switchboard, а также около 1700 часов транскрибированных записей радиошоу.


 

Последние материалы