Одной из основных функций компьютеров является анализ данных. Некоторые данные легче анализировать, чем другие данные, и голосовой ввод все еще находится в стадии разработки. Однако за последние годы в этой области было сделано много улучшений, и одно из них — DeepSpeech, проект Mozilla, фонда, который поддерживает веб-браузер Firefox. DeepSpeech — это команда и библиотека для преобразования голоса в текст, что делает ее полезной для пользователей, которым необходимо преобразовать голосовой ввод в текст, а также для разработчиков, которые хотят обеспечить голосовой ввод для своих приложений.
Установка DeepSpeech
DeepSpeech — это программа с открытым исходным кодом, выпущенная под лицензией Mozilla Public License (MPL). Вы можете загрузить исходный код со страницы GitHub.
Для установки сначала создайте виртуальную среду для Python:
<span class="co4">$ </span>python3 <span class="re5">-m</span> pip <span class="kw2">install</span> deepspeech <span class="re5">--user</span>
DeepSpeech основан на машинном обучении. Вы можете обучить его самостоятельно, но проще всего загрузить файлы предварительно обученной модели.
$ mkdir DeepSpeech $ cd Deepspeech $ curl -LO https://github.com/mozilla/DeepSpeech/releases/download/vX.Y.Z/deepspeech-X.Y.Z-models.pbmm $ curl -LO https://github.com/mozilla/DeepSpeech/releases/download/vX.Y.Z/deepspeech-X.Y.Z-models.scorer
Для пользователей
С DeepSpeech вы можете транскрибировать записи речи в письменный текст. Вы получите наилучшие результаты от речи, четко записанной в оптимальных условиях. В крайнем случае, вы можете попробовать любую запись, и получите что-то, что можно использовать в качестве отправной точки для ручной транскрипции.
В целях тестирования вы можете записать аудиофайл, содержащий простую фразу: «Это тест. Привет, мир, это тест». Сохраните звук в виде файла .wav с именем hello-test.wav.
В папке DeepSpeech запустите транскрипцию, предоставив файл модели, файл скорера и аудио:
$ deepspeech --model deepspeech*pbmm --scorer deepspeech*scorer --audio hello-test.wav
Вывод осуществляется на стандартный выход (ваш монитор):
это тест привет мир это тест
Вы можете получить вывод в формате JSON, используя параметр —json :
$ deepspeech --model deepspeech*pbmm -- json --scorer deepspeech*scorer --audio hello-test.wav
Это отображает каждое слово вместе с отметкой времени:
{ "transcripts": [ { "confidence": -42.7990608215332, "words": [ { "word": "this", "start_time": 2.54, "duration": 0.12 }, { "word": "is", "start_time": 2.74, "duration": 0.1 }, { "word": "a", "start_time": 2.94, "duration": 0.04 }, { "word": "test", "start_time": 3.06, "duration": 0.74 }, [...]
Для разработчиков
DeepSpeech — это не просто команда для расшифровки предварительно записанного звука. Вы можете использовать ее для обработки аудиопотоков в режиме реального времени. Репозиторий DeepSpeech-examples на GitHub полон JavaScript, Python, C# и Java для Android.
Большая часть тяжелой работы уже сделана, поэтому для интеграции DeepSpeech обычно достаточно обратиться к библиотеке DeepSpeech и узнать, как получить звук с хост-устройства (что обычно делается через файловую систему /dev в Linux или SDK на Android). и другие платформы.)
Распознавание речи
Разработчику внедрение распознавания речи для вашего приложения — это не просто забавный трюк, но важная функция специальных возможностей, которая упрощает использование вашего приложения людьми с проблемами мобильности, плохим зрением и хроническими многозадачными людьми, которые любят держать свои руки занятыми. Пользователю, DeepSpeech — очень полезный инструмент транскрипции, который может преобразовывать аудиофайлы в текст. Независимо от вашего варианта использования, попробуйте DeepSpeech и посмотрите, что он может сделать для вас.