Mozilla DeepSpeech - преобразование звука в текст

Одной из основных функций компьютеров является анализ данных. Некоторые данные легче анализировать, чем другие данные, и голосовой ввод все еще находится в стадии разработки. Однако за последние годы в этой области было сделано много улучшений, и одно из них — DeepSpeech, проект Mozilla, фонда, который поддерживает веб-браузер Firefox. DeepSpeech — это команда и библиотека для преобразования голоса в текст, что делает ее полезной для пользователей, которым необходимо преобразовать голосовой ввод в текст, а также для разработчиков, которые хотят обеспечить голосовой ввод для своих приложений.

Установка DeepSpeech

DeepSpeech — это программа с открытым исходным кодом, выпущенная под лицензией Mozilla Public License (MPL). Вы можете загрузить исходный код со страницы GitHub.

Для установки сначала создайте виртуальную среду для Python:

<span class="co4">$ </span>python3 <span class="re5">-m</span> pip <span class="kw2">install</span> deepspeech <span class="re5">--user</span>

DeepSpeech основан на машинном обучении. Вы можете обучить его самостоятельно, но проще всего загрузить файлы предварительно обученной модели.

$ mkdir DeepSpeech
$ cd Deepspeech
$ curl -LO 
https://github.com/mozilla/DeepSpeech/releases/download/vX.Y.Z/deepspeech-X.Y.Z-models.pbmm
$ curl -LO 
https://github.com/mozilla/DeepSpeech/releases/download/vX.Y.Z/deepspeech-X.Y.Z-models.scorer

Для пользователей

С DeepSpeech вы можете транскрибировать записи речи в письменный текст. Вы получите наилучшие результаты от речи, четко записанной в оптимальных условиях. В крайнем случае, вы можете попробовать любую запись, и получите что-то, что можно использовать в качестве отправной точки для ручной транскрипции.

В целях тестирования вы можете записать аудиофайл, содержащий простую фразу: «Это тест. Привет, мир, это тест». Сохраните звук в виде файла .wav с именем hello-test.wav.

В папке DeepSpeech запустите транскрипцию, предоставив файл модели, файл скорера и аудио:

$ deepspeech --model deepspeech*pbmm 
--scorer deepspeech*scorer 
--audio hello-test.wav

Вывод осуществляется на стандартный выход (ваш монитор):

это тест привет мир это тест

Вы можете получить вывод в формате JSON, используя параметр —json :

$ deepspeech --model deepspeech*pbmm 
-- json
--scorer deepspeech*scorer 
--audio hello-test.wav

Это отображает каждое слово вместе с отметкой времени:

{
  "transcripts": [
    {
      "confidence": -42.7990608215332,
      "words": [
        {
          "word": "this",
          "start_time": 2.54,
          "duration": 0.12
        },
        {
          "word": "is",
          "start_time": 2.74,
          "duration": 0.1
        },
        {
          "word": "a",
          "start_time": 2.94,
          "duration": 0.04
        },
        {
          "word": "test",
          "start_time": 3.06,
          "duration": 0.74
        },
[...]

Для разработчиков

DeepSpeech — это не просто команда для расшифровки предварительно записанного звука. Вы можете использовать ее для обработки аудиопотоков в режиме реального времени. Репозиторий DeepSpeech-examples на GitHub полон JavaScript, Python, C# и Java для Android.

Большая часть тяжелой работы уже сделана, поэтому для интеграции DeepSpeech обычно достаточно обратиться к библиотеке DeepSpeech и узнать, как получить звук с хост-устройства (что обычно делается через файловую систему /dev в Linux или SDK на Android). и другие платформы.)

Распознавание речи

Разработчику внедрение распознавания речи для вашего приложения — это не просто забавный трюк, но важная функция специальных возможностей, которая упрощает использование вашего приложения людьми с проблемами мобильности, плохим зрением и хроническими многозадачными людьми, которые любят держать свои руки занятыми. Пользователю, DeepSpeech — очень полезный инструмент транскрипции, который может преобразовывать аудиофайлы в текст. Независимо от вашего варианта использования, попробуйте DeepSpeech и посмотрите, что он может сделать для вас.