Mozilla DeepSpeech — преобразование звука в текст

colorful_sound_wave

Одной из основных функций компьютеров является анализ данных. Некоторые данные легче анализировать, чем другие данные, и голосовой ввод все еще находится в стадии разработки. Однако за последние годы в этой области было сделано много улучшений, и одно из них — DeepSpeech, проект Mozilla, фонда, который поддерживает веб-браузер Firefox. DeepSpeech — это команда и библиотека для преобразования голоса в текст, что делает ее полезной для пользователей, которым необходимо преобразовать голосовой ввод в текст, а также для разработчиков, которые хотят обеспечить голосовой ввод для своих приложений.

Установка DeepSpeech

DeepSpeech — это программа с открытым исходным кодом, выпущенная под лицензией Mozilla Public License (MPL). Вы можете загрузить исходный код со страницы GitHub.

Для установки сначала создайте виртуальную среду для Python:

python3 -m pip install deepspeech --user

DeepSpeech основан на машинном обучении. Вы можете обучить его самостоятельно, но проще всего загрузить файлы предварительно обученной модели.

mkdir DeepSpeech
$ cd Deepspeech
$ curl -LO 
https://github.com/mozilla/DeepSpeech/releases/download/vX.Y.Z/deepspeech-X.Y.Z-models.pbmm
$ curl -LO 
https://github.com/mozilla/DeepSpeech/releases/download/vX.Y.Z/deepspeech-X.Y.Z-models.scorer

Для пользователей

С DeepSpeech вы можете транскрибировать записи речи в письменный текст. Вы получите наилучшие результаты от речи, четко записанной в оптимальных условиях. В крайнем случае, вы можете попробовать любую запись, и получите что-то, что можно использовать в качестве отправной точки для ручной транскрипции.

В целях тестирования вы можете записать аудиофайл, содержащий простую фразу: «Это тест. Привет, мир, это тест». Сохраните звук в виде файла .wav с именем hello-test.wav.

В папке DeepSpeech запустите транскрипцию, предоставив файл модели, файл скорера и аудио:

$ deepspeech --model deepspeech*pbmm 
--scorer deepspeech*scorer 
--audio hello-test.wav

Вывод осуществляется на стандартный выход (ваш монитор):

это тест привет мир это тест

Вы можете получить вывод в формате JSON, используя параметр —json :

$ deepspeech --model deepspeech*pbmm 
-- json
--scorer deepspeech*scorer 
--audio hello-test.wav

Это отображает каждое слово вместе с отметкой времени:

{
  "transcripts"[
    {
      "confidence": -42.7990608215332,
      "words"[
        {
          "word""this",
          "start_time"2.54,
          "duration"0.12
        },
        {
          "word""is",
          "start_time"2.74,
          "duration"0.1
        },
        {
          "word""a",
          "start_time"2.94,
          "duration"0.04
        },
        {
          "word""test",
          "start_time"3.06,
          "duration"0.74
        },
[...]

Для разработчиков

DeepSpeech — это не просто команда для расшифровки предварительно записанного звука. Вы можете использовать ее для обработки аудиопотоков в режиме реального времени. Репозиторий DeepSpeech-examples на GitHub полон JavaScript, Python, C# и Java для Android.

Большая часть тяжелой работы уже сделана, поэтому для интеграции DeepSpeech обычно достаточно обратиться к библиотеке DeepSpeech и узнать, как получить звук с хост-устройства (что обычно делается через файловую систему /dev в Linux или SDK на Android). и другие платформы.)

Распознавание речи

Разработчику внедрение распознавания речи для вашего приложения — это не просто забавный трюк, но важная функция специальных возможностей, которая упрощает использование вашего приложения людьми с проблемами мобильности, плохим зрением и хроническими многозадачными людьми, которые любят держать свои руки занятыми. Пользователю, DeepSpeech —  очень полезный инструмент транскрипции, который может преобразовывать аудиофайлы в текст. Независимо от вашего варианта использования, попробуйте DeepSpeech и посмотрите, что он может сделать для вас.

216860cookie-checkMozilla DeepSpeech — преобразование звука в текст

Автор публикации

не в сети 3 месяца

ViGo

Комментарии: 6Публикации: 1154Регистрация: 29-04-2020
Если Вам понравилась статья, то поделитесь ею в соц.сетях:
guest

0 комментариев
Inline Feedbacks
View all comments