Mozilla DeepSpeech - перетворення звуку на текст

Однією з основних функцій комп’ютерів є аналіз даних. Деякі дані легше аналізувати, ніж інші дані, і голосове введення все ще перебуває на стадії розробки. Однак за останні роки в цій галузі було зроблено багато покращень, і одне з них – DeepSpeech, проект Mozilla, фундації, який підтримує веб-браузер Firefox. DeepSpeech — це команда та бібліотека для перетворення голосу в текст, що робить її корисною для користувачів, яким необхідно перетворити голосове введення в текст, а також для розробників, які хочуть забезпечити голосове введення для своїх програм.

Установка DeepSpeech

DeepSpeech – це програма з відкритим вихідним кодом, випущена під ліцензією Mozilla Public License (MPL). Ви можете завантажити вихідний код зі сторінки GitHub.

Для установки спочатку створіть віртуальне середовище для Python:

<span class="co4">$ </span>python3 <span class="re5">-m</span> pip <span class="kw2">install</span> deepspeech <span class="re5">--user</span>

DeepSpeech базується на машинному навчанні. Ви можете навчити його самостійно, але найпростіше завантажити файли попередньо навченої моделі.

$ mkdir DeepSpeech
$ cd Deepspeech
$ curl -LO 
https://github.com/mozilla/DeepSpeech/releases/download/vX.Y.Z/deepspeech-X.Y.Z-models.pbmm
$ curl -LO 
https://github.com/mozilla/DeepSpeech/releases/download/vX.Y.Z/deepspeech-X.Y.Z-models.scorer

Для користувачів

З DeepSpeech можна транскрибувати записи мови в письмовий текст. Ви отримаєте найкращі результати від мови, чітко записаної в оптимальних умовах. В крайньому випадку, ви можете спробувати будь-який запис, і отримаєте щось, що можна використовувати як відправну точку для ручної транскрипції.

З метою тестування ви можете записати аудіофайл, що містить просту фразу: “Це тест. Привіт, світ, це тест”. Збережіть звук як файл .wav з ім’ям hello-test.wav.

У папці DeepSpeech запустіть транскрипцію, надавши файл моделі, файл скорера та аудіо:

$ deepspeech --model deepspeech*pbmm 
--scorer deepspeech*scorer 
--audio hello-test.wav

Висновок здійснюється на стандартний вихід (ваш монітор):

 Це тест. Привіт, світ, це тест

Ви можете отримати висновок у форматі JSON, використовуючи параметр –json :

$ deepspeech --model deepspeech*pbmm 
-- json --scorer deepspeech*scorer 
--audio hello-test.wav

Це відображає кожне слово разом із позначкою часу:

{
  "transcripts": [
    {
      "confidence": -42.7990608215332,
      "words": [
        {
          "word": "Це",
          "start_time": 2.54,
          "duration": 0.12
        },
        {
          "word": "тест",
          "start_time": 2.74,
          "duration": 0.66
        },
        {
          "word": "привіт",
          "start_time": 2.94,
          "duration": 0.94
        },
        {
          "word": "світ",
          "start_time": 3.06,
          "duration": 0.74
        },
[...]

Для розробників

DeepSpeech – це не просто команда для розшифровування попередньо записаного звуку. Ви можете використовувати її для обробки аудіопотоків у режимі реального часу. Репозиторій DeepSpeech-examples на GitHub сповнений JavaScript, Python, C# та Java для Android.

Більшість важкої роботи вже зроблено, тому для інтеграції DeepSpeech зазвичай достатньо звернутися до бібліотеки DeepSpeech і дізнатися, як отримати звук з хост-пристрою (що зазвичай робиться через файлову систему/dev в Linux або SDK на Android). та інші платформи.)

Розпізнавання мови

Розробнику впровадження розпізнавання мови для вашого додатка – це не просто кумедний трюк, але важлива функція спеціальних можливостей, яка спрощує використання вашої програми людьми з проблемами мобільності, поганим зором та хронічними багатозадачними людьми, які люблять тримати свої руки зайнятими. Користувачеві, DeepSpeech — дуже корисний інструмент транскрипції, який може перетворювати аудіофайли в текст. Незалежно від вашого варіанту використання, спробуйте DeepSpeech і подивіться, що це може зробити для вас.