Однією з основних функцій комп’ютерів є аналіз даних. Деякі дані легше аналізувати, ніж інші дані, і голосове введення все ще перебуває на стадії розробки. Однак за останні роки в цій галузі було зроблено багато покращень, і одне з них – DeepSpeech, проект Mozilla, фундації, який підтримує веб-браузер Firefox. DeepSpeech — це команда та бібліотека для перетворення голосу в текст, що робить її корисною для користувачів, яким необхідно перетворити голосове введення в текст, а також для розробників, які хочуть забезпечити голосове введення для своїх програм.
Установка DeepSpeech
DeepSpeech – це програма з відкритим вихідним кодом, випущена під ліцензією Mozilla Public License (MPL). Ви можете завантажити вихідний код зі сторінки GitHub.
Для установки спочатку створіть віртуальне середовище для Python:
<span class="co4">$ </span>python3 <span class="re5">-m</span> pip <span class="kw2">install</span> deepspeech <span class="re5">--user</span>
DeepSpeech базується на машинному навчанні. Ви можете навчити його самостійно, але найпростіше завантажити файли попередньо навченої моделі.
$ mkdir DeepSpeech $ cd Deepspeech $ curl -LO https://github.com/mozilla/DeepSpeech/releases/download/vX.Y.Z/deepspeech-X.Y.Z-models.pbmm $ curl -LO https://github.com/mozilla/DeepSpeech/releases/download/vX.Y.Z/deepspeech-X.Y.Z-models.scorer
Для користувачів
З DeepSpeech можна транскрибувати записи мови в письмовий текст. Ви отримаєте найкращі результати від мови, чітко записаної в оптимальних умовах. В крайньому випадку, ви можете спробувати будь-який запис, і отримаєте щось, що можна використовувати як відправну точку для ручної транскрипції.
З метою тестування ви можете записати аудіофайл, що містить просту фразу: “Це тест. Привіт, світ, це тест”. Збережіть звук як файл .wav з ім’ям hello-test.wav.
У папці DeepSpeech запустіть транскрипцію, надавши файл моделі, файл скорера та аудіо:
$ deepspeech --model deepspeech*pbmm --scorer deepspeech*scorer --audio hello-test.wav
Висновок здійснюється на стандартний вихід (ваш монітор):
Це тест. Привіт, світ, це тест
Ви можете отримати висновок у форматі JSON, використовуючи параметр –json :
$ deepspeech --model deepspeech*pbmm -- json --scorer deepspeech*scorer --audio hello-test.wav
Це відображає кожне слово разом із позначкою часу:
{ "transcripts": [ { "confidence": -42.7990608215332, "words": [ { "word": "Це", "start_time": 2.54, "duration": 0.12 }, { "word": "тест", "start_time": 2.74, "duration": 0.66 }, { "word": "привіт", "start_time": 2.94, "duration": 0.94 }, { "word": "світ", "start_time": 3.06, "duration": 0.74 }, [...]
Для розробників
DeepSpeech – це не просто команда для розшифровування попередньо записаного звуку. Ви можете використовувати її для обробки аудіопотоків у режимі реального часу. Репозиторій DeepSpeech-examples на GitHub сповнений JavaScript, Python, C# та Java для Android.
Більшість важкої роботи вже зроблено, тому для інтеграції DeepSpeech зазвичай достатньо звернутися до бібліотеки DeepSpeech і дізнатися, як отримати звук з хост-пристрою (що зазвичай робиться через файлову систему/dev в Linux або SDK на Android). та інші платформи.)
Розпізнавання мови
Розробнику впровадження розпізнавання мови для вашого додатка – це не просто кумедний трюк, але важлива функція спеціальних можливостей, яка спрощує використання вашої програми людьми з проблемами мобільності, поганим зором та хронічними багатозадачними людьми, які люблять тримати свої руки зайнятими. Користувачеві, DeepSpeech — дуже корисний інструмент транскрипції, який може перетворювати аудіофайли в текст. Незалежно від вашого варіанту використання, спробуйте DeepSpeech і подивіться, що це може зробити для вас.