gImageReader – це безкоштовний аналог комерційних програм для оптичного розпізнавання символів, так як, наприклад ABBYY FineReader.
Вона дозволяє витягувати текст із зображень і PDF-файлів і побудована як простий інтерфейс для Tesseract-OCR, движка OCR для розпізнавання текстів і шаблонів в документах і зображеннях з використанням штучного інтелекту.
Сам по собі Tesseract – це інструмент командного рядка, який може використовуватися тільки користувачами Linux, досить знайомими зі своїми терміналами. Завдяки gImageReader тепер кожен може скористатися перевагами системи розпізнавання тексту.
gImageReader працює шляхом сканування текстів з PDF-файлів або файлів зображень будь-якою мовою, яку він підтримує, завдяки наявності символів Unicode. Він має простий, добре організований користувальницький інтерфейс, за допомогою якого ви можете виконувати завдання перевірки орфографії та перекладу.
Можливості gImageReader:
- Вихідний код доступний на GitHub.
- Доступно на платформах GNU/Linux і Windows.
- Тематичний інтерфейс зі знайомим макетом редагування.
- Імпорт PDF-документи та зображення з диска, сканувальних пристроїв, скриншотів і буфера обміну.
- Створюйте документи PDF з документів hOCR.
- Ручне або автоматичне визначення області розпізнавання.
- Обробка декількох зображень і документів в пакетному режимі.
- Розпізнавати в документи hOCR або у звичайний текст.
- Розпізнаний текст показується поруч із зображеннями.
- Постобробка розпізнаного тексту, включаючи перевірку орфографії.
gImageReader простий у використанні та підтримує роботу з електронними копіями документів, а також зі знімками завантажених з носіїв, наприклад скриншоти. У вас навіть є можливість вибрати цікаву для вас область тексту і додати тільки потрібний вам текст. В кінцевому підсумку gImagereader працює як програма для читання PDF-файлів і як інструмент для вилучення тексту.
Ви навіть можете розпізнавати текст на знімках зроблених вашим телефоном. Що ще крутіше, так це те, що є багатомовна підтримка.
Програма не ідеальна, але вже зараз є одним з кращих варіантів.
Встановіть gImageReader в Linux
Щоб використовувати gImageReader повною мірою, ви повинні вручну встановити мовні пакети Tesseract, щоб ви могли правильно аналізувати зображення і файли. Пакет називається «tesseract-ocr» і доступний в диспетчері програмного забезпечення в дистрибутивах Debian і Fedora. Саме він займається розпізнаванням тексту.
Якщо ви використовуєте Ubuntu, ви можете просто додати PPA і запустити команду установки, використовуючи наступні команди:
$ sudo add-apt-repository ppa:sandromani/gimagereader
$ sudo apt update
$ sudo apt install gimagereader
В Debian, Fedora та OpenSUSE встановіть його з диспетчера пакетів.
$ sudo apt install gimagereader [для Debian]
$ sudo dnf install gimagereader [для Fedora]
$ sudo zypper install gimagereader [для OpenSuse]
Чи не відчуйте себе обділеним, якщо ви використовуєте Arch Linux або будь-який з його похідних. AUR подбає про вас. А якщо ви віддаєте перевагу зібрати програму з вихідного коду, то інструкції можна знайти в його Wiki-посиланням на репозиторії GitHub.
Підсумок
gImageReader – одна з кращих програм для розпізнавання тексту у світі з відкритим вихідним кодом, так що спробуйте і подивіться, наскільки вона вам подобається.
Як завжди, ви можете поділитися з нами своїм досвідом використання програми, якщо він у вас є. І додати інші пропозиції в розділі коментарів нижче.
Ділитися досвідом – це турбота про інших …