gImageReader - витяг тексту із зображень і PDF-файлів в Linux

gImageReader – це безкоштовний аналог комерційних програм для оптичного розпізнавання символів, так як, наприклад ABBYY FineReader.

Вона дозволяє витягувати текст із зображень і PDF-файлів і побудована як простий інтерфейс для Tesseract-OCR, движка OCR для розпізнавання текстів і шаблонів в документах і зображеннях з використанням штучного інтелекту.

Сам по собі Tesseract – це інструмент командного рядка, який може використовуватися тільки користувачами Linux, досить знайомими зі своїми терміналами. Завдяки gImageReader тепер кожен може скористатися перевагами системи розпізнавання тексту.

gImageReader працює шляхом сканування текстів з PDF-файлів або файлів зображень будь-якою мовою, яку він підтримує, завдяки наявності символів Unicode. Він має простий, добре організований користувальницький інтерфейс, за допомогою якого ви можете виконувати завдання перевірки орфографії та перекладу.

Можливості gImageReader:

Вихідний код доступний на GitHub.
Доступно на платформах GNU/Linux і Windows.
Тематичний інтерфейс зі знайомим макетом редагування.
Імпорт PDF-документи та зображення з диска, сканувальних пристроїв, скриншотів і буфера обміну.
Створюйте документи PDF з документів hOCR.
Ручне або автоматичне визначення області розпізнавання.
Обробка декількох зображень і документів в пакетному режимі.
Розпізнавати в документи hOCR або у звичайний текст.
Розпізнаний текст показується поруч із зображеннями.
Постобробка розпізнаного тексту, включаючи перевірку орфографії.

gImageReader простий у використанні та підтримує роботу з електронними копіями документів, а також зі знімками завантажених з носіїв, наприклад скриншоти. У вас навіть є можливість вибрати цікаву для вас область тексту і додати тільки потрібний вам текст. В кінцевому підсумку gImagereader працює як програма для читання PDF-файлів і як інструмент для вилучення тексту.

Ви навіть можете розпізнавати текст на знімках зроблених вашим телефоном. Що ще крутіше, так це те, що є багатомовна підтримка.
Програма не ідеальна, але вже зараз є одним з кращих варіантів.

Встановіть gImageReader в Linux

Щоб використовувати gImageReader повною мірою, ви повинні вручну встановити мовні пакети Tesseract, щоб ви могли правильно аналізувати зображення і файли. Пакет називається «tesseract-ocr» і доступний в диспетчері програмного забезпечення в дистрибутивах Debian і Fedora. Саме він займається розпізнаванням тексту.

Якщо ви використовуєте Ubuntu, ви можете просто додати PPA і запустити команду установки, використовуючи наступні команди:

$ sudo add-apt-repository ppa:sandromani/gimagereader
$ sudo apt update
$ sudo apt install gimagereader

В Debian, Fedora та OpenSUSE встановіть його з диспетчера пакетів.

$ sudo apt install gimagereader     [для Debian]
$ sudo dnf install gimagereader     [для Fedora]
$ sudo zypper install gimagereader  [для OpenSuse]

Чи не відчуйте себе обділеним, якщо ви використовуєте Arch Linux або будь-який з його похідних. AUR подбає про вас. А якщо ви віддаєте перевагу зібрати програму з вихідного коду, то інструкції можна знайти в його Wiki-посиланням на репозиторії GitHub.

Підсумок

gImageReader – одна з кращих програм для розпізнавання тексту у світі з відкритим вихідним кодом, так що спробуйте і подивіться, наскільки вона вам подобається.

Як завжди, ви можете поділитися з нами своїм досвідом використання програми, якщо він у вас є. І додати інші пропозиції в розділі коментарів нижче.
Ділитися досвідом – це турбота про інших …