Как извлечь текст из PDF-файлов и изображений с помощью gImageReader

Если вы студент или ваша работа связана с большим количеством изображений и PDF-файлов, в какой-то момент вы почувствовали необходимость извлечь текст из изображения или документа. К счастью, извлечение текста делает это возможным. И есть несколько инструментов, которые вы можете использовать для этого. gImageReader — один из многих инструментов. Это бесплатное приложение, которое работает как с файлами изображений, так и с документами PDF.

Давайте подробно рассмотрим gImageReader и посмотрим, как вы можете использовать его для извлечения текста из изображений и PDF-файлов.

Что такое gImageReader?

gImageReader — это приложение, которое позволяет извлекать текст из изображений и PDF-файлов в Linux. По сути, это графический интерфейс или внешний интерфейс для механизма распознавания текста Tesseract, механизма с открытым исходным кодом, разработанного Hewlett-Packard, который считается одним из лучших доступных механизмов распознавания.

С gImageReader вы можете легко и достаточно точно извлекать текст из изображений или PDF-документов с помощью нескольких простых кликов. Затем вы можете экспортировать извлеченный текст в текстовый файл или файл PDF для дальнейшего использования.

Особенности gImageReader

gImageReader имеет следующие функции:

Импорт PDF-документов и изображений из разных источников (диск, сканирующие устройства, буфер обмена и снимок экрана)
Пакетная обработка изображений или документов, т. е. извлечение текста из нескольких изображений или документов одновременно.
Распознавать текстовые фрагменты как обычный текст или документы hOCR
Встроенная проверка орфографии
Автоматическое определение области текста
Базовое редактирование изображений/документов
Сохранить вывод в виде текстового файла

Как установить gImageReader в Linux

gImageReader доступен в большинстве основных дистрибутивов Linux. Но прежде чем приступить к его установке, вам необходимо установить в вашей системе механизм распознавания текста Tesseract.

Для этого откройте Диспетчер программного обеспечения в своей системе и найдите tesseract. Когда он вернет список результатов, установите пакеты tesseract-ocr и tesseract-ocr-eng. Вы также можете использовать диспетчеры пакетов командной строки для установки пакета, если вам удобнее работать с терминалом.

После этого ознакомьтесь с инструкциями по установке в следующих разделах, чтобы установить gImageReader на свой компьютер.

Если вы используете Debian или Ubuntu, откройте терминал и выполните следующие команды, чтобы установить gImageReader:

sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-<span class="hljs-keyword">get</span> update
sudo apt <span class="hljs-keyword">install</span> gimagereader

В Fedora, CentOS или Red Hat Enterprise Linux (RHEL):

sudo dnf <span class="hljs-keyword">install</span> gimagereader-qt

В Arch Linux или Manjaro:

sudo pacman -S gimagereader

Пользователи openSUSE могут установить gImageReader, используя:

sudo zypper <span class="hljs-keyword">install</span> gimagereader

Если вы используете любой другой дистрибутив Linux, вы можете собрать gImageReader из исходного кода, следуя инструкциям на GitHub gImageReader.

Как использовать gImageReader в Linux

gImageReader довольно прост в использовании и работает со всеми типами файлов изображений, а также с документами PDF. Следуйте приведенным ниже инструкциям, чтобы извлечь текст из изображений или PDF-файлов в Linux.

Откройте меню приложений, найдите gImageReader и запустите приложение. Нажмите кнопку Maximize в окне gImageReader, чтобы открыть его в полноэкранном режиме.

Теперь нажмите кнопку Add images на левой панели под панелью инструментов и используйте браузер файлов, чтобы выбрать изображения или PDF-файлы, из которых вы хотите извлечь текст.

Нажмите ОК, чтобы импортировать изображения или PDF-файлы в gImageReader. Или, если вы хотите извлечь текст из того, что отображается на экране, нажмите раскрывающийся список рядом с кнопкой «Add images» и выберите «Take Screenshot». gImageReader сделает скриншот содержимого экрана.

Добавив изображение в gImageReader, нажмите кнопку Toggle output pane (одна со значком блокнота), чтобы открыть панель вывода. Здесь появляется текст, который вы извлекаете из изображений или PDF-файлов.

В зависимости от того, как вы хотите действовать, теперь у вас есть возможность идентифицировать текст на изображении или в PDF автоматически или вручную. Чтобы сделать это автоматически, нажмите кнопку «Autodetect layout», и будут выделены все текстовые блоки в выбранном изображении или документе PDF.

После этого нажмите «Recognize selection » > «Current Page», чтобы начать процесс извлечения текста.

В качестве альтернативы, чтобы выделить текст вручную, наведите указатель мыши на текст, который хотите извлечь, и с помощью перекрестия нарисуйте рамку вокруг области, из которой вы хотите извлечь текст. Затем нажмите кнопку Recognize selection , чтобы продолжить.

Если это PDF-документ и вы хотите извлечь текст с разных страниц, нажмите кнопку Плюс (+), чтобы перевернуть страницы.

Чтобы вернуться назад, нажмите кнопку Минус (-). Затем выберите текст, который хотите извлечь, и нажмите кнопку Recognize selection, чтобы извлечь его.

Хотя и редко, но могут быть случаи, когда gImageReader возвращает извлеченный текст на языке, отличном от английского. Когда это произойдет, просто нажмите кнопку раскрывающегося списка рядом с кнопкой «Recognize selection » и выберите один из вариантов на английском языке.

Наконец, чтобы сохранить извлеченный текст, нажмите кнопку Save output . Это вызовет окно сохранения. Здесь дайте имя файлу и нажмите ОК.

Что еще вы можете сделать с gImageReader?

Как упоминалось ранее, gImageReader также дает вам возможность изменять определенные аспекты импортированных изображений или документов, такие как их яркость, контрастность и разрешение. Кроме того, при необходимости вы также можете инвертировать цвета или поворачивать изображения или документы.

Большинство этих параметров могут оказаться полезными, когда текст на изображении или в документе не читается gImageReader и, следовательно, не позволяет инструменту распознать текст.

Чтобы получить доступ к любому из этих параметров редактирования, нажмите кнопку «Элементы управления изображением», и под основной панелью инструментов появится мини-панель инструментов. Отсюда выберите соответствующие кнопки, чтобы выполнить желаемую операцию редактирования изображения или документа.

Извлечение текста в Linux стало проще благодаря gImageReader

Для извлечения текста часто требуется правильный инструмент: тот, который использует надежный и точный механизм оптического распознавания символов, который позволяет эффективно идентифицировать текст на изображении или документе, чтобы вы могли эффективно извлекать его без каких-либо хлопот.

gImageReader отлично справляется с этой задачей благодаря механизму OCR Tesseract, который он использует в фоновом режиме. Учитывая простоту использования, gImageReader, несомненно, является одним из лучших инструментов для извлечения текста, доступных для Linux.

В качестве альтернативы, если вы ищете более простое решение, вы можете проверить TextSnatcher, который является быстрым и довольно простым в использовании.