Как извлечь текст из PDF-файлов и изображений с помощью gImageReader

You are currently viewing Как извлечь текст из PDF-файлов и изображений с помощью gImageReader

Что такое gImageReader?

gImageReader — это приложение, которое позволяет извлекать текст из изображений и PDF-файлов в Linux. По сути, это графический интерфейс или внешний интерфейс для механизма распознавания текста Tesseract, механизма с открытым исходным кодом, разработанного Hewlett-Packard, который считается одним из лучших доступных механизмов распознавания.

С gImageReader вы можете легко и достаточно точно извлекать текст из изображений или PDF-документов с помощью нескольких простых кликов. Затем вы можете экспортировать извлеченный текст в текстовый файл или файл PDF для дальнейшего использования.

Особенности gImageReader

gImageReader имеет следующие функции:

  • Импорт PDF-документов и изображений из разных источников (диск, сканирующие устройства, буфер обмена и снимок экрана)
  • Пакетная обработка изображений или документов, т. е. извлечение текста из нескольких изображений или документов одновременно.
  • Распознавать текстовые фрагменты как обычный текст или документы hOCR
  • Встроенная проверка орфографии
  • Автоматическое определение области текста
  • Базовое редактирование изображений/документов
  • Сохранить вывод в виде текстового файла

Как установить gImageReader в Linux

gImageReader доступен в большинстве основных дистрибутивов Linux. Но прежде чем приступить к его установке, вам необходимо установить в вашей системе механизм распознавания текста Tesseract.

Для этого откройте Диспетчер программного обеспечения в своей системе и найдите tesseract. Когда он вернет список результатов, установите пакеты tesseract-ocr и tesseract-ocr-eng. Вы также можете использовать диспетчеры пакетов командной строки для установки пакета, если вам удобнее работать с терминалом.

После этого ознакомьтесь с инструкциями по установке в следующих разделах, чтобы установить gImageReader на свой компьютер.

Если вы используете Debian или Ubuntu, откройте терминал и выполните следующие команды, чтобы установить gImageReader:

sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update
sudo apt install gimagereader

В Fedora, CentOS или Red Hat Enterprise Linux (RHEL):

sudo dnf install gimagereader-qt 

В Arch Linux или Manjaro:

sudo pacman -S gimagereader

Пользователи openSUSE могут установить gImageReader, используя:

sudo zypper install gimagereader

Если вы используете любой другой дистрибутив Linux, вы можете собрать gImageReader из исходного кода, следуя инструкциям на GitHub gImageReader.

Как использовать gImageReader в Linux

gImageReader довольно прост в использовании и работает со всеми типами файлов изображений, а также с документами PDF. Следуйте приведенным ниже инструкциям, чтобы извлечь текст из изображений или PDF-файлов в Linux.

Откройте меню приложений, найдите gImageReader и запустите приложение. Нажмите кнопку Maximize в окне gImageReader, чтобы открыть его в полноэкранном режиме.

Теперь нажмите кнопку Add images на левой панели под панелью инструментов и используйте браузер файлов, чтобы выбрать изображения или PDF-файлы, из которых вы хотите извлечь текст.

Нажмите ОК, чтобы импортировать изображения или PDF-файлы в gImageReader. Или, если вы хотите извлечь текст из того, что отображается на экране, нажмите раскрывающийся список рядом с кнопкой «Add images» и выберите «Take Screenshot». gImageReader сделает скриншот содержимого экрана.

Добавив изображение в gImageReader, нажмите кнопку Toggle output pane (одна со значком блокнота), чтобы открыть панель вывода. Здесь появляется текст, который вы извлекаете из изображений или PDF-файлов.

В зависимости от того, как вы хотите действовать, теперь у вас есть возможность идентифицировать текст на изображении или в PDF автоматически или вручную. Чтобы сделать это автоматически, нажмите кнопку «Autodetect layout», и будут выделены все текстовые блоки в выбранном изображении или документе PDF.

После этого нажмите «Recognize selection » > «Current Page», чтобы начать процесс извлечения текста.

В качестве альтернативы, чтобы выделить текст вручную, наведите указатель мыши на текст, который хотите извлечь, и с помощью перекрестия нарисуйте рамку вокруг области, из которой вы хотите извлечь текст. Затем нажмите кнопку Recognize selection , чтобы продолжить.

Если это PDF-документ и вы хотите извлечь текст с разных страниц, нажмите кнопку Плюс (+), чтобы перевернуть страницы.

Чтобы вернуться назад, нажмите кнопку Минус (-). Затем выберите текст, который хотите извлечь, и нажмите кнопку Recognize selection, чтобы извлечь его.

Хотя и редко, но могут быть случаи, когда gImageReader возвращает извлеченный текст на языке, отличном от английского. Когда это произойдет, просто нажмите кнопку раскрывающегося списка рядом с кнопкой «Recognize selection » и выберите один из вариантов на английском языке.

Наконец, чтобы сохранить извлеченный текст, нажмите кнопку Save output . Это вызовет окно сохранения. Здесь дайте имя файлу и нажмите ОК.

Что еще вы можете сделать с gImageReader?

Как упоминалось ранее, gImageReader также дает вам возможность изменять определенные аспекты импортированных изображений или документов, такие как их яркость, контрастность и разрешение. Кроме того, при необходимости вы также можете инвертировать цвета или поворачивать изображения или документы.

Большинство этих параметров могут оказаться полезными, когда текст на изображении или в документе не читается gImageReader и, следовательно, не позволяет инструменту распознать текст.

Чтобы получить доступ к любому из этих параметров редактирования, нажмите кнопку «Элементы управления изображением», и под основной панелью инструментов появится мини-панель инструментов. Отсюда выберите соответствующие кнопки, чтобы выполнить желаемую операцию редактирования изображения или документа.

Извлечение текста в Linux стало проще благодаря gImageReader

Для извлечения текста часто требуется правильный инструмент: тот, который использует надежный и точный механизм оптического распознавания символов, который позволяет эффективно идентифицировать текст на изображении или документе, чтобы вы могли эффективно извлекать его без каких-либо хлопот.

gImageReader отлично справляется с этой задачей благодаря механизму OCR Tesseract, который он использует в фоновом режиме. Учитывая простоту использования, gImageReader, несомненно, является одним из лучших инструментов для извлечения текста, доступных для Linux.

В качестве альтернативы, если вы ищете более простое решение, вы можете проверить TextSnatcher, который является быстрым и довольно простым в использовании.

232210cookie-checkКак извлечь текст из PDF-файлов и изображений с помощью gImageReader

Автор публикации

не в сети 1 месяц

ViGo

Комментарии: 6Публикации: 1133Регистрация: 29-04-2020
Если Вам понравилась статья, то поделитесь ею в соц.сетях:
guest

0 комментариев
Inline Feedbacks
View all comments
0
Поделиться своими мыслямиx
account android arrow-alt-circle-down arrow-alt-circle-left arrow-alt-circle-right arrow-alt-circle-up arrow-down arrow-left arrow-right arrow-up author bars behance blogger buffer caret-down caret-left caret-right caret-square-down caret-square-left caret-square-right caret-square-up caret-up cart-menu-1 cart-menu-2 cart-menu-3 cart-menu-4 categories chevron-down chevron-left chevron-right chevron-up clock close comments cookies copyright coupon-discount date-modified date-published discord double-arrows-down double-arrows-left double-arrows-right double-arrows-up dribbble envelope-open envelope eye facebook fax flickr foursquare github gmail google-drive grid-view hashtag hollow-ring homepage instagram ios level-down-alt level-up-alt line link linkedin list-view login logout long-arrow-alt-down long-arrow-alt-left long-arrow-alt-right long-arrow-alt-up medium messenger mobile-menu mobile phone pinterest place qq quote-left quote-right quotes reading-time-hourglass reading-time-stopwatch reddit rss scroll-to-top search shazam shopping-bag shopping-cart side-panel-opening-2-left side-panel-opening-2-right side-panel-opening-left side-panel-opening-right skype slack small-arrow-down small-arrow-left small-arrow-right small-arrow-up sms snapchat soundcloud spinner spotify stackoverflow sync telegram tiktok times-circle tinder trello tripadvisor tumblr twitch twitter viber vimeo vine vkontakte website wechat whatsapp windows wishlist xing yelp youtube zoom