Як отримати текст із PDF-файлів та зображень за допомогою gImageReader

Якщо ви студент або ваша робота пов’язана з великою кількістю зображень та PDF-файлів, у якийсь момент ви відчули необхідність витягти текст із зображення або документа. На щастя, вилучення тексту робить це можливим. І є кілька інструментів, які ви можете використати для цього. gImageReader — один із багатьох інструментів. Це безкоштовна програма, яка працює як з файлами зображень, так і з документами PDF.

Давайте детально розглянемо gImageReader та подивимося, як ви можете використовувати його для вилучення тексту з зображень та PDF-файлів.

Що таке gImageReader?

gImageReader — це програма, яка дозволяє витягувати текст із зображень та PDF-файлів у Linux. По суті це графічний інтерфейс або зовнішній інтерфейс для механізму розпізнавання тексту Tesseract, механізму з відкритим вихідним кодом, розробленого Hewlett-Packard, який вважається одним з кращих доступних механізмів розпізнавання.

З gImageReader можна легко і досить точно витягувати текст із зображень або PDF-документів за допомогою кількох простих кліків. Потім можна експортувати витягнутий текст у текстовий файл або PDF-файл для подальшого використання.

Особливості gImageReader

gImageReader має такі функції:

Імпорт PDF-документів та зображень з різних джерел (диск, скануючі пристрої, буфер обміну та знімок екрана)
Пакетна обробка зображень чи документів, тобто вилучення тексту з кількох зображень чи документів одночасно.
Розпізнавати текстові фрагменти як звичайний текст чи документи hOCR
Вбудована перевірка орфографії
Автоматичне визначення області тексту
Базове редагування зображень/документів
Зберегти висновок у вигляді текстового файлу

Як встановити gImageReader в Linux

gImageReader доступний у більшості основних Linux-дистрибутивів. Але перш ніж приступити до встановлення, вам необхідно встановити у вашій системі механізм розпізнавання тексту Tesseract.

Для цього відкрийте Диспетчер програмного забезпечення у своїй системі і знайдіть tesseract. Коли він поверне список результатів, установіть пакети tesseract-ocr та tesseract-ocr-eng. Ви також можете використовувати диспетчери пакетів командного рядка для встановлення пакета, якщо вам зручніше працювати з терміналом.

Після цього ознайомтеся з інструкціями з інсталяції в наступних розділах, щоб інсталювати gImageReader на свій комп’ютер.

Якщо ви використовуєте Debian або Ubuntu, відкрийте термінал і виконайте такі команди, щоб встановити gImageReader:

sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-<span class="hljs-keyword">get</span> update
sudo apt <span class="hljs-keyword">install</span> gimagereader

В Fedora, CentOS або Red Hat Enterprise Linux (RHEL):

sudo dnf <span class="hljs-keyword">install</span> gimagereader-qt

В Arch Linux або Manjaro:

sudo pacman -S gimagereader

Користувачі openSUSE можуть встановити gImageReader, використовуючи:

sudo zypper <span class="hljs-keyword">install</span> gimagereader

Якщо ви використовуєте будь-який інший дистрибутив Linux, ви можете зібрати gImageReader з вихідного коду, дотримуючись інструкцій GitHub gImageReader.

Як використовувати gImageReader в Linux

gImageReader досить простий у використанні та працює з усіма типами файлів зображень, а також з PDF-файлами. Виконайте наведені нижче інструкції, щоб отримати текст із зображень або PDF-файлів у Linux.

Відкрийте меню програм, знайдіть gImageReader і запустіть програму. Натисніть кнопку Maximize у вікні gImageReader, щоб відкрити його у повноекранному режимі.

Тепер натисніть кнопку Add images на лівій панелі під панеллю інструментів і скористайтеся браузером файлів, щоб вибрати зображення або PDF-файли, з яких ви хочете витягти текст.

Натисніть OK, щоб імпортувати зображення або PDF-файли до gImageReader. Або, якщо ви хочете витягти текст з того, що відображається на екрані, натисніть список, що розкривається, поруч з кнопкою «Add images» і виберіть «Take Screenshot». gImageReader зробить скріншот вмісту екрана.

Додавши зображення до gImageReader, натисніть кнопку Toggle output pane (одна із позначкою блокнота), щоб відкрити панель виведення. Тут з’являється текст, який ви виймаєте із зображень або PDF-файлів.

Залежно від того, як ви хочете діяти, тепер у вас є можливість ідентифікувати текст на зображенні або PDF автоматично або вручну. Щоб зробити це автоматично, натисніть кнопку «Autodetect layout», і будуть виділені всі текстові блоки у вибраному зображенні або PDF-документі.

Після цього натисніть “Recognize selection” > “Current Page”, щоб розпочати процес вилучення тексту.

В якості альтернативи, щоб виділити текст вручну, наведіть вказівник миші на текст, який хочете вийняти, і за допомогою перехрестя намалюйте рамку навколо області, з якої ви хочете вийняти текст. Натисніть кнопку Recognize selection , щоб продовжити.

Якщо це PDF-документ і ви хочете витягти текст з різних сторінок, натисніть кнопку Плюс (+), щоб перевернути сторінки.

Щоб повернутися назад, натисніть кнопку Мінус (-). Потім виберіть текст, який хочете витягти, та натисніть кнопку Recognize selection, щоб витягти його.

Хоча й рідко, але можуть бути випадки, коли gImageReader повертає витягнутий текст мовою, відмінною від англійської. Коли це станеться, просто натисніть кнопку списку, що розкривається, поруч із кнопкою «Recognize selection » і виберіть один з варіантів англійською мовою.

Нарешті, щоб зберегти текст, натисніть кнопку Save output . Це викликає вікно збереження. Тут дайте ім’я файлу та натисніть ОК.

Що ще можна зробити з gImageReader?

Як згадувалося раніше, gImageReader також дає можливість змінювати певні аспекти імпортованих зображень або документів, такі як їх яскравість, контрастність і роздільна здатність. Крім того, за потреби можна також інвертувати кольори або повертати зображення або документи.

Більшість цих параметрів можуть бути корисними, коли текст на зображенні або документі не читається gImageReader і, отже, не дозволяє інструменту розпізнати текст.

Щоб отримати доступ до будь-якого з цих параметрів редагування, натисніть кнопку «Елементи керування зображенням» і під основною панеллю інструментів з’явиться міні-панель інструментів. Виберіть відповідні кнопки, щоб виконати бажану операцію редагування зображення або документа.

Вилучення тексту в Linux стало простіше завдяки gImageReader

Для вилучення тексту часто потрібен правильний інструмент: той, який використовує надійний та точний механізм оптичного розпізнавання символів, який дозволяє ефективно ідентифікувати текст на зображенні чи документі, щоб ви могли ефективно витягувати його без жодних клопотів.

gImageReader чудово справляється з цим завданням завдяки механізму OCR Tesseract, який він використовує у фоновому режимі. Враховуючи простоту використання, gImageReader, безсумнівно, є одним із найкращих інструментів для отримання тексту, доступних для Linux.

Як альтернатива, якщо ви шукаєте більш просте рішення, ви можете перевірити TextSnatcher, який є швидким і досить простим у використанні.