Як швидко розпізнати відсканований текст?

В роботі досить часто стикаюся з необхідністю розпізнати текст. Будь то відсканована книга, PDF-документ або ж потрібно просто витягнути текст з картинки. У статті хочу розповісти, як я це роблю, і поділитися деяким досвідом. Сподіваюся, поради в статті зможуть допомогти початківцям користувачам навчитися якісно розпізнавати текст з відсканованих картинок або інших графічних файлів. Я розповім про недоліки і переваги онлайн розпізнання. А також подивимося, яку програму потрібно встановити і як її використовувати для якісного розпізнавання тексту на зображеннях.

Що ми маємо на увазі під словами «розпізнати текст»?

Відео: Розпізнавання тексту. Перекласти картинку і ПДФ в ворд. Кращі методи

Розпізнати текст - це перевести текст з картинки в текст або символи уявлення в комп`ютері. Якщо на відсканованому зображенні є текст, тоді після розпізнання ви отримаєте його у вигляді документа (PDF, MS Word, Excel, Html, Rtf, txt), який можна редагувати. Розпізнавання, наприклад, використовується для конвертації відсканованих книг або документів в електронний вигляд. Створений файл буде в точності повторювати структуру вихідного документа, буде збережено розташування таблиць, колонок і назви шрифтів. В такому розпізнаний вигляді набагато легше працювати з текстом, а також передавати по мережі.

Потрібно швидко розпізнати відсканований текст?

Онлайн сервіси вам на допомогу. Досить часто в своїй практиці я користувався можливістю розпізнати текст онлайн. Дуже зручно користуватися послугами онлайн розпізнавання, якщо ви наприклад не на роботі. Даю деякі посилання:

OCRconvert.com - це безкоштовний онлайн сервіс, який дозволяє розпізнати текст з PDF-файлів JPEG файлів і т.д. в загальному, будь-які відскановані зображення можете конвертувати в текст.

Дещо про мінуси:

  • Розпізнаний текст потрібно самому копіювати з веб-сторінки. Немає функції експорту в * .doc або * .docx. Як ви розумієте, не про яке збереження форматування мови бити не може - тільки текст. Якщо вам це не суть важливо - тоді немає проблем.

OnlineOCR.ru - дозволяє розпізнати текст з простої картинки, що сканує документа або фотографії. Результат можна отримати в будь-якому з 6 підтримуваних форматів.

Дещо про мінуси:

Відео: Як розпізнати PDF в Word

  • Потрібно зареєструватися.
  • А останнім часом сервіс став платним. Ось що написано в моєму акаунті: «Недостатньо кредитів для повнофункціонального розпізнавання. Можливий демонстраційний режим (розпізнається тільки частина тексту). Купити кредити ».


FineReader Online - за допомогою цього сервісу ви можете перевести отримані зображення в електронний формат, зручний для редагування і зберігання.

Дещо про мінуси:

  • Потрібно зареєструватися.
  • Ліміт на кількість документів для розпізнання
  • А останнім часом сервіс став платним. Ось що написано в моєму акаунті: «У вас недостатньо сторінок для розпізнавання. Будь ласка, відвідайте наш магазин і купіть 20 сторінок ».

Можете скористатися їх послугами в тому випадку, якщо потрібно розпізнати текст з усього однієї або декількох картинок - не більше. У такому випадку, можливо і немає сенсу встановлювати програми для розпізнання тексту.

Відео: Як безкоштовно розпізнати сканований текст

Недоліки всіх онлайн сервісів:

  • Потрібно реєструватися в системі
  • Ліміт на кількість документів для розпізнання
  • Немає можливості налаштувати процес розпізнання. Якщо складні сторінки, де переплетені картинки формули і текст на різних мовах - дуже складно отримати гідний результат розпізнання.
  • Залежимо від інтернету.

Як розпізнати відсканований текст за допомогою програми.

Якщо недоліки онлайн сервісів для вас критичні - тоді потрібно завантажити програму і встановити на комп`ютер для стаціонарного розпізнавання тексту. Таких програм досить багато. Але найкращим рішенням для розпізнавання відсканованого тексту я вважаю програму ABBYY FineReader. Програма призначена для якісного розпізнавання тексту, дозволяє швидко і точно перекладати будь-які зображення (не тільки зі сканера, але і з цифрових фотоапаратів або мобільних телефонів) а також PDF-файли - в електронні, редаговані формати і у вас не буде необхідності передруковувати все «вручну ».

Основні можливості ABBYY FineReader:

  • Точність розпізнавання і збереження форматування документа.
  • Зрозумілий інтерфейс - програма дуже проста у використанні.
  • Розпізнавання цифрових зображень з будь-яких джерел.
  • Переклад в популярні електронні формати - DOCX, XLSX, PDF і інші.
  • Є інструменти для поліпшення якості фотографій документів.
  • Типові сценарії для перекладу в найпопулярніші формати.
  • Запуск безпосередньо з офісних додатків Microsoft Word, Excel, Outlook.
  • Підтримка 179 мов розпізнавання.

Приклад: як розпізнати текст з картинки

Встановлюємо і запускаємо програму. Далі нам потрібно відкрити в програмі ті зображення, текст з яких потрібно розпізнати і зберегти як документ Microsoft Word.

Відео: Як розпізнати текст з картинки

FineReader відразу ж пропонує вибрати сценарій, за яким ми будемо працювати. У нашому випадку вже є зображення (скрін офф-сайту ABBYY FineReader), тому я виберу «зображення в Microsoft Word». У вашому випадку може бути інший сценарій.

У моєму прикладі знімок має досить невелику роздільну здатність. І програма вивела попередження. Ви повинні знати - чим більше дозвіл зображення, тим менше буде помилок. Це слід враховувати, якщо ви користуєтеся НЕ сканером а, наприклад, мобільним телефоном.

Як тільки я вказав зображення, яке потрібно розпізнати програма в автоматичному режимі визначила розташування елементів і спробувала розпізнати текст на сторінці. Якщо вас не влаштовує то, як програма визначила блоки з текстом і картинками - можете видалити те, що виділила програма і, скориставшись панеллю інструментів самостійно вказати, що потрібно розпізнати як текст або таблицю, а що залишити як картинку.

Для прикладу хедер сайту (на зображенні) має і малюнок, і текст, але його не потрібно розпізнавати, тому я його всього виділю як картинку. Так зробіть з усіма блоками зображення. Виділіть, що є картинка, а що потрібно розпізнати як текст.

Як тільки ви вкажете налаштування області розпізнання, мова тексту (або залиште за умовчанням «Автоматичний вибір» мови) - потрібно заново розпізнати малюнок.

Після повторного розпізнання всіх сторінок програма виведе результат у вигляді документа Microsoft Word. Якщо потрібно зберегти в іншому форматі - у вкладці «Зберегти» просто вибираєте потрібний формат. Таким чином, можна створювати pdf файли з відсканованих картинок і т.д.

Як бачимо, після правильного налаштування області розпізнавання (то, чого немає в онлайн сервісах) результат просто приголомшливий! Програма впоралася з таким складним завданням на 5 + !!! Як завжди - FineReader радує надійністю і якістю роботи!

От і все! Ми на прикладі побачили, як можна якісно розпізнати текст, практично з будь-яких зображень. Сподіваємося, Вам будуть корисними і інші статті на нашому сайті. Успіхів!

Поділися в соц мережах:
Cхоже

Увага, тільки СЬОГОДНІ!