Як швидко розпізнати відсканований текст?
В роботі досить часто стикаюся з необхідністю розпізнати текст. Будь то відсканована книга, PDF-документ або ж потрібно просто витягнути текст з картинки. У статті хочу розповісти, як я це роблю, і поділитися деяким досвідом. Сподіваюся, поради в статті зможуть допомогти початківцям користувачам навчитися якісно розпізнавати текст з відсканованих картинок або інших графічних файлів. Я розповім про недоліки і переваги онлайн розпізнання. А також подивимося, яку програму потрібно встановити і як її використовувати для якісного розпізнавання тексту на зображеннях.
Що ми маємо на увазі під словами «розпізнати текст»?
Відео: Розпізнавання тексту. Перекласти картинку і ПДФ в ворд. Кращі методи
Розпізнати текст - це перевести текст з картинки в текст або символи уявлення в комп`ютері. Якщо на відсканованому зображенні є текст, тоді після розпізнання ви отримаєте його у вигляді документа (PDF, MS Word, Excel, Html, Rtf, txt), який можна редагувати. Розпізнавання, наприклад, використовується для конвертації відсканованих книг або документів в електронний вигляд. Створений файл буде в точності повторювати структуру вихідного документа, буде збережено розташування таблиць, колонок і назви шрифтів. В такому розпізнаний вигляді набагато легше працювати з текстом, а також передавати по мережі.
Потрібно швидко розпізнати відсканований текст?
Онлайн сервіси вам на допомогу. Досить часто в своїй практиці я користувався можливістю розпізнати текст онлайн. Дуже зручно користуватися послугами онлайн розпізнавання, якщо ви наприклад не на роботі. Даю деякі посилання:
Дещо про мінуси:
- Розпізнаний текст потрібно самому копіювати з веб-сторінки. Немає функції експорту в * .doc або * .docx. Як ви розумієте, не про яке збереження форматування мови бити не може - тільки текст. Якщо вам це не суть важливо - тоді немає проблем.
Дещо про мінуси:
Відео: Як розпізнати PDF в Word
- Потрібно зареєструватися.
- А останнім часом сервіс став платним. Ось що написано в моєму акаунті: «Недостатньо кредитів для повнофункціонального розпізнавання. Можливий демонстраційний режим (розпізнається тільки частина тексту). Купити кредити ».
Дещо про мінуси:
- Потрібно зареєструватися.
- Ліміт на кількість документів для розпізнання
- А останнім часом сервіс став платним. Ось що написано в моєму акаунті: «У вас недостатньо сторінок для розпізнавання. Будь ласка, відвідайте наш магазин і купіть 20 сторінок ».
Можете скористатися їх послугами в тому випадку, якщо потрібно розпізнати текст з усього однієї або декількох картинок - не більше. У такому випадку, можливо і немає сенсу встановлювати програми для розпізнання тексту.
Відео: Як безкоштовно розпізнати сканований текст
Недоліки всіх онлайн сервісів:
- Потрібно реєструватися в системі
- Ліміт на кількість документів для розпізнання
- Немає можливості налаштувати процес розпізнання. Якщо складні сторінки, де переплетені картинки формули і текст на різних мовах - дуже складно отримати гідний результат розпізнання.
- Залежимо від інтернету.
Як розпізнати відсканований текст за допомогою програми.
Якщо недоліки онлайн сервісів для вас критичні - тоді потрібно завантажити програму і встановити на комп`ютер для стаціонарного розпізнавання тексту. Таких програм досить багато. Але найкращим рішенням для розпізнавання відсканованого тексту я вважаю програму ABBYY FineReader. Програма призначена для якісного розпізнавання тексту, дозволяє швидко і точно перекладати будь-які зображення (не тільки зі сканера, але і з цифрових фотоапаратів або мобільних телефонів) а також PDF-файли - в електронні, редаговані формати і у вас не буде необхідності передруковувати все «вручну ».
Основні можливості ABBYY FineReader:
- Точність розпізнавання і збереження форматування документа.
- Зрозумілий інтерфейс - програма дуже проста у використанні.
- Розпізнавання цифрових зображень з будь-яких джерел.
- Переклад в популярні електронні формати - DOCX, XLSX, PDF і інші.
- Є інструменти для поліпшення якості фотографій документів.
- Типові сценарії для перекладу в найпопулярніші формати.
- Запуск безпосередньо з офісних додатків Microsoft Word, Excel, Outlook.
- Підтримка 179 мов розпізнавання.
Приклад: як розпізнати текст з картинки
Встановлюємо і запускаємо програму. Далі нам потрібно відкрити в програмі ті зображення, текст з яких потрібно розпізнати і зберегти як документ Microsoft Word.
Відео: Як розпізнати текст з картинки
FineReader відразу ж пропонує вибрати сценарій, за яким ми будемо працювати. У нашому випадку вже є зображення (скрін офф-сайту ABBYY FineReader), тому я виберу «зображення в Microsoft Word». У вашому випадку може бути інший сценарій.
У моєму прикладі знімок має досить невелику роздільну здатність. І програма вивела попередження. Ви повинні знати - чим більше дозвіл зображення, тим менше буде помилок. Це слід враховувати, якщо ви користуєтеся НЕ сканером а, наприклад, мобільним телефоном.
Як тільки я вказав зображення, яке потрібно розпізнати програма в автоматичному режимі визначила розташування елементів і спробувала розпізнати текст на сторінці. Якщо вас не влаштовує то, як програма визначила блоки з текстом і картинками - можете видалити те, що виділила програма і, скориставшись панеллю інструментів самостійно вказати, що потрібно розпізнати як текст або таблицю, а що залишити як картинку.
Для прикладу хедер сайту (на зображенні) має і малюнок, і текст, але його не потрібно розпізнавати, тому я його всього виділю як картинку. Так зробіть з усіма блоками зображення. Виділіть, що є картинка, а що потрібно розпізнати як текст.
Як тільки ви вкажете налаштування області розпізнання, мова тексту (або залиште за умовчанням «Автоматичний вибір» мови) - потрібно заново розпізнати малюнок.
Після повторного розпізнання всіх сторінок програма виведе результат у вигляді документа Microsoft Word. Якщо потрібно зберегти в іншому форматі - у вкладці «Зберегти» просто вибираєте потрібний формат. Таким чином, можна створювати pdf файли з відсканованих картинок і т.д.
Як бачимо, після правильного налаштування області розпізнавання (то, чого немає в онлайн сервісах) результат просто приголомшливий! Програма впоралася з таким складним завданням на 5 + !!! Як завжди - FineReader радує надійністю і якістю роботи!
От і все! Ми на прикладі побачили, як можна якісно розпізнати текст, практично з будь-яких зображень. Сподіваємося, Вам будуть корисними і інші статті на нашому сайті. Успіхів!