Главная » Блоги Экспертов И ИТ-Компаний » Простой способ распознать текст с картинок, фото и PDF (ПДФ) документов
Статус не указан

Простой способ распознать текст с картинок, фото и PDF (ПДФ) документов

Технология оптического распознавания символов (Optical Character Recognition, OCR) и приложения для распознавания текста помогут вам получить текст из картинок, PDF-документов, сканов, фото или других типов файлов.

OCR может быть очень мощным инструментом для любой компании или организации с интенсивным документооборотом. Ведь тогда не придется перепечатывать документы вручную и быстро находить нужную информацию в файлах с уже распознанным текстом.

Программа конвертации в PDF (ПДФ) и другие форматы + OCR приложение

Программа конвертации в PDF (ПДФ) и другие форматы + OCR приложение

DocuFreezer (ДокуФризер) – это простой и удобный инструмент офлайн-конвертер различных файлов (поддерживается 70+ входных форматов файлов) для Windows. Эта программа помогает сэкономить время при сохранении сразу нескольких файлов в популярные форматы PDF, JPEG, TIFF, PNG, TXT. Также доступны функции объединения (слияния) файлов, работы с вложениями и архивами. В недавно вышедшей версии 3.0 программа получает встроенный OCR-компонент.

Как распознать текст из фото JPG, PNG, TIFF и других форматов

Вместо того, чтобы вручную перепечатывать текст с картинки или отсканированного документа, можно значительно сэкономить время, скачав приложение, которое распознает текст с фото или скана документа. Распознанный текст можно будет копировать и редактировать в удобном вам редакторе.

 

Для распознавания текста существует много различных сервисов, программ, и целых OCR-систем, которые можно найти в Интернете. Одним из простых и удобных способов является программа DocuFreezer. Это офлайн PDF-конвертер для Windows c возможностью сохранить ваши документы или изображения в универсальный формат PDF или TXT, а также популярные форматы изображений – JPEG, PNG, TIFF.

Оптическое распознавание символов при конвертировании

В последнем обновлении 3.0 стала доступна функция OCR. Так что теперь DocuFreezer – не только мощный конвертер файлов, но и программа распознающая текст с фото, сканов и других типов файлов. Ключевое преимущество программы в том, что можно конвертировать сразу много файлов в пакетном режиме.

 

Новую функцию распознавания текста в DocuFreezer можно протестировать, скачав бесплатную версию – OCR доступен и в бесплатной версии конвертера. Кстати, программа распознает тексты и на русском языке (всего доступно 6 языков).

 

Как распознать текст с картинки или фото – пошаговая инструкция

Как распознать текст с картинки или фото с помощью DocuFreezer – инструкция 

  1. Откройте программу DocuFreezer;

  2. Добавьте файл или несколько файлов в список документов;

  3. Выберите Output file type (Тип выходного файла): PDF или TEXT;

  4. Перейдите в Settings (Настройки);

  5. Поставьте галочку рядом с пунктом Make PDF Searchable (OCR) (Создать PDF с возможностью поиска) или OCR (Optical Character Recognition) (Оптическое распознавание символов);

  6. Выберите язык ваших исходных документов, например Russian (русский язык). Лучше не выбирать много языков одновременно, задайте только те языки, которые есть в ваших документах;

  7. Выберите другие опции, если нужно;

  8. Нажмите Start (Пуск);

  9. Получите сконвертированные файлы в выходной папке.

 

Чтобы обеспечить наилучший результат распознавания

  • Картинки или сканы должны быть большого размера, чтобы высота букв текста была не менее 20 пикселей
  • В настройках должны быть выбраны только те языки, которые содержатся в ваших входных файлах
  • Текст входного файла не имеет никакого поворота или искажения
  • Не должно быть темных границ, деталей и шумов рядом с текстом, иначе они будут неверно распознаны как символы

В противном случае текст может неверно или неправильно отображаться после "осиара". И, возможно, его придется отредактировать. В идеале, исходные файлы должны быть хорошего качества и иметь высокое разрешение.

 

Особенности OCR в DocuFreezer

Распознавание текста происходит автоматически, прямо во время групповой конвертации добавленных файлов. Ниже представлены некоторые особенности встроенной функции OCR в DocuFreezer.

Поддерживаемые входные типы файлов

Поддерживаемые выходные типы файлов

  • PDF
  • JPEG
  • PNG
  • TIFF
  • BMP
  • XLS
  • XLSX
  • DWG
  • DXF
  • PDF с возможностью поиска по тексту (Searchable PDF)
  • Простой текст (TEXT, TXT)

Поддерживаемые языки

Поддерживаемые виды документов

  • Английский
  • Немецкий
  • Иврит
  • Японский
  • Русский
  • Испанский
  • PDF-документы
  • практически любые растровые изображения: фотографии, картинки, сканы
  • чертежи Автокад
  • таблицы Excel


Как указано выше, на выходе вы получите простой текст TXT или PDF с возможностью поиска текста. Чтобы найти и выделить нужный текст в получившемся PDF-файле, достаточно открыть документ, нажать комбинацию клавиш Ctrl + F и ввести нужные слова или символы. Также текст внутри PDF-а можно будет выделять мышкой и копировать.


Данный материал является частной записью члена сообщества Club.CNews.
Редакция CNews не несет ответственности за его содержание.
Комментарии
Другие публикации
RU,
Информационные технологии



Забыли пароль?
Зарегистрируйся сейчас!
Присоединяйся к нашему обществу для того чтобы познакомиться с новыми людьми, создать собственный блог, публиковать анонсы событий и объявления, а также участвовать в обсуждении публикаций CNews. Мы создали единое пространство для общения специалистов рынка информационных технологий и всех, кто интересуется современными технологиями. Регистрация =>