Способы извлечения текста из файла в формате PDF

03.11.2012

В этой статье мы поговорим о том, как преобразовать документ в формате PDF в текст, который можно отредактировать. Часто эта функция необходима для написания сборных текстов. Ведь многие данные сейчас,  публикуются в Интернете в виде PDF презентаций, а набирать этот текст вручную, достаточно  муторная задача. Хоть копипаст и зло, иногда он очень выручает. 

Первый вариант — воспользоваться функционалом «Save as text» («Сохранить как текст»). Дело в том, что последние версии Adobe Reader в собственном меню, а именно во вкладке «Файл» имеют функцию «Сохранить как текст». Так, если в исходном файле защита текста отсутствуют, то используя данную функцию за 1 клик можно преобразовать странички исходного файла в редактируемый текст.

Способы извлечения текста из файла в формате PDF

Второй вариант извлечения текста из файла в формате PDF — OCR-программы.

Когда стоит защита от копирования либо при копировании, то текстовая информация сохраняется в виде символов и вопросов. В этом случае можно воспользоваться специальными программами для распознавания текстов. Речь идёт о OCR-программах «Optical Character Recognition» — распознавание знаков оптическим способом. Одним словом, данные программы преобразуют PDF-файл в текст, который можно отредактировать.

Третий вариант, как извлечь текст из файла в формате PDF — воспользоваться функцией «Text Select» («Выделение текста»).

Программа Adobe Reader оснащена инструментом «Text Select», хорошо работающим с отдельными строчками текста. Для выделения нужного фрагмента текста, необходимо вытянуть прямоугольник выделения на отрывок текстовой информации, а затем скопировать выделенный фрагмент и вставить в любой редактор текстов.

Четвёртый вариант извлечения текст из файла в формате PDF – использование программ-конверторов PDF-файлов. В числе таких значатся:

  • ABBYY PDF Transformer (конвертирует в Word, Excel);
  •  PDF2Word (конвертирует в Word);
  •  VeryPDF PDF2Word (конвертирует в Word);
  •  Free PDF to Word Converter (конвертирует в Word);
  •  Solid Converter PDF(конвертирует в Word, Excel);
  •  Tweak PDF Converter (конвертирует в Word).

И последний способ извлечения текст из файла в формате PDF — специальные онлайн-сервисы. Например:

  •  сервис ZamZar;
  • сервис FreePDFConvert;
  • сервис PDFOnline.

Комментариев нет

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *