PDFtotext - Pdftotext

pdftotext является Открытый исходный код командная строка утилита для конвертации PDF файлы в простой текст файлы, т.е. извлечение текстовых данных из файлов в формате PDF. Он находится в свободном доступе и по умолчанию включен во многие Linux распределения, а также доступен для Windows как часть Xpdf Порт Windows. Такое извлечение текста усложняется, поскольку файлы PDF внутренне построены на примитивах рисования страниц, что означает, что границы между словами и абзацами часто должны определяться на основе их положения на странице.

pdftotext является частью программного пакета Xpdf. Попплер, который является производным от Xpdf, также включает реализацию pdftotext. В большинстве дистрибутивов Linux pdftotext включен как часть пакета poppler-utils.[1]

Смотрите также

Рекомендации

  1. ^ "попплер-утилит". linuxappfinder.com. Получено 2018-09-14.

внешняя ссылка