Смешная OCR-ситуация

424
Paul Bergström

У меня есть отсканированный многостраничный PDF-файл с разрешением 300 точек на дюйм в системе Ubuntu 16.04.

Когда я запускаю следующую команду:

pdfocr -t -l swe -i *.pdf -o newfile.pdf 

В результате получается файл, полностью читаемый OCR. Каждое слово доступно для поиска независимо от размера и формы шрифтов.

Однако следующим шагом в процессе является преобразование этого PDF в PDF / A-1b. Это сделано Ghostscript 9.18 с помощью команды:

gs -dPDFA -dBATCH -dNOPAUSE -dUseCIEColor -sProcessColorModel=DeviceCMYK -sDEVICE=pdfwrite -sPDFACompatibilityPolicy=1 -sOutputFile=konverterade/$i $i 

Полученный файл проверяется как правильный PDF / A-1b-файл, но его возможности поиска сильно изменились. Кажется, будто Ghostscript уничтожает OCR.

У кого-нибудь есть идея, что происходит?

Спасибо заранее.

/Павел

2
Возможно, pdfocr имеет необычную кодировку. Вы пытались поменять местами шаги (сделать их совместимыми, затем ocr)? Yorik 7 лет назад 0
Ну, я думаю, это не должно быть сделано. Соответствие PDF / A блокирует файл. После этого вы не можете добавить, вычтите или измените что-нибудь в файле. Paul Bergström 7 лет назад 0
Возможно ошибка? Проблема с юникодом (utf / encode / magic)? перекос? https://github.com/tesseract-ocr/tesseract/issues/357 Yorik 7 лет назад 0
Йорик, кажется, ты прав! Я просматривал вашу ссылку раньше, и теперь я убежден, что в Ghostscript есть ошибка, приводящая к ошибке. Интересно, знает ли команда Ghostscript об этой проблеме? Paul Bergström 7 лет назад 0
Поскольку в данный момент, похоже, существует проблема с Ghostscript - я также попробовал версию 9.19 с тем же результатом - я хотел бы попытаться преобразовать PDF в PDF / A-1b с помощью PDFBox, являющегося программным обеспечением на основе Java. Кто-нибудь имеет хоть малейшее представление о том, как это делается? Я гуглил какое-то описание использования, как это сделать, но пока безуспешно. Paul Bergström 7 лет назад 0

0 ответов на вопрос

Похожие вопросы