Смешная OCR-ситуация
455
Paul Bergström
У меня есть отсканированный многостраничный PDF-файл с разрешением 300 точек на дюйм в системе Ubuntu 16.04.
Когда я запускаю следующую команду:
pdfocr -t -l swe -i *.pdf -o newfile.pdf
В результате получается файл, полностью читаемый OCR. Каждое слово доступно для поиска независимо от размера и формы шрифтов.
Однако следующим шагом в процессе является преобразование этого PDF в PDF / A-1b. Это сделано Ghostscript 9.18 с помощью команды:
gs -dPDFA -dBATCH -dNOPAUSE -dUseCIEColor -sProcessColorModel=DeviceCMYK -sDEVICE=pdfwrite -sPDFACompatibilityPolicy=1 -sOutputFile=konverterade/$i $i
Полученный файл проверяется как правильный PDF / A-1b-файл, но его возможности поиска сильно изменились. Кажется, будто Ghostscript уничтожает OCR.
У кого-нибудь есть идея, что происходит?
Спасибо заранее.
/Павел
Возможно, pdfocr имеет необычную кодировку. Вы пытались поменять местами шаги (сделать их совместимыми, затем ocr)?
Yorik 8 лет назад
0
Ну, я думаю, это не должно быть сделано. Соответствие PDF / A блокирует файл. После этого вы не можете добавить, вычтите или измените что-нибудь в файле.
Paul Bergström 8 лет назад
0
Возможно ошибка? Проблема с юникодом (utf / encode / magic)? перекос? https://github.com/tesseract-ocr/tesseract/issues/357
Yorik 8 лет назад
0
Йорик, кажется, ты прав! Я просматривал вашу ссылку раньше, и теперь я убежден, что в Ghostscript есть ошибка, приводящая к ошибке. Интересно, знает ли команда Ghostscript об этой проблеме?
Paul Bergström 8 лет назад
0
Поскольку в данный момент, похоже, существует проблема с Ghostscript - я также попробовал версию 9.19 с тем же результатом - я хотел бы попытаться преобразовать PDF в PDF / A-1b с помощью PDFBox, являющегося программным обеспечением на основе Java. Кто-нибудь имеет хоть малейшее представление о том, как это делается? Я гуглил какое-то описание использования, как это сделать, но пока безуспешно.
Paul Bergström 8 лет назад
0
0 ответов на вопрос
Похожие вопросы
-
14
PDF Viewer в Windows
-
8
Firefox PDF плагин для просмотра PDF в браузере на Windows
-
17
Как распечатать документы в pdf
-
-
2
Firefox печать в PDF-файл
-
4
PDF Reader для iPhone
-
6
Adobe Reader: запомните пароль для файла PDF
-
4
Можно ли добавить свои собственные закладки / вкладки в файл PDF?
-
5
Какие альтернативы Adobe Acrobat имеют функции подписи PDF
-
3
Какое программное обеспечение может преобразовать почерк в текст?
-
1
Составить оглавление для многих .odt-файлов