OCR испортил Ghostscript

Question

OCR испортил Ghostscript

634

Paul Bergström 2016-07-25 в 12:30

В прошлом году в Ghostscript была обнаружена ошибка. Это задокументировано здесь: http://bugs.ghostscript.com/show_bug.cgi?id=696116

Помечено Статус: РАЗРЕШЕНО WONTFIX

В конце концов, правопреемник Кен Шарп пишет: «К сожалению, я не вижу никаких перспектив для решения этой проблемы в Ghostscript».

У меня к кому-то два вопроса:

Неужели нет способа заставить Ghostscript решить эту проблему (с добавлением пробелов между символами)?
Существует ли альтернатива Ghostscript с открытым исходным кодом, которая может конвертировать отсканированный PDF в PDF / A-1b без использования OCR?

Спасибо заранее!

/Павел

-1

Если вы не готовы исправить программную ошибку, да, она вряд ли будет исправлена. Я уверен, что есть альтернативы, я предлагаю, вы найдете один. Ramhound 8 лет назад 0

Да, я знаю, что есть альтернативы, но насколько я знаю, это не open source. Поэтому я предполагаю, что поскольку программное обеспечение Tesseract для распознавания OCR с открытым исходным кодом выполняет чтение OCR, а другие (проприетарные) программы полностью сохраняют точность при преобразовании в PDF / A-1b, в Ghostscript это должно быть решаемой проблемой, поскольку все технические характеристики открыты и известны. Однако у меня нет этих навыков, чтобы вносить изменения в код Ghostscript, но обстоятельства для этого должны быть возможны, чтобы исправить это для кого-то с достаточными знаниями. Paul Bergström 8 лет назад 0

1 ответ на вопрос

1

Accepted Answer · 2016-07-25 13:50:15

Неужели нет способа заставить Ghostscript решить эту проблему (с добавлением пробелов между символами)?

Кен Шарп говорит

то, с чем вы, похоже, сталкиваетесь, является ограничением в поисковой системе Acrobat, которое проявляется в том, как мы генерируем текст.

Я думаю, что он говорит, что не Ghostscript добавляет пробелы между символами.

И я верю его объяснению. На драйвер устройства PDFWrite распространяются ограничения на драйвер устройства в Ghostscript. Я полагаю, что API был разработан для того, чтобы делать отметки на видимых поверхностях, а не для чего-либо еще, что впоследствии было добавлено.

В частности, представление о том, что последовательность меток составляет слово, не имеет значения при нанесении меток в указанных позициях. Устройство для создания меток не должно знать разницу между пробелом и интервалом (кернинг и т. Д.).

Отчасти следствием этого является то, что, насколько я знаю, слова не являются предметом ни в PDF, ни в постскриптуме его предка. Им не нужно отслеживать слова и не предоставлять какой-либо конкретный способ их идентификации в содержимом файлов PDF или PS.

Существует ли альтернатива Ghostscript с открытым исходным кодом, которая может конвертировать отсканированные файлы PDF в PDF / A-1b без использования OCR?

Насколько я знаю, спецификации PDF не определяют «отсканированный PDF» или «OCR». Некоторые инструменты для создания PDF-файлов предположительно используют возможности PDF-файлов при создании PDF-файлов из отсканированных изображений и при невидимом добавлении текста, созданного с помощью OCR. Это позволяет выполнять поиск текста и операции вырезания и вставки для созданного PDF-файла, что было бы невозможно, если бы присутствовало только растровое изображение.

Такие PDF-файлы могут быть полезны, но они действительно немного мерзости. Всегда лучше создать PDF-файл из не отсканированных источников, если это возможно.

Первоначально PDF задумывался как «окончательный» формат документа. Никто не собирался проводить дальнейшие манипуляции с ним.

Однако должно быть возможно, что другие программы, поддерживающие манипулирование PDF, делают это, не заставляя преобразование выполняться через API печати. В этом случае они могут сделать это так, чтобы получить результат, который лучше соответствует особенностям Acrobat и другого программного обеспечения для чтения PDF.

OCR испортил Ghostscript

1 ответ на вопрос

Похожие вопросы