OCR испортил Ghostscript

601
Paul Bergström

В прошлом году в Ghostscript была обнаружена ошибка. Это задокументировано здесь: http://bugs.ghostscript.com/show_bug.cgi?id=696116

Помечено Статус: РАЗРЕШЕНО WONTFIX

В конце концов, правопреемник Кен Шарп пишет: «К сожалению, я не вижу никаких перспектив для решения этой проблемы в Ghostscript».

У меня к кому-то два вопроса:

  1. Неужели нет способа заставить Ghostscript решить эту проблему (с добавлением пробелов между символами)?
  2. Существует ли альтернатива Ghostscript с открытым исходным кодом, которая может конвертировать отсканированный PDF в PDF / A-1b без использования OCR?

Спасибо заранее!

/Павел

-1
Если вы не готовы исправить программную ошибку, да, она вряд ли будет исправлена. Я уверен, что есть альтернативы, я предлагаю, вы найдете один. Ramhound 7 лет назад 0
Да, я знаю, что есть альтернативы, но насколько я знаю, это не open source. Поэтому я предполагаю, что поскольку программное обеспечение Tesseract для распознавания OCR с открытым исходным кодом выполняет чтение OCR, а другие (проприетарные) программы полностью сохраняют точность при преобразовании в PDF / A-1b, в Ghostscript это должно быть решаемой проблемой, поскольку все технические характеристики открыты и известны. Однако у меня нет этих навыков, чтобы вносить изменения в код Ghostscript, но обстоятельства для этого должны быть возможны, чтобы исправить это для кого-то с достаточными знаниями. Paul Bergström 7 лет назад 0

1 ответ на вопрос

1
RedGrittyBrick

Неужели нет способа заставить Ghostscript решить эту проблему (с добавлением пробелов между символами)?

Кен Шарп говорит

то, с чем вы, похоже, сталкиваетесь, является ограничением в поисковой системе Acrobat, которое проявляется в том, как мы генерируем текст.

Я думаю, что он говорит, что не Ghostscript добавляет пробелы между символами.

И я верю его объяснению. На драйвер устройства PDFWrite распространяются ограничения на драйвер устройства в Ghostscript. Я полагаю, что API был разработан для того, чтобы делать отметки на видимых поверхностях, а не для чего-либо еще, что впоследствии было добавлено.

В частности, представление о том, что последовательность меток составляет слово, не имеет значения при нанесении меток в указанных позициях. Устройство для создания меток не должно знать разницу между пробелом и интервалом (кернинг и т. Д.).

Отчасти следствием этого является то, что, насколько я знаю, слова не являются предметом ни в PDF, ни в постскриптуме его предка. Им не нужно отслеживать слова и не предоставлять какой-либо конкретный способ их идентификации в содержимом файлов PDF или PS.


Существует ли альтернатива Ghostscript с открытым исходным кодом, которая может конвертировать отсканированные файлы PDF в PDF / A-1b без использования OCR?

Насколько я знаю, спецификации PDF не определяют «отсканированный PDF» или «OCR». Некоторые инструменты для создания PDF-файлов предположительно используют возможности PDF-файлов при создании PDF-файлов из отсканированных изображений и при невидимом добавлении текста, созданного с помощью OCR. Это позволяет выполнять поиск текста и операции вырезания и вставки для созданного PDF-файла, что было бы невозможно, если бы присутствовало только растровое изображение.

Такие PDF-файлы могут быть полезны, но они действительно немного мерзости. Всегда лучше создать PDF-файл из не отсканированных источников, если это возможно.

Первоначально PDF задумывался как «окончательный» формат документа. Никто не собирался проводить дальнейшие манипуляции с ним.

Однако должно быть возможно, что другие программы, поддерживающие манипулирование PDF, делают это, не заставляя преобразование выполняться через API печати. В этом случае они могут сделать это так, чтобы получить результат, который лучше соответствует особенностям Acrobat и другого программного обеспечения для чтения PDF.

Кен Шарп говорит: «То, с чем вы, похоже, сталкиваетесь, является ограничением в средстве поиска Acrobat, которое видно по тому, как мы излучаем текст». Однако это возможное ограничение не касается других программ, только Ghostscript. Поэтому, по логике, должен быть способ найти обходной путь или исправить это. К сожалению, у меня нет необходимых навыков, чтобы попытаться это исправить :-). Кстати спасибо за ваш интересный ответ :-) Paul Bergström 7 лет назад 0

Похожие вопросы