Неужели нет способа заставить Ghostscript решить эту проблему (с добавлением пробелов между символами)?
Кен Шарп говорит
то, с чем вы, похоже, сталкиваетесь, является ограничением в поисковой системе Acrobat, которое проявляется в том, как мы генерируем текст.
Я думаю, что он говорит, что не Ghostscript добавляет пробелы между символами.
И я верю его объяснению. На драйвер устройства PDFWrite распространяются ограничения на драйвер устройства в Ghostscript. Я полагаю, что API был разработан для того, чтобы делать отметки на видимых поверхностях, а не для чего-либо еще, что впоследствии было добавлено.
В частности, представление о том, что последовательность меток составляет слово, не имеет значения при нанесении меток в указанных позициях. Устройство для создания меток не должно знать разницу между пробелом и интервалом (кернинг и т. Д.).
Отчасти следствием этого является то, что, насколько я знаю, слова не являются предметом ни в PDF, ни в постскриптуме его предка. Им не нужно отслеживать слова и не предоставлять какой-либо конкретный способ их идентификации в содержимом файлов PDF или PS.
Существует ли альтернатива Ghostscript с открытым исходным кодом, которая может конвертировать отсканированные файлы PDF в PDF / A-1b без использования OCR?
Насколько я знаю, спецификации PDF не определяют «отсканированный PDF» или «OCR». Некоторые инструменты для создания PDF-файлов предположительно используют возможности PDF-файлов при создании PDF-файлов из отсканированных изображений и при невидимом добавлении текста, созданного с помощью OCR. Это позволяет выполнять поиск текста и операции вырезания и вставки для созданного PDF-файла, что было бы невозможно, если бы присутствовало только растровое изображение.
Такие PDF-файлы могут быть полезны, но они действительно немного мерзости. Всегда лучше создать PDF-файл из не отсканированных источников, если это возможно.
Первоначально PDF задумывался как «окончательный» формат документа. Никто не собирался проводить дальнейшие манипуляции с ним.
Однако должно быть возможно, что другие программы, поддерживающие манипулирование PDF, делают это, не заставляя преобразование выполняться через API печати. В этом случае они могут сделать это так, чтобы получить результат, который лучше соответствует особенностям Acrobat и другого программного обеспечения для чтения PDF.