Пример PDF закодирован правильно: он включает таблицы шрифтов в юникод, и если я попробую скопировать и вставить с помощью mupdf
, дефис в Хлебникова во втором абзаце станет U + 00AD SOFT HYPHEN. Так что должна быть возможность объединить слова при желании с небольшой постобработкой.
К сожалению, для многих инструментов PDF поддержка юникода не работает.
Определение пробелов в PDF-файлах затруднительно, потому что формат PDF не описывает пробелы, он только описывает расположение глифов на странице. Таким образом, алгоритм угадывания пространства в ebook-convert кажется неоптимальным, но это не имеет ничего общего с кодировкой.
AFAIK, mupdf
не включает в себя инструмент для пакетного извлечения текста, но поиск в Google находит, например, этот сторонний код. Я не пробовал это.