Я распаковал PDF с mutool clean
и посмотрел на. Кажется, проблема в том, что, как описано в этом вопросе о стековом потоке, трудно использовать кодировку Unicode для шрифтов. По этой причине шрифты, содержащиеся в PDF, используют другую кодировку. Тем не менее, он также содержит /ToUnicode
объекты для каждого шрифта со сложным отображением символов шрифта на символы Юникода.
Теперь многие программы просмотра PDF (например, xpdf
в Linux), похоже, не обращают внимания на это сложное отображение (или, по крайней мере, на отображение с такой сложностью, хотя они могут работать на более простых отображениях), поэтому вы получаете мусор при попытке скопировать и вставить. Тем не менее, с другими программами просмотра PDF (как mupdf
) это работает, как я подтвердил.
Таким образом, проблема находится в средстве просмотра PDF, а не в документе. Кроме того, PDF-файлы и Unicode не очень хорошо сочетаются друг с другом, как вы можете видеть из сложных средств, необходимых для перевода.
Возможные решения: (1) оказать давление на разработчиков средств просмотра PDF для полной поддержки \ToUnicode
отображений. Может быть, исправить их самостоятельно для открытых источников. (2) Способствовать использованию определенного средства просмотра PDF, которое работает с сопоставлениями. (3) Попробуйте использовать шрифты внутри PDF, где кодировка глифа соответствует кодировке Unicode. Это представляется возможным с 16-разрядными кодовыми точками Unicode (и насколько я могу судить, индийские символы кажутся 16-разрядными), но я не знаю, насколько хорошо это будет работать, или какое приложение вы должны использовать для создания таких PDF-файлов ,