Как получить символы CJK Unicode из PDF, который использует дополнительные символы частного использования?

322
Ben

У меня есть несколько документов PDF (например, этот ), которые, кажется, написаны с использованием стандартных китайских иероглифов, но когда я извлекаю текст, оказывается, что он закодирован с использованием символов из дополнительных областей частного использования Unicode.

Есть ли надежный способ сопоставления символов частного использования с соответствующими символами CJK?

1

1 ответ на вопрос

0
user930067

Общий поток, вероятно,

  • Извлечь шрифт из PDF
  • Попробуйте сравнить шрифт с различными известными кодировками и посмотреть, является ли он одним из этих
  • Или же это может быть что-то, что на самом деле используется в частном порядке
  • Разработайте обратную связь, проверив таблицу преобразования, если известно, в какой она кодировке, в противном случае работайте из извлеченного шрифта из pdf.

Похожие вопросы