Как получить символы CJK Unicode из PDF, который использует дополнительные символы частного использования?

Question

Как получить символы CJK Unicode из PDF, который использует дополнительные символы частного использования?

357

Ben 2015-10-13 в 15:51

У меня есть несколько документов PDF (например, этот ), которые, кажется, написаны с использованием стандартных китайских иероглифов, но когда я извлекаю текст, оказывается, что он закодирован с использованием символов из дополнительных областей частного использования Unicode.

Есть ли надежный способ сопоставления символов частного использования с соответствующими символами CJK?

1

1 ответ на вопрос

0

Accepted Answer · 2017-11-14 01:26:04

Общий поток, вероятно,

Извлечь шрифт из PDF
Попробуйте сравнить шрифт с различными известными кодировками и посмотреть, является ли он одним из этих
Или же это может быть что-то, что на самом деле используется в частном порядке
Разработайте обратную связь, проверив таблицу преобразования, если известно, в какой она кодировке, в противном случае работайте из извлеченного шрифта из pdf.

Как получить символы CJK Unicode из PDF, который использует дополнительные символы частного использования?

1 ответ на вопрос

Похожие вопросы