Как преобразовать персидский файл PDF в формат Microsoft Word?

6726
Mehdi

У меня есть PDF-файл, который написан на персидском языке, и это справа налево . Так как персидский использует формат UTF-8, поэтому я не могу преобразовать его в обычный текст в Microsoft Word, также я не могу скопировать и вставить текст, в результате чего нечитаемые символы. Я пробовал много программ, таких как unipdf и e-Pdf Converter, однако после преобразования символы по-прежнему отображаются неправильно. Я даже попробовал OCR, но опять та же проблема появилась. У PDF нет пароля или ограничений.

У кого-нибудь есть другие идеи?

Редактировать: я на самом деле пытался создать файл в MS Word и преобразовать его в PDF, после этого у меня снова была та же проблема с файлом PDF (даже кодировка была известна)

1
Microsoft Word поддерживает формат UTF-8. Он также поддерживает языки справа налево. Так почему же вы не можете преобразовать его в документ Word? Ramhound 8 лет назад 2
Привет, спасибо за внимание. Источником моего файла является PDF, поэтому я не знаю, что именно происходит, когда я пытаюсь скопировать и вставить его в Microsoft Word, но он не показывает правильный символ. То же самое происходит, когда я пытаюсь преобразовать его, используя сторонние инструменты. Mehdi 8 лет назад 0
возможный дубликат [Вырезание и вставка вьетнамских символов из PDF] (http://superuser.com/questions/380383/cutting-pasting-vietnamese-characters-from-a-pdf) RedGrittyBrick 8 лет назад 1
@RedGrittyBrick Я прочитал твой ответ. но в моем случае я действительно попытался создать файл в MS Word и преобразовать его в PDF, после этого у меня снова возникла та же проблема с файлом PDF (даже кодировка была известна) - спасибо Mehdi 8 лет назад 0
Как был создан PDF? Электронно или отсканировано, и вы надеетесь, что OCR вступит во владение? Austin T French 8 лет назад 0
Можете ли вы создать пример PDF-файла и опубликовать его где-нибудь в открытом доступе, чтобы люди могли загрузить его оттуда по URL-адресу? RedGrittyBrick 8 лет назад 0
@AthomSfere PDF был создан автоматически путем преобразования файла MS Word в PDF. Спасибо Mehdi 8 лет назад 0
@RedGrittyBrick Вот пример PDF https://drive.google.com/open?id=0BzLHaKpzBvMNZXZrd1NURWhIS0F4OGkzVldSRm1ZYXJXbHNF&authuser=0 Mehdi 8 лет назад 0
Я могу вырезать и вставлять текст из этого с помощью встроенного в Chrome средства просмотра PDF - нет очевидного искажения символов, но направление текста в основном меняется на противоположное. Я не читаю по-персидски, поэтому не могу сказать, все ли действительные персонажи в порядке, но внешне они выглядят нормально. При использовании другого средства просмотра PDF, eVince, основной проблемой является выбор непрерывного текста. К сожалению, я не думаю, что смогу помочь с вашей проблемой. RedGrittyBrick 8 лет назад 0
@RedGrittyBrick Большое спасибо за ваше внимание. эта проблема существует с неанглийским PDF, и я не причина! Тем не менее, вы уже помогли мне, я не могу копировать-вставлять порцию за порцией! долгий путь, но единственный путь! Mehdi 8 лет назад 0

3 ответа на вопрос

1
einpoklum

Very often PDF files in non-Latin scripts (especially RTL scripts such as Arabic, Hebrew and Farsi) are generated by software which sort of LTR-ifies the text at the word or sentence-fragment level, or just somehow gets the right glyphs to display but you get gibberish for the 'logical' text. In these cases there is very little to be done except write a custom back-converter which is effectively not an option.

However, if you can figure out how the file is created - which is often indicated in the meta-data accessible using common PDF readers - there might be an option to open the file in the application which generated it, or at least you could make your question more specific.

0
ML2

В настоящее время я работал над преобразованием PDF в редактируемый персидский текст. Лучшее решение, которое я нашел, это использовать Google Doc следующим образом.

  1. Вы должны конвертировать PDF-страницы в изображения. Для этого вы можете использовать Adobe Acrobat Reader (не Adobe Reader, который является бесплатным) или в Linux я использую GIMP, чтобы открыть PDF, а затем я выбираю, чтобы открыть каждую страницу в отдельном изображении. Это твой собственный выбор.
  2. Загрузите файлы изображений на Google Drive
  3. Перейдите на Google Drive и щелкните правой кнопкой мыши на каждом изображении, затем нажмите open with google doc
  4. дождитесь, пока google doc откроет редактируемый текст из вашего изображения
  5. Скопируйте это в слово

Я не знаю, есть ли какой-либо автоматизированный метод. Я надеюсь, что когда-нибудь у меня будет время подать заявку для этого автоматически.

0
saeed ghasemi

У меня была такая же проблема с преобразованием файлов PDF в слово. После копирования / вставки в Word форматирование изменилось и стало причиной проблем. Я перепробовал несколько онлайн-конвертеров, но они также потерпели неудачу.
Единственный метод, который работал, был следующим:

  1. Откройте файл PDF с помощью Adobe Acrobat Reader, затем в меню «Файл» выберите «Печать». Из имен принтеров выберите Adobe Acrobat. Да, вы собираетесь создать PDF из PDF!
  2. Откройте новый файл PDF с помощью Google Chrome (перетащите файл в Chrome).
  3. Теперь просто выделите весь текст (Ctrl + A) и скопируйте / вставьте его в пустой файл Word.

Похожие вопросы