Странная проблема с ивритскими гласными в Microsoft Word

Question

Странная проблема с ивритскими гласными в Microsoft Word

949

Dave 2013-07-04 в 15:49

У меня есть документ Microsoft Word с ивритом, и некоторые из гласных знаков, кажется, отделены от букв, под которыми они должны быть.

Пример:

enter image description here

Используя анализатор строк, я определил, что буквы, с которыми это происходило, интерпретировались как «буквенные формы представления», а не как обычные буквы на иврите. (В приведенном выше примере у пунктирного gimmel значение Unicode было U + FB32, а не U + 05D2 с U + 05BC.)

Есть ли способ конвертировать все в стандартные ивритские символы Юникода, чтобы гласные отображались правильно?

Спасибо!

4

3 ответа на вопрос

1

0

Jukka K. Korpela 2013-07-04 в 21:09

Ваш тестовый документ выглядит нормально в Word 2007, но когда я копирую и вставляю текст из него в редактор BabelPad, он отображается неправильно, как на картинке. Когда я использую команду BabelPad Преобразовать → Форма нормализации → В NFC, отображение становится фиксированным.

Кажется, что проблема не в заранее скомпонованных символах, таких как U + FB32 HEBREW LETTER GIMEL WITH DAGESH, как таковых, а в сочетании с дополнительным знаком объединения, таким как U + 05B7 HEATREW POINT PATAH после него. Некоторые программы не могут иметь дело с такими комбинациями, даже если они могут обрабатывать полностью разложенную форму (базовая буква, за которой следуют две комбинирующие метки).

Невозможно (и, вероятно, не имеет значения) узнать, как комбинации символов попали в файл. Они являются действительными данными Unicode, но ненормализованы, и нормализация, вероятно, решит проблему. Кажется, что вы могли бы действительно использовать любую из форм нормализации Unicode здесь, но NFC часто предпочитают по общим причинам.

Насколько я знаю, в Word нет инструментов для нормализации, поэтому вам придется использовать для этого внешние инструменты. BabelPad подойдет для простого текста, но я не знаю, насколько хорошо он обрабатывает большие файлы, и у вас, вероятно, есть форматирование, которое нужно сохранить. Поэтому, возможно, вы можете сохранить файл в формате HTML, нормализовать данные в NFC в BabelPad, а затем открыть измененный файл HTML в Word. (Сначала я подумал об использовании RTF вместо HTML, но Word, кажется, генерирует RTF, который не содержит настоящие ивритские символы, но некоторые экранирующие нотации.)

Спасибо, но это у меня над головой. Я бы не стал менять типы файлов, так как файл сильно отформатирован. Предполагаете ли вы, что с помощью Word «Найти / Заменить» (с ^ u для целевого Unicode) будет работать? Есть только около 30 затронутых персонажей, и изменение их на отдельные компоненты (например, U + FB32 на U + 05D2 и U + 05BC), похоже, решит проблему. Dave 10 лет назад 0

Я пытался открыть HTML-версию с BabelPad, как вы предложили, но опция преобразования в NFC была выделена серым цветом. Dave 10 лет назад 0

Просто понял, что опция доступна, выделив текст и используя контекстное меню. К сожалению, преобразование его в NFC не помогло. Dave 10 лет назад 0

Когда вы говорите, что NFC не помогло, вы имеете в виду, что он не исправлял рендеринг в BabelPad (это было в моем простом тесте с вашими данными) или что исправление не переносилось в Word, когда в нем открывался HTML-файл (это было в моем тесте на Word 2007)? Jukka K. Korpela 10 лет назад 0

Кажется, что вы могли бы сделать изменение, используя Find And Replace в Word, но это становится неуклюжим, и вам нужно будет использовать числа в десятичной, а не шестнадцатеричной записи, например, `^ u65306` для U + FB32. Jukka K. Korpela 10 лет назад 0

0

Zeke 2014-09-08 в 22:43

Я не мог добавить это как комментарий, поэтому я отправлю это как ответ. Основываясь на предложении @Jukka K. Korpela, я составил макрос Word, который преобразует предварительно составленные символы в «нормальные». Его можно скачать здесь .

Accepted Answer · 2013-07-04 16:10:06

matan129 2013-07-04 в 16:10

Попробуйте это дополнение к niqqud, возможно, что-то не так с тем, как вы добавили niqqud.

Насколько я могу судить, это дополнение просто упрощает процесс добавления гласных, но не исправит весь файл сразу. Я имею дело с очень большим файлом и не хочу переделывать все это! Dave 10 лет назад 0

Я не думаю, что есть такое исправление, но вы можете загрузить файл (или его часть, это личное или что-то в этом роде) и разрешить мне проверить? Кроме того, вы написали файл? Если да, как вы добавили ניקוד? matan129 10 лет назад 0

Это на самом деле чужой файл, который я не имею права загружать. Я не знаю, как был добавлен никкуд, но я подозреваю, что это было сделано в последней версии Word, которая обрабатывает его способом, который не распознается моим Word 2003. Dave 10 лет назад 0

Казалось бы, поиск / замена может решить проблему, но когда я вписываю значения юникода для оскорбительных букв в поле «Найти» Word, он выбирает не только букву, но и некуду, которая следует за ней. Dave 10 лет назад 0

Хорошо, если кто-то еще написал файл, проблема на его стороне, что означает, что инструмент niqqud, который он использовал, испортил порядок букв. Попробуйте: * открыть файл с другой версией слова * изменить шрифт Можете ли вы загрузить в файл даже бессмысленное предложение, составленное из разных слов? matan129 10 лет назад 0

У меня нет другой версии Word. Смена шрифта не помогает. [Здесь] (https://dl.dropboxusercontent.com/u/3563246/temp.doc) - это ссылка на документ со словом из файла, поэтому вы можете понять, что я имею в виду. Dave 10 лет назад 0

Кстати, я понял, что поле «Найти» работает правильно, если установлен флажок «соответствовать диакритическим знакам». Так что теоретически это можно решить с помощью поиска / замены, но это было бы довольно утомительно ... Dave 10 лет назад 0

Интересно, что слово отображается правильно в Word 2010: [Скриншот] (http://i.imgur.com/U2yoSy3.png). matan129 10 лет назад 0

Я не смог найти решение этой проблемы в Word 2003. Но это может быть только проблема с отображением, то есть печать будет в порядке. Попробуйте напечатать даже 2-3 строки из документа, чтобы проверить это (более одного слова, чтобы проверить, попадает ли межстрочный интервал в пространство niqqud и перемещает его) matan129 10 лет назад 0

Хм. Интересно, что произойдет, если вы сохраните его в очень старом формате, возможно, он преобразует буквы обратно в стандартные символы, чтобы они могли правильно отображаться в Word 2003? Dave 10 лет назад 0

Это не просто проблема с отображением; Существует также проблема, заключающаяся в том, что когда я пытаюсь открыть файл с помощью текстового процессора на иврите (Davkawriter), он вообще не распознает эти буквы. Так что мне действительно нужно вернуть эти буквы к более раннему стандарту. Dave 10 лет назад 0

Попробуйте сохранить его как Rich Text Format matan129 10 лет назад 0

RTF не помог. Может быть, использование Word 2010 для сохранения в формате RTF поможет, но я сомневаюсь в этом. Dave 10 лет назад 0

Ну, я полагаю, что все доступные варианты, и если ни один из них не работает, я думаю, что нет никакого решения (что я могу придумать) :( matan129 10 лет назад 0

хорошо, матан. Я очень ценю ваши усилия в попытке помочь! Dave 10 лет назад 0

был рад помочь. matan129 10 лет назад 0

Странная проблема с ивритскими гласными в Microsoft Word

3 ответа на вопрос

Похожие вопросы