Редактирование с возможностью поиска .pdf OCR

1092
Gruber

Мой случай довольно конкретный, поэтому я постараюсь объяснить это быстро и точно. Я должен оцифровать несколько старых листов бумаги размером 230 мм x 268 мм (~ 9 "x 27,7"), сложенных в 4 части; Вы можете найти быстрый пример здесь, чтобы получить представление.

Сканирование и перекомпоновка - не совсем реальная проблема, я буду сканировать каждый раз и собирать его в фотошопе. Мне нужен файл .pdf с исходным отсканированным изображением страницы, а также с текстом для чтения / поиска и индексирования для поисковых систем.
Как вы можете видеть на приведенном выше рисунке, на странице также есть несколько блоков ADS, которые мне не нужны для распознавания текста, и их можно не указывать.

Теперь я использовал Acrobat Pro X для полученного файла .pdf, который я перекомпоновал через Photoshop. Результаты довольно хорошие, но, конечно, не идеальные, и я считаю, что наиболее проблематичным является исправление неверно разработанного текста и удаление или исключение ненужных областей документа.

Я хотел бы знать, есть ли приложение для редактирования основного текста OCR более практичным способом, чем то, что предлагает Acrobat. Adobe дает в панели инструментов «Найти подозреваемых» (что может очень раздражать в использовании), но подозрительный текст не всегда дополняется тем, что на самом деле не так, часто символы, которые он распознает как правильные, вовсе не являются (например, курсивом). "l" считаются "/" и аналогичными); к сожалению, мой текст частично состоит из шрифтов других языков, таких как японский или китайский, и текст в большинстве случаев превращается в дерьмовый бред, поэтому мне также нужно исправить неправильный текст в соответствии с выбираемыми символами.

Я думаю, что своего рода сравниваемый редактор, как на одной панели отсканированное изображение, а на другой текст OCR выбранной области документа, был бы наиболее идеальным решением для быстрого и эффективного исправления ошибок.
Возможности определять и исключать области отсканированного документа, которые должны быть обработаны OCR, были бы действительно очень необходимой функцией; Я обнаружил, что с помощью Acrobat вы можете использовать инструмент редактирования прямой стрелки для удаления текстовых фреймов, которые могут быть функциональными, даже довольно сложными в использовании, так как большую часть времени вы нажимаете на отсканированное фоновое изображение.

Любое предложение для этого типа работы? Может быть, другой рабочий процесс более практичным и / или эффективным? Любые советы приветствуются!

Я на Win 7 64-битной машине.

2

1 ответ на вопрос

3
user291737

You might try ABBYY FineReader. It fits the description of your needs.

Где это можно найти? Scott 10 лет назад 0
Я только добавил ссылку. Это не свободное программное обеспечение. user291737 10 лет назад 0
ммм спасибо за совет, попробую. Gruber 10 лет назад 0
Это действительно очень полезная программа, с тем, что я просил. Поначалу это немного ошеломляет, но онлайн-документация очень полная и интуитивно понятная для некоторых простых действий! Gruber 10 лет назад 0

Похожие вопросы