Извлечение текста из отсканированной книги .PDF

4536
ChristianM

Я отсканировал книгу в формате PDF, но качество ее довольно низкое:

enter image description here

(Язык румынский, и это книга по медицинской физиологии, если вам интересно)

Я хочу извлечь текст из книги (1500 страниц), но сохранить изображения такими, какие они есть. Я действительно не думаю, что у меня есть шанс найти решение, поэтому я обязательно куплю книгу.

На самом деле, есть ли мощное программное обеспечение, которое может делать то, что я ищу? Это также должно признать румынский язык.

6
купи, это законно. :) 15 лет назад 1
Что если это действительно старая книга, которую он больше не может купить? :) Botond Balázs 15 лет назад 0
@Botond, на самом деле это огромная проблема с Поиском книг Google. Приблизительно 70% его книг - авторское право, но из печати. Соглашение о коллективных действиях (согласованное между Google и несколькими юристами, работающими в Гильдии авторов и AAP) гласит, что для вывода из печати Google * не * не требуется разрешение, если только правообладатели специально не отказываются от соглашения. И то, как действует законодательство США, является обязательным для всех произведений литературы, когда-либо созданных. Пока другие компании заключают аналогичную сделку, у Google есть монополия на старую литературу :-( См. Boing Boing по адресу http://tinyurl.com/yl5rlts. Arjan 15 лет назад 0
Задача ОП заключается в извлечении текста из книги. Это все еще проблема, даже если он купил книгу. Юридические вопросы, хотя и заслуживающие рассмотрения, здесь не рассматриваются. mouviciel 15 лет назад 1

7 ответов на вопрос

6
Jukka Matilainen

Ранее я опубликовал ответ, подробно описывающий, как использовать Cuneiform (программное обеспечение с открытым исходным кодом) для распознавания текста в файлах PDF и как создать файл PDF с распознанным текстом в скрытом текстовом слое «за» исходным изображением. Насколько я знаю, Cuneiform действительно поддерживает и румынский язык.

Хотя конкретное решение было для Linux, Cuneiform доступен и для Windows.

2
Lukas

Adobe Acrobat Professional может сделать это. Я не уверен, есть ли румынская версия ...

2
Konstantin Tenzin

ABBYY Fine Reader - очень мощное программное обеспечение для распознавания текста. Он работает с очень сложными макетами и поддерживает множество форматов (включая pdf). Румынский поддерживается со словарем, то есть программное обеспечение использует словарь для определения приоритетов гипотез при распознавании. ( здесь ).

В любом случае, оптическая научная литература, имеющая низкое качество сканирования, является сложной задачей. Будьте готовы потратить много времени, чтобы помочь программам с проверкой результатов и корректировкой layot. На вашем скане я вижу много очень некачественного текста :(. Я не думаю, что какое-либо программное обеспечение OCR могло бы нормально с ним работать.

1
Botond Balázs

Recognita OmniPage - безусловно лучшая программа OCR, которую я когда-либо использовал. Я уверен, что он распознает румынский текст; у меня не было проблем с моим родным венгерским языком. Вы можете скачать пробную версию по ссылке и использовать ее для конвертации вашей книги. Полная версия, к сожалению, довольно дорогая ($ 499,99) ...

1
ChristianM

Я купил книгу!

0
Rook

Ну, для распознавания текста обычно ищут программы OCR (оптическое распознавание символов). Их очень много, поэтому простой поиск в Google принесет больше пользы, чем я.

Я не понял последнюю часть «признать румынский» - вы имеете в виду, что он должен распознавать румынский язык или быть локализованным (переведенным) на румынский? В первом случае, я думаю, проблем не будет; если второй случай, то я не уверен.

Кроме того, если это не книга ваших местных соотечественников, то есть вероятность, что она уже переведена на английский ... так что если у вас она есть в pdf на румынском, попробуйте поискать английскую версию ... тогда проблема только в том, это вы знаете ... незаконно (иногда у человека нет выбора).

Я имею в виду, что он должен распознавать румынский шрифт / румынские символы. Кто-то отредактировал мой пост ... не знаю почему. : | ChristianM 15 лет назад 0
Я не думаю, что у вас должны быть какие-либо проблемы с этим (только для действительно плохо отсканированного тейта, когда он не может решить, является ли что-то буквой или каплей, тогда вам, возможно, придется исправить вручную) - я использовал множество программного обеспечения на хорватском языке (у нас есть некоторые странные символы в нашем алфавите), и это сработало нормально. Rook 15 лет назад 0
OCR часто использует проверку орфографии, чтобы компенсировать ошибки сканирования. Таким образом, эта проверка орфографии должна поддерживать румынский язык. (Да, некоторые OCR дают * лучшие * результаты, чем исходный текст, благодаря этому механизму проверки орфографии.) Arjan 15 лет назад 0
Эти шрифты всегда сложны при использовании программного обеспечения OCR: ** ă, â, î, ş, ţ, Ă, Â, Î, Ş, Ţ **. Вы будете удивлены, насколько плохо они получаются при сканировании книги. alex 15 лет назад 0
-1
rlangner

Попробуйте PDFCubed.com . Это онлайн-сервис распознавания текста, который облегчает создание текстового PDF с возможностью поиска. Отсканированные документы могут быть отправлены через Интернет, электронную почту или Dropbox.

Похожие вопросы