Я отсканировал книгу в формате PDF, но качество ее довольно низкое:
(Язык румынский, и это книга по медицинской физиологии, если вам интересно)
Я хочу извлечь текст из книги (1500 страниц), но сохранить изображения такими, какие они есть. Я действительно не думаю, что у меня есть шанс найти решение, поэтому я обязательно куплю книгу.
На самом деле, есть ли мощное программное обеспечение, которое может делать то, что я ищу? Это также должно признать румынский язык.
купи, это законно. :)
15 лет назад
1
Что если это действительно старая книга, которую он больше не может купить? :)
Botond Balázs 15 лет назад
0
@Botond, на самом деле это огромная проблема с Поиском книг Google. Приблизительно 70% его книг - авторское право, но из печати. Соглашение о коллективных действиях (согласованное между Google и несколькими юристами, работающими в Гильдии авторов и AAP) гласит, что для вывода из печати Google * не * не требуется разрешение, если только правообладатели специально не отказываются от соглашения. И то, как действует законодательство США, является обязательным для всех произведений литературы, когда-либо созданных. Пока другие компании заключают аналогичную сделку, у Google есть монополия на старую литературу :-( См. Boing Boing по адресу http://tinyurl.com/yl5rlts.
Arjan 15 лет назад
0
Задача ОП заключается в извлечении текста из книги. Это все еще проблема, даже если он купил книгу. Юридические вопросы, хотя и заслуживающие рассмотрения, здесь не рассматриваются.
mouviciel 15 лет назад
1
Ранее я опубликовал ответ, подробно описывающий, как использовать Cuneiform (программное обеспечение с открытым исходным кодом) для распознавания текста в файлах PDF и как создать файл PDF с распознанным текстом в скрытом текстовом слое «за» исходным изображением. Насколько я знаю, Cuneiform действительно поддерживает и румынский язык.
Хотя конкретное решение было для Linux, Cuneiform доступен и для Windows.
2
Lukas
Adobe Acrobat Professional может сделать это. Я не уверен, есть ли румынская версия ...
2
Konstantin Tenzin
ABBYY Fine Reader - очень мощное программное обеспечение для распознавания текста. Он работает с очень сложными макетами и поддерживает множество форматов (включая pdf). Румынский поддерживается со словарем, то есть программное обеспечение использует словарь для определения приоритетов гипотез при распознавании. ( здесь ).
В любом случае, оптическая научная литература, имеющая низкое качество сканирования, является сложной задачей. Будьте готовы потратить много времени, чтобы помочь программам с проверкой результатов и корректировкой layot. На вашем скане я вижу много очень некачественного текста :(. Я не думаю, что какое-либо программное обеспечение OCR могло бы нормально с ним работать.
1
Botond Balázs
Recognita OmniPage - безусловно лучшая программа OCR, которую я когда-либо использовал. Я уверен, что он распознает румынский текст; у меня не было проблем с моим родным венгерским языком. Вы можете скачать пробную версию по ссылке и использовать ее для конвертации вашей книги. Полная версия, к сожалению, довольно дорогая ($ 499,99) ...
1
ChristianM
Я купил книгу!
0
Rook
Ну, для распознавания текста обычно ищут программы OCR (оптическое распознавание символов). Их очень много, поэтому простой поиск в Google принесет больше пользы, чем я.
Я не понял последнюю часть «признать румынский» - вы имеете в виду, что он должен распознавать румынский язык или быть локализованным (переведенным) на румынский? В первом случае, я думаю, проблем не будет; если второй случай, то я не уверен.
Кроме того, если это не книга ваших местных соотечественников, то есть вероятность, что она уже переведена на английский ... так что если у вас она есть в pdf на румынском, попробуйте поискать английскую версию ... тогда проблема только в том, это вы знаете ... незаконно (иногда у человека нет выбора).
Я имею в виду, что он должен распознавать румынский шрифт / румынские символы. Кто-то отредактировал мой пост ... не знаю почему. : |
ChristianM 15 лет назад
0
Я не думаю, что у вас должны быть какие-либо проблемы с этим (только для действительно плохо отсканированного тейта, когда он не может решить, является ли что-то буквой или каплей, тогда вам, возможно, придется исправить вручную) - я использовал множество программного обеспечения на хорватском языке (у нас есть некоторые странные символы в нашем алфавите), и это сработало нормально.
Rook 15 лет назад
0
OCR часто использует проверку орфографии, чтобы компенсировать ошибки сканирования. Таким образом, эта проверка орфографии должна поддерживать румынский язык. (Да, некоторые OCR дают * лучшие * результаты, чем исходный текст, благодаря этому механизму проверки орфографии.)
Arjan 15 лет назад
0
Эти шрифты всегда сложны при использовании программного обеспечения OCR: ** ă, â, î, ş, ţ, Ă, Â, Î, Ş, Ţ **. Вы будете удивлены, насколько плохо они получаются при сканировании книги.
alex 15 лет назад
0
-1
rlangner
Попробуйте PDFCubed.com . Это онлайн-сервис распознавания текста, который облегчает создание текстового PDF с возможностью поиска. Отсканированные документы могут быть отправлены через Интернет, электронную почту или Dropbox.