Практическое решение для оптического распознавания текста для преобразования большой книги в цифровой формат?

9411

Я был на месте моего деда в прошлые выходные. Моя бабушка вытащила эту гигантскую (~ 1400 страниц) книгу о своей семейной истории, восходящую к 1630 году или около того. Гигантский ботаник, которым я являюсь, я думал, что было бы замечательно, чтобы вся информация сохранялась в базе данных и была доступна из Интернета. Я могу справиться со всем веб-программированием и регулярными выражениями, а что нет, но то, что я не знаю, является лучшим способом передачи текста из книги в компьютер.

Я знаю, что какой-то OCR будет необходим, из небольшого исследования, которое я сделал, кажется, что мои варианты:

  1. сфотографировать каждую страницу с помощью камеры, а затем обработать изображения с помощью программного обеспечения OCR
  2. используйте сканер для сканирования каждой страницы, затем обработайте с помощью программного обеспечения OCR
  3. используйте какое-то портативное устройство, подобное этому .

У кого-нибудь есть идеи о том, как лучше решить эту проблему? Я не хочу уничтожать книгу, потому что, насколько я знаю, ее нельзя заменить. Вероятно, это единственный раз, когда я собираюсь отсканировать большую книгу, поэтому я не думаю, что хочу потратить более 250 долларов на любое устройство. Я не возражаю против некоторых ручных усилий здесь (я понимаю, что это, скорее всего, займет месяцы), но я хотел бы найти наиболее эффективный из возможных методов.

Примечание о книге: ей всего около 20 лет, так что она в хорошей форме. Это монохромный, и страницы не начали желтеть. Так как он настолько большой, я беспокоюсь о возможных тенях, когда текст подходит близко к привязке.

12
С другой стороны, если книге всего 20 лет, а информация восходит к 1600-м годам, где находится исходный материал? Это может быть хорошо, чтобы захватить также! Craig 14 лет назад 1
Да, это было бы круто тоже. Я собираюсь посмотреть, смогу ли я отследить оригинального автора. 14 лет назад 0

8 ответов на вопрос

8
caliban

Я сталкивался с этим на Lifehacker довольно давно, и с тех пор это был один из моих лучших проектов DIY.

Замените iPhone любой камерой или изображением, и вы получите набор хороших JPEG-файлов с высоким разрешением, готовых для распознавания текста с любым программным обеспечением, даже (срочно!) MS Office ...;)

Дешевые. Эффективное. DIY. Вы не можете победить такую ​​идею.

РЕДАКТИРОВАТЬ: Комментарии подняли некоторые вопросы о тенях, скручивании страниц и т. Д. Довольно легко решаются для тех, кто буквально копировал текст библиотеки библиотеки.

Добавьте несколько источников света, чтобы осветить книгу, и устраните тени.

наклоните книгу под углом 90 градусов, чтобы страницы не скручивались к переплетам посередине. Это также сохраняет привязку.

Я посмотрю, смогу ли я привести пример и настроить его сам.

РЕДАКТИРОВАТЬ 2: загруженный образец того, как вы должны держать книгу, а также обратите внимание на источник света слева.

Это так круто! Хотел бы я сделать это :) alex 14 лет назад 0
Однако для этого вам нужна настоящая камера и хорошее качество, иначе вы получите изображение, которое не сможете использовать, особенно из очень старой книги. Так что это далеко не дешево. Gnoupi 14 лет назад 0
Очень интересно. Интересно, как это будет работать с книгой, учитывая тени, которые могут быть между страницами. 14 лет назад 0
Если страницы согнуты или имеют тени, у вас возникнут проблемы с распознаванием букв программным обеспечением OCR. alex 14 лет назад 0
добавить несколько источников света, чтобы осветить книгу, и устранить тени. наклоните книгу на 90 градусов, чтобы страницы не скручивались в сторону переплетов в середине. Это просто здравый смысл, мы делаем это все время в колледже, фотографируя библиотечные тексты. caliban 14 лет назад 0
@Gnoupi - вам не обязательно нужна 56-мегапиксельная система Phase One Leaf для распознавания текста. На самом деле, дешевые 5 мегапикселей вполне подойдут. Установите ISO 50 или 100 для небольшого шума, установите его в режим отложенного захвата, включите и дайте ему возможность захвата. 5 мегапикселей это beaucoup для работы OCRing. caliban 14 лет назад 0
Я собираюсь дать этому или некоторому небольшому изменению попытку приблизительно 20 страниц и посмотрю, насколько практичным это будет. Спасибо за советы! 14 лет назад 0
Мне не удалось найти оригинальные файлы, и автор не ответил на мои письма. Вместо этого я использовал [этот стенд для сканирования из Thingiverse] (https://www.thingiverse.com/thing:1079354). Я провел несколько тестов и столкнулся с некоторыми проблемами при использовании 'tesseract', возможно, из-за нерегулярного освещения без вспышки и ярких отражений от вспышки. Я получил около 5-10% ошибок с этим стендом сканирования и почти идеальные результаты с надлежащим сканером. Поскольку у меня много книг для сканирования, я решил купить подходящий сканер. mmorin 5 лет назад 0
3
alex

Из того, что я знаю, ABBYY делает лучшее программное обеспечение для распознавания текста, но оно не бесплатное. Попробуйте попробовать пробную версию ABBYY FineReader, возможно, она вам поможет.

1
NickSentowski

Вам нужно будет как-то захватить изображение. Существуют различные услуги, чтобы сделать это для вас. Вам также понадобится кто-то, кто знаком с содержанием текста, чтобы вычитать, так как OCR еще не идеален. Особенно с чем-нибудь рукописным.

Другие обсуждают ваш вопрос здесь: http://ask.metafilter.com/92506/scan-my-books

Некоторые компании сделают это для вас: http://www.scandexsystems.com/BookScanning2.html http://www.kirtas.com/index.php?option=com_content&view=article&id=13&Itemid=48 http: // www. ristech.ca/product.html

Некоторые бесплатные программы: http://download.cnet.com/Image-To-PDF-OCR-Converter-PDF-E-Book-Maker/3000-6675_4-10392924.html

1
Xaq Fixx

Для такого крупного и важного для вас и вашей семьи проекта, как этот, сканер книг для дома может быть подходящим вариантом, некоторые модели даже для спортивных страниц - http://www.diybookscanner.org/ Этот вариант изначально не поддерживает распознавание текста., но снимает 600 страниц в час, и вы можете запустить его через OCR после факта http://hackaday.com/2011/07/18/diy-book-scanner-processes-600-pageshour/

0
Chris Nava

Возможно, вы захотите узнать, есть ли в ближайшем к вам университете целый сканер книг, а затем попросить / подкупить студента, чтобы он пропустил вашу книгу.

0
Greg Buehler

Я бы порекомендовал планшетный сканер для сканирования книг или целый книжный сканер, как упомянул Крис.

Если вы можете, скомпилируйте ваши изображения в формат TIFF, поскольку это является отраслевым стандартом, когда речь идет о системах управления документами.

Для работы с OCR я бы порекомендовал тессеракт OCR, так как он является основой, разработанной Google для их книжного проекта.

0
pelms

На работе мы используем книжный сканер Plustek Optibook 3600, который стоит около 250 долларов .
В основном это стандартный сканер с плоской кроватью, но со стеклянной пластиной, направленной прямо к краю сканера, чтобы страница книги могла быть размещена на пластине плоско. Это исключает тень на позвоночнике и позволяет избежать повреждения книг.

Вы когда-нибудь пробовали использовать это с действительно толстой книгой? Это как 3 дюйма толщиной. 14 лет назад 0
Если вы можете открыть ее на 90 °, при этом страница должна быть достаточно плоской, все будет хорошо. Попробуйте на краю стола. pelms 14 лет назад 0
0

хотя это звучит заманчиво для автоматизации процесса, вы можете потратить больше времени и усилий, поскольку эта конкретная книга - дело личное. OCR выполнит большую часть, но вам придется корректировать страницу за страницей и сравнивать с оригиналом. имейте в виду, что ошибки автора являются частью сделки, не исправляйте их (создавайте сноски, если вы чувствуете в этом склонность). Не торопитесь, не подвергайте себя давлению, сканирование книг - это работа осла, но тщательность окупается, и в итоге вы получите прекрасную цифровую копию хроники вашей семьи. удачи в ваших усилиях :)

на самом деле, это действительно хороший момент. Я не думал о том, чтобы сделать оригинальное содержание книги доступным в цифровом виде, но пока он у меня есть, я могу также сделать версию в формате PDF. 14 лет назад 0
почему PDF? думаю, HTML. и вы могли бы также сохранить исходные сканы, хотя в итоге вы получите огромное количество данных. 14 лет назад 0
Моя идея состояла в том, чтобы иметь всю информацию о рождении / происхождении в базе данных, чтобы я мог создать веб-интерфейс, который бы упростил навигацию / поиск / обновление. Я планирую работать над любыми опечатками из этой версии. Кроме того, у меня есть несколько двоюродных братьев, которых там нет, и было бы неплохо добавить их. Я думал о pdf, потому что было бы неплохо иметь что-то, похожее на оригинальную книгу с оригинальными номерами страниц и такими неповрежденными. Эту версию я бы оставил в покое и сохранил все опечатки из книги. 14 лет назад 0

Похожие вопросы