Как уменьшить частоту появления ошибок при сканировании страниц с использованием податчика листов?

426
Croad Langshan

Я хотел бы отсканировать старые текстовые документы, а затем уничтожить некоторые из оригиналов.

Помимо выборочной проверки, что я могу сделать, чтобы получить приемлемо низкую частоту отказов сканирования? Я хотел бы получить процент отказов ниже, возможно, 0,25% (после выборочных проверок). Я считаю ошибочными страницы, которые пропущены или не читаются.

Это кажется трудной целью для достижения. Что я могу сделать, чтобы снизить частоту отказов, чтобы у меня было меньше проверок?

Смежный вопрос (этот вопрос касается «QA», т. Е. Предотвращения сбоев, связанный вопрос касается «QC», т. Е. Обнаружения сбоев): как проверить количество и качество отсканированных страниц при использовании устройства подачи листов?

1
Используйте высококачественное оборудование или сканируйте все документы несколько раз (несколькими партиями) Nifle 9 лет назад 0
Называй меня глупым, но я не думал о сканировании несколько раз. Почему бы не сделать это ответом? «Использовать высококачественное оборудование», с другой стороны, слишком расплывчато, чтобы быть полезным. Croad Langshan 9 лет назад 0
Сканирование очень последовательное, если вы не говорите о таких вещах, как застревание. Если страница успешно загружена, результат будет одинаковым каждый раз. Вам необходимо разобраться с потенциальными причинами неразборчивых результатов. Они не будут проблемой для высококачественных оригиналов. Источниками являются такие вещи, как оригиналы, которые находятся в плохом физическом состоянии, или содержимое которых трудно захватить из-за выцветания, обесцвечивания, фонового шума на бумаге, цвета содержимого, которое плохо сканируется (светлые цвета, но особенно синие). ) и т.д. Можете ли вы описать оригиналы? Решения специфичны для проблемы. fixer1234 9 лет назад 0
В своем параллельном вопросе «Какие функции важны в сканере + податчик листов для старых личных документов», вы заявили: «Я вряд ли потрачу более 500 фунтов стерлингов на оборудование (и, вероятно, значительно меньше этого)». Вы можете достичь своих целей (по цене и качеству), если у вас есть документы, которые отличаются незначительно. В противном случае ваши ожидания на сумму менее 500 фунтов стерлингов преувеличены. Качество сканера (и результат вашего сканирования) определяется не только аппаратным обеспечением сканера, но также во многом зависит от качества прилагаемых драйверов и программного обеспечения. user291737 9 лет назад 1
@ user291737: почему это преувеличено, если учесть, что частота появления ошибок после ручных проверок (и повторных проверок)? Этот вопрос о том, как уменьшить частоту ошибок предварительной проверки, чтобы сделать ручную проверку менее обременительной, а не достичь 0,25% без проверки. Croad Langshan 9 лет назад 0
Потому что вы написали выборочные проверки, т.е. случайную выборку отсканированных документов. Вы не упоминаете свой предполагаемый размер выборки, но давайте предположим, что выборочная проверка составляет <10% от общего количества тысяч страниц (как вы писали в двух других своих вопросах). Как вы объяснили в своем другом вопросе (http://superuser.com/questions/895454/what-features-are-important-in-a-scanner-sheet-feeder-for-old-personal-documen) ваши документы могут отличаться МНОГО. При бюджете в 500 фунтов стерлингов вы получаете потребительское или базовое сканирующее оборудование профессионального уровня (аппаратное и программное обеспечение), которое не обеспечивает требуемой степени автоматизации. user291737 9 лет назад 0
Правильно. Ну, я непредубежден, и кто-то предложил взглянуть на каждую страницу на глаз: кажется вполне выполнимым. Документы в основном довольно скучные А4 или близки к этому - изменили другой вопрос, чтобы прояснить это (хотя на самом деле я думаю, что было бы лучше, если бы этот вопрос был немного менее явным в деталях, а ответчики использовали свои собственные ожидания относительно содержимое типичных домашних картотек, так как я подозреваю, что все еще можно дать полезные ответы о сканерах, которые обрабатывают относительно большую рабочую нагрузку, и я бы предпочел, чтобы ответы были полезны для других людей, а не только для меня ...). Croad Langshan 9 лет назад 0

2 ответа на вопрос

1
user291737

To reduce your error rate with very diverse documents (as you stated in What features are important in a scanner + sheet feeder for old personal documents):

(A) The "simple" answer: 1. Sort your documents into batches of equal document characteristics. 2. For each batch do test scans with varying scanner driver settings. Do this until you find a set of driver settings that produces scans with your intended failure rate of "below perhaps 0.25%" within the test sample. 3. Use these driver settings and scan the rest of your batch. 4. Do spot checks to verify whether your scan results are within your intended failure rate. 5. If you get a higher failure rate: either go back to step 2 and fine-tune your driver settings with a new test sample or go back to step 1 and divide your batch into separate batches with each their own scanner driver settings.

(B) With (A) you should be able to reach your intended failure rate with very simple documents i.e. plain black one-sided print on white, non-folded, non-wrinkled standard quality paper. If you have many such documents your batch size can be quite large. But the more attributes a document has (e.g. colored paper, colored print, screen-printed images/graphics, bleed-through on thin paper, low contrast, yellowing, fading on sales slips, damaged paper, …) the more time consuming your scanning will get at a budget of 500 GBP. You will need to keep variation in document attributes as low as possible to reach your failure rate. As a consequence, your batch size will decrease. Depending on your documents, you might end up checking more or less every other document to stay within your failure rate. In case you want OCR for easier document retrieval and you have documents in different languages, this will add an additional dimension of complexity.

(C) Buy a professional software that claims to be capable of processing whatever you throw at your scanner – no need for document sorting beforehand. But 1. such software alone would blow your budget, 2. such software works only with certified scanners that eat up your entire budget and are still "hungry" for additional software.

0
user291737

You might have a chance to reach your failure rate of below perhaps 0.25% with less time and effort as in my answer above and within the budget of 500 GBP, which you mentioned in your parallel question, as follows:

There are companies that rent out professional scanners, sometimes including a computer with additional professional scan and/or post-processing software. Ask such a company for equipment (scanner and software) including introduction into its use and support on standby, available for a day or two, within your budget that allows maximum automation in image processing with a minimum of prior sorting into batches of similar document characteristics.

With some luck you might get equipment with your budget that will allow you to scan most of your documents in one run with some additional reruns for special cases - provided you are able to handle such equipment and/or have quick help on standby.

The benefit of this approach: You will see what is possible with scanners and software at a certain price level and you will be able to better adjust your expectations when you later buy your own document scanner at a budget you might revise upwards of 500 GBP after this experience.

Похожие вопросы