Какие функции важны в сканере + податчик листов для старых личных документов

853
Croad Langshan

Я хотел бы отсканировать несколько старых текстовых документов. Моя цель двоякая: аварийное восстановление (например, пожар) и сохранение места на громоздких документах, на которые я редко ссылаюсь (например, старые телефонные счета).

После сканирования я собираюсь уничтожить некоторые из оригиналов, где я редко на них ссылаюсь, и они громоздки. Остальное я сохраню и продолжу ссылаться на. Я не намерен OCR документы.

По моим оценкам, сканируется несколько тысяч сторон формата А4, и я стремлюсь к нескольким ошибкам (пропущенным или неразборчивым сторонам) на 1000 отсканированных сторон. Под неразборчивым я подразумеваю текст, который человек не может надежно прочитать.

Я хотел бы сделать это сам, а не использовать коммерческий сервис.

Я считаю, что документы довольно типичны для того, что домашние пользователи собирали в своих шкафах за последние 10 или 20 лет:

  • В основном (возможно, 80%) стандартный размер бумаги или близкий к стандартному размеру (A4, вероятно, будет буквой США в другом месте)
  • Некоторые счета, которые длиннее, чем A4 (менее 10%)
  • Небольшое количество «очень разных» страниц (менее 10%)
  • В основном относительно плоская бумага хорошего качества
  • Документы напечатаны на различных бумагах, так как они включают счета, квитанции, письма и т. Д.
  • Многие, но не все документы напечатаны на обеих сторонах
  • Смесь цветная и только в черно-белом. Большинство документов не используют цвет важным способом
  • Меньшая часть страниц с некоторой графикой и изображениями и т. Д. (Возможно, 5 или 10%)
  • Меньшая часть пожелтевших страниц (менее 5%)

Я хотел бы сканировать в цвете, потому что я не хочу проверять, что вся информация о цвете не важна. Я исключу документы большого формата (например, A3), но в идеале я хотел бы сканировать счета, которые длиннее, чем A4.

Я не против сканировать «неловкие случаи» лист за листом, но хотел бы сэкономить время, используя податчик листов, где это возможно. Однако я ожидаю, что профессиональный сканер высокого класса на самом деле не нужен. Кроме того, поскольку документы по-прежнему разборчивы, повреждение бумаги не очень важно.

Кроме dpi, какие функции в сканере и податчике листов важны для такой работы? Под «характеристиками» я подразумеваю конкретные технические характеристики (или эксплуатационные характеристики) конструкции, а не широкие категории, такие как «надежность».

Я не ищу рекомендации по продукту. Я хотел бы знать, какие функции актуальны для такого масштаба применения.

0
Вы имеете в виду сканер __device__? TechLife 9 лет назад 0
@ fixer1234 Я не ищу рекомендации по продукту (кроме не по теме это было бы нецелесообразно, так как слишком много моделей и слишком различная доступность). Как это странный вопрос? Я совершенно не знаком со сканерами и податчиками листов, я знаю, что механические конструкции и т. Д. Различаются, и хотел бы знать, какие функции актуальны для такого масштаба применения. Я не считаю, что цена - это особенность, но, конечно, это ограничивает соответствующий набор устройств. Croad Langshan 9 лет назад 0
@TechLife: да, для меня сканер - это своего рода устройство (программное обеспечение будет «программным обеспечением для сканирования»). Croad Langshan 9 лет назад 0
Существуют относительно недорогие листовые сканеры потребительского качества и коммерческие сканеры для работы с большими объемами. Огромная разница в стоимости и размере. Будут ли вам нужны эти требования после выполнения работы? Сколько стоит ваше время и сколько у вас есть? Основным отличием, которое вы увидите, будет скорость и лучшая подача бумаги. Качество выходного сигнала будет сопоставимым (после этого вы не узнаете, на какой машине они сканировались). Это действительно вопрос сравнения характеристик того, что доступно, взвешивания того, что важно для вас, и исследования удовлетворенности владельца. fixer1234 9 лет назад 1
Сфера ограничена тем, что в вопросе: я не буду делать другие большие работы после этого. Чтобы дать представление, я вряд ли потрачу более 500 британских фунтов на аппаратное обеспечение (и, вероятно, значительно меньше, чем это). Я ожидал, что скорость и подача бумаги будут разделять различные устройства, и я определенно заинтересован в них, так как они, вероятно, определят, будет ли проект практичным. Croad Langshan 9 лет назад 0
1000 сторон - это две пачки бумаги. Существуют коммерческие сканеры, вероятно, в вашем ценовом диапазоне, которые справятся с этим за несколько партий, а сканирование будет завершено менее чем за 20 минут. Они также лучше справляются с нетронутыми страницами. Недорогие потребительские сканеры могут потребовать порядка 100 партий, плюс дополнительная подача, если оригиналы не в хорошем состоянии. Несмотря на это, сканирование может занять всего несколько часов, хотя может потребоваться растянуть его, чтобы он не превышал рабочий цикл сканера, и выполнить некоторую очистку подающего ролика во время работы. fixer1234 9 лет назад 0
На этот раз я уступлю желание рекомендовать конкретный продукт. Я знаю, что это (по очень веским причинам) не по теме, но все же я хотел бы упомянуть, что я использовал ScanSnap iX500 компании Fuji для сканирования тысяч страниц для подобных целей. Цена, качество, скорость, размер хорошо сбалансированы. Я с радостью рекомендую это. Ps: кроме того, что у меня есть один продукт Fuji, у меня нет никакой заинтересованности, намерений или выгоды с этой рекомендацией. Просто хотел поделиться своим положительным опытом. agtoever 9 лет назад 0
Ваш вопрос очень широкий. Есть много аспектов для рассмотрения. Чтобы получить более конкретные ответы, вам необходимо быть более точным в отношении ваших документов, например, на обычной бумаге для принтера или на очень тонкой бумаге. Печать двусторонняя или только односторонняя. Являются ли они цветными или только черно-белыми, содержат ли они графику или изображения и т. Д. Бумага пожелтела? Есть ли небольшие форматы между ними? На некоторых страницах наклеена другая бумага, например, как бухгалтеры делают это с квитанциями о продажах. user291737 9 лет назад 1
Что ты имеешь в виду под "неразборчивыми сторонами". Вы хотите читать их глазами или с помощью оптического распознавания символов? Это большая разница. Наши глаза способны читать низкокачественные сканы, где OCR полностью провалился. user291737 9 лет назад 0
Если качество ваших документов сильно различается и вы хотите, чтобы «процент отказов был ниже 0,25%», вам нужен профессиональный сканер (аппаратное обеспечение + драйвер + программное обеспечение). Чтобы получить все это за 500 фунтов стерлингов, вам нужно подумать о покупке подержанного профессионального сканера. user291737 9 лет назад 0
Ложно, что ответы на этот вопрос будут «почти полностью основаны на мнениях»: см. Ответ пользователя 291737. Я ответил на комментарии этого пользователя, отредактировав вопрос. Croad Langshan 9 лет назад 0
Не забывайте, что вы теряете информацию при переходе на электронный формат! Личные документы имеют характеристики, которые помогают найти их позже, например, тип хранения (папки, ящики, полки для документов, ящики из всех видов материалов / цветов), местоположение (полки, шкафы в разных комнатах или даже за пределами вашего дома / квартиры), формат размер и тд. Обычно вы знаете более или менее, где искать. В электронном виде все эти визуальные подсказки потеряны! Все папки имеют одинаковый цвет и форму, на всех документах одинаковые значки. Вы не должны недооценивать это. user291737 9 лет назад 0
@ user291737 Спасибо, я ценю это. Мое намерение состоит в том, чтобы 1. избавиться от старых скучных документов, таких как старые телефонные счета, и 2. помочь с аварийным восстановлением (пожар и т. Д.). Я не собираюсь избавляться от всех старых документов, в основном по причинам, которые вы приводите. Croad Langshan 9 лет назад 0
То, что я хотел указать в своем замечании выше: вам может понадобиться заранее подумать о том, как заменить отсутствующие подсказки другими (например, OCR), чтобы впоследствии найти документы в ваших тысячах сканов. И решение об оптическом распознавании влияет на ваше сканирующее оборудование. Стремление к тому, чтобы человек читал только, будет стоить вам много времени на поиск ваших документов позже. user291737 9 лет назад 0
@ user291737: отредактированный вопрос, чтобы подчеркнуть аварийное восстановление и избавиться от скучных громоздких документов (я должен был сделать это для начала ...) Croad Langshan 9 лет назад 0
Я знаю, что вы не ищете рекомендации по продукту, но в конечном итоге информация, которая сокращает ваш процесс принятия решений, может оказаться полезной. Журнал PC регулярно проверяет сканеры (www.pcmag.com/reviews/scanners). Он предлагает относительно широкий обзор сканеров и их плюсы и минусы в сравнении. (Я не связан с ПК Mag) user291737 9 лет назад 0
Иногда на телевидении рекламируется система, разработанная для такого рода приложений (http://www.tryneat.com/site/tryneat/home.html; возможно, доступна из таких мест, как Amazon). Это листовой сканер с податчиками для документов разных размеров. Он оптимизирован для документов такого типа (и выполняет двустороннее сканирование). Тем не менее, это также делает OCR как часть процесса, а программное обеспечение выполняет автоматическую регистрацию результатов. Если вы просто отсканируете пару тысяч листов, вы никогда не найдете конкретный, если он вам действительно нужен. Я никогда не использовал его, но по телевизору он выглядит великолепно. fixer1234 9 лет назад 0
Еще одна мысль: вы можете сканировать гораздо больше, чем нужно. По крайней мере, в США большинство вещей, таких как счета и квитанции, не имеют смысла после разного времени, но обычно верхний предел для них составляет 5 лет. Различные юридические документы должны храниться дольше, вы можете хранить такие вещи, как медицинские записи и т. Д. Изучите стандарты хранения документов, где вы живете. Если вашим документам 10-20 лет, возможно, что шредер будет более полезен, чем сканер. fixer1234 9 лет назад 1
1+ до fixer1234. Ваш измельчитель и мусорное ведро для бумаги - ваш лучший друг в экономии времени! user291737 9 лет назад 0
@ fixer1234: мысль тоже требует времени :-) Croad Langshan 9 лет назад 0

3 ответа на вопрос

1
user291737

If your pages (or some of them) where folded or are wrinkled (e.g. paper dried after exposure to water or high humidity) better chose a scanner with CCD instead of CIS. CCD elements have a much greater depth of field than CIS. Scanning such paper with a CIS scanner will result in unsharp areas on your scan. OCR often fails in unsharp areas. You might sharpen such areas with settings in the driver or with software but this might still not do the trick to get reliable OCR. With a CCD scanner you avoid the problem in the first place.

Regarding pages longer than A4: Probably all sheet feed scanners at your price point support that. It's usally a setting in the scanner driver that switches off multi-page feed detection by length.

Comparing scanners by advertised speed (pages/images per minute) can be very misleading. Some producers state it at 150 others at 200 or 300 dpi. Speed very much depends on the scanner driver settings you chose. Example: If you scan a newspaper/magazine article with (screen-printed) pictures/graphics at 300 dpi and aim for small document size, you need to choose the descreen function in the driver. This will cause your scanner to slow down considerably. Although you set 300 dpi for such a scan the speed will be comparable to a scan at about 600 dpi (remember that we talk about rather inexpensive document scanners for 500 GBP only).

Chose a scanner with LEDs as light source instead of cold cathode discharge lamps, which is an older kind of lightning. LEDs have a longer live span and do not need a warm-up time.

0
ispiro

As for any job of that importance, I would say that the reliability of the product / company is of importance. (The specs don't matter if the quality of the scan will be low, or the feeder breaks.) Also, I assume (although I might be wrong, of course) that all scanners today will have high enough dpi and will be able to output to the usual file types (jpeg for lower file size, png for higher quality, etc.)

However, I'd recommend taking a moment to consider whether digital preservation is reliable enough. E.g.

  • Are we sure that a dvd, HDD, or flash drive will hold its memory for many years (assuming you want this for many years).
  • Are we sure that we'll be able to read the files a decade from now? (Think file type, and hardware type. - how would you read information from a floppy disk today?!)

See Digital Preservation on Wikipedia. And this answer on this site.

Хотя это хороший совет, я думаю, что часть этого ответа, касающаяся надежности сохранности, здесь не упоминается, разве что в комментариях. Croad Langshan 9 лет назад 0
@CroadLangshan Ответ (как бы хорошо это ни было, но это отдельная тема) находится в первом абзаце. Однако, если я уже отвечаю, я думаю, что после него можно добавить несколько советов, которые я считаю важными (хотя и не заслуживающими отдельного ответа). Но, как я уже сказал - согласен, сам «ответ» есть только в первом абзаце. ispiro 9 лет назад 0
Спасибо за ответ. Я не считаю «надежность» особенностью, потому что это слишком широкий ответ, чтобы быть полезным для моих целей. Я ищу что-то более конкретное, например, технические характеристики. Например, «подумайте о том, чтобы получить один с грохотом звезд» (я придумал эту функцию :-). Я отредактировал вопрос, чтобы явно исключить dpi, поскольку все, похоже, согласны с тем, что эта функция не интересна, поскольку высокий dpi настолько распространен. Croad Langshan 9 лет назад 0
-1
user291737

Assuming that you intend to continue scanning incoming documents on a regular basis (if you only plan to scan old ones you better get it done at a scan service anyway):

Scan profiles, some scanner producers call it scan presets, will make your work much easier and faster. With a profile/preset you save a combination of scanner driver settings for later reuse. Example: Profile A for plain black print on standard white paper, B for colored magazine articles, C for sales slips of different sizes (e.g. auto-crop to original size instead of scanning small slips at a standardized page sizes), D for thin paper with print on both sides (driver settings e.g. see-through or bleed-through prevention), E for documents with extra length, etc.

Considering the documents you mentioned you will probably get to the point where you need more than 9 scan profiles. Many ADF scanners offer just 9 profiles, some even less. Some producers implement scan profiles in the driver, others in "scan utility" software. Some offer hardware buttons to choose among profiles. Many models with hardware buttons and display just show the profile number without additional text. Will you later remember what profile 3 does? A few scanners have a display that shows text as well, so you can give your profiles speaking names. And more than 9 profiles? Often implemented in software – but such demands get you quickly beyond consumer-grade hardware/software.

I recommend buying a scanner where auto-crop is already supported in the driver. If you have to crop your scans with additional software you have to live with a lot of compromises. So better do not count on upgrading this feature with additional software at a later stage. Reliable auto-crop is very hard to implement on the software level alone (and requires quite some CPU power). Even if a consumer-level third-party software claims to support auto-crop you will get a lot of false results (from not enough cropped to cropped too much, to even cropped completely at random - there is consumer and semi-professional software for around 200 USD that cropped completely at random in my tests).

Why did I not limit my answer to hardware? Because buying a scanner is not like buying a printer as those that did not use a document scanner before might think. The print dialogue is more or less standardized and variations are quite limited across the many printer producers and models we use for our general printing needs. WIA drivers (Windows) for scanners are similarly standardized but you get only a fraction of your scanner's capabilities. TWAIN drivers are a completely different story. If you have no prior experience with scanner drivers and image processing, the time necessary for understanding and using your scanner's driver and scan utility software to its full potential can vary a lot depending on the scanner's producer and even the producer's model. And even after you understood one model you might be lost with another one to the point that you want to through it out of your window.

Once you bought your scanner, you are stuck with its driver(s) and scan utility software – assuming you are not prepared to go beyond your budget with additional third-party software or you are not willing or able to patch your workflow with scripts or manually go through process steps with a number of free or open source software. If you are willing to spend additionally for additional image processing capabilities, more scan profiles, more automation (file naming, distributing files to specific folders, etc.) it gets expensive quickly because you enter a market focused on larger companies that is only slowly moving towards small companies with limited IT resources. Your scanning needs overlap with the needs of many small companies or SOHOs.

Почему понижение ответа? user291737 9 лет назад 0
Для всех читателей: Любые отзывы о (возможной) причине понижения могут быть полезны для улучшения ответа. user291737 9 лет назад 0

Похожие вопросы