Как эффективно отсканировать 130 000 бумажных страниц за 10 дней

734
Gryph

У меня есть довольно большой проект, который в конечном итоге принесет пользу обществу, и я ищу любую помощь, которую смогу собрать. У меня есть около 130 000 страниц, которые нужно оцифровать. Многие из них находятся в упаковках со скобами или на бумаге, которой более 40 лет (и она довольно тонкая по сравнению с сегодняшней бумагой). Некоторые из них имеют странные размеры (полный размер, карты, карты небольшого размера и открытки). Тем не менее, у нас есть всего ~ 10 дней, чтобы обработать эту работу (как только мы прибудем на место). Мы могли бы работать всю ночь.  

У меня команда из 6 человек, и у нас относительно небольшой бюджет для выполнения этой задачи. Мы рассмотрели современные сканеры (такие как fujitsu scansnap в лотке подачи), которые могут обрабатывать страницы со скоростью ~ 25 страниц в минуту (страниц в минуту), но мы обеспокоены тем, что страницы будут порваться или перехватываться (и мы стараемся не подвергать опасности оригиналы), Существует также вопрос скобы (которые могут быть удалены ...). Мы могли бы сделать планшет, но это огромная работа вручную! Мы всегда могли сделать это для очень больших частей.

Я надеюсь, что у вас, ребята, есть очень умные идеи о том, как этого добиться ... Большое спасибо за ваше время и помощь 


РЕДАКТИРОВАТЬ Кажется, что комбинированный подход ( сканер тонкой бумаги + вертикальная стойка для копирования ) будет работать лучше всего, чтобы обеспечить требуемые страницы / минуту. Одно предложение в автономном режиме: ксерокс? Что, как мы предполагаем, произойдет, если мы сначала просто фотокопируем всю коллекцию, а затем либо отправим копировальный аппарат в цифровом виде, либо скопируем фотокопию в сканер. Мне кажется, что это двойная работа, но я недостаточно знаком со смелостью технологии, чтобы знать лучше.

3
Есть компании, которые сканируют книги очень дешево, они могут сделать это для вас или есть какие-то идеи. Если они могут отсканировать книгу, то, возможно, они могут отсканировать ваши материалы или дать вам некоторую обратную связь о том, как безопасно сканировать ваши материалы. Вы можете попробовать связаться с Fujitsu. Я видел хороший сканер Kodak раньше, вы не будете добавлять большое количество сразу. Примерно 5, и продолжайте кормить больше вручную. Я не знаю, как она справится со старой сверхтонкой бумагой или странными размерами. нечетные размеры, возможно, не очень хорошо. barlop 7 лет назад 1
по-видимому, серия Panasonic KV имеет функцию «сканирования тонкой бумаги», я видел, что упомянуто на веб-сайте, и это связано с http://panasonic.net/pcc/products/scanner/kv-s1065c_1046c/features.html «Теперь вы можете непрерывно сканируйте документы толщиной всего 0,04 мм. Это позволяет легко сканировать тонкие формы или ваучеры. Кроме того, увеличивается число ситуаций, в которых вы можете использовать сканирование - не беспокоясь о тонкой бумаге ". <- звучит так, как будто это может занять тонкую бумагу странного размера. Вы могли бы также позвонить в Panasonic barlop 7 лет назад 1
Другой - http://www.scantastik.com/hardware/kodak/kodak-i2600-scanner.htm "Универсальность. Маленькие или большие, толстые или тонкие идентификационные карты, даже тисненые жесткие карты - независимо от того, что вы сканируете, Происходит обработка бумаги от Kodak. Выходной лоток можно легко отрегулировать для размещения широкого спектра документов ». barlop 7 лет назад 1
Существует множество компаний, которые занимаются этим видом деятельности. SiXandSeven8ths 7 лет назад 0
Да, есть ряд компаний. Большинство взимает кучу денег за что-то вроде этого. Я думаю, что их основным намерением является работа в архиве (например, на бумаге с железными чернилами, которые прожигали страницу). Это действительно круто, и есть хороший ресурс из библиотеки конгресса на эту тему здесь (https://loc.gov/preservation/care/scan.html) Gryph 7 лет назад 0
Я должен также упомянуть, что они не слишком хотят помогать с технической точки зрения, по крайней мере, тем, с кем я связывался. Я мог быть замечен как уловка - чтобы получить их IP! @ barlop, эти ** сканеры ** кажутся отличным вариантом .. Я могу в конечном итоге получить один из них, а также настроить ** вертикальный стенд для копирования **, упомянутый ниже. Gryph 7 лет назад 0
Если вы берете с собой сканеры, я предлагаю сканеры со светодиодным освещением, так как старый CCFL может сломаться при транспортировке, и это головная боль, которая вам не нужна. cybernard 7 лет назад 1
Если ** «сбой не возможен» **, я бы купил много сканеров, например, 10, потому что если вам нужно сканировать что-то с 300,600,1200 точек на дюйм, это замедлится. Тогда ваши сотрудники будут продолжать кормить другие сканеры. Даже если некоторые из них не используются, большинство магазинов имеют 30-дневную политику возврата. 130 000/10 сканеров = 13000pg шт. 20 частей на миллион = 650 минут. Однако нечетные страницы с мячом замедляют процесс, и позже вы будете благодарны за дополнительное время, которое вы заложили в бюджет. cybernard 7 лет назад 0
@cybernard, ну, у него есть команда из 6 человек, я не думаю, что они будут сгруппированы вокруг одного сканера. Но также, иногда вы не можете положить столько много за раз, вы должны вручную кормить несколько за раз в противном случае это может привести к сбоям. Вы можете получить максимальную скорость сканера (я полагаю, учитывая разрешение, поэтому, вы предлагаете, медленную скорость), но все же, если у него есть 6 человек, они не смогут одновременно использовать> 6 сканеров > OutputFile`. barlop 7 лет назад 1
Я видел, как это было сделано на Kodak .. barlop 7 лет назад 0
@ barlop Сначала вам нужно больше сканеров из-за возможной поломки. Во-вторых, человек может поместить 100 листов в сканер 1 и еще 100 в сканер 2. При 25 стр / мин, если это устойчиво, это означает, что эти 2 сканера теперь заняты не менее 4 минут. Вполне возможно, что вы можете удалить достаточно скрепок, чтобы иметь достаточно новых документов, готовых для подачи на 3-й сканер. Кроме того, скорость 25 стр / мин - это физический предел, вам нужно больше сканеров, если бы был хоть малейший шанс использовать более 1 сканера каждый, я бы на него прыгнул. У меня было бы намного больше, но по крайней мере +3 для документов размером шансы (привет dpi). cybernard 7 лет назад 1
Первым делом у меня было несколько сканеров лотка подачи, может быть, даже два на человека, и один или два бегуна, которые брали документы и раздавали их. Но есть вероятность повреждения бумаги, застревания машин и т. Д. Некоторые команды считают, что плоские кровати лучше. Я чувствую, что это было бы кошмаром (даже нажав «Сканирование» 130 000 раз!). Gryph 7 лет назад 0
мой текущий дубль (и ответом будет, если я не вижу ничего более подходящего), будет, по крайней мере, несколько из ** сканеров для тонкой бумаги **, перечисленных выше, и вертикальная копия для нечетных форматов или особенно чувствительный. Это помимо других устройств (съемник скоб, несколько жестких дисков (возможно, RAID), пара рабочих столов и т. Д.) Gryph 7 лет назад 0
@ cybernard не говори, что мне это нужно, ты просто запутаешь людей, не я задаю вопрос. Термин «кто-то будет» или кто-то будет, или ОП будет. Кроме того, я видел сканер Kodak, который был быстрым и надежным, но хотя он и тратит много листов, он съедает по 2 штуки за раз, если вы кладете больше, чем небольшое количество за раз. И я вспоминаю принтер HP Deskjet 895cxi, который являлся флагманской моделью принтеров, произведенных компанией HP, он должен был быть очень хорошим, и HP - отличное решение для принтеров, но он будет съедать более одного листа за раз, если не будет много бумаги. впитывается в это .. может быть, аналогично со сканерами, например, мой пример. barlop 7 лет назад 0
Как насчет фотокопирования? Любые мысли по этому поводу (см. Выше изменить?) Gryph 7 лет назад 0

3 ответа на вопрос

6
Yorik

Если вам просто необходимы факсимильные аппараты и вас не волнует идеальная презентация, рассмотрите камеру, прикрепленную к вертикальной копировальной стойке .

Гарантированно не заедает, легко настраивается на разные носители, достаточно прямолинейен для оптического распознавания символов и намного быстрее, чем потребительский планшет.

Самодельный может быть довольно дешевым, и вы можете просто уронить стопку под камеру, настроить камеру таким образом, чтобы кадр был максимально заполнен, а затем начать листать страницы, делая снимок каждого.

Автофокус должен обрабатывать любые изменения глубины, и вам никогда не потребуется удалять скрепки / переплеты / и т.д.

Может быть, достаточно дешево, вы можете получить все 6 человек, работающих камеры.

Две вещи, которые нужно иметь в виду:

При размере 8.5 x 11 страниц при 150 ppi, заполненном случайным шумом, rgb будет сжат примерно на 1 МБ jpg, поэтому вам потребуется как минимум 200 ГБ свободного места.

130 000/6 человек / 10 дней / 8 часов в день / 60 минут в час = 5 сканирований в минуту. Я думаю, что это выполнимо для камеры, но не планшетного сканера потребительского уровня.

Вероятно, любая камера с 8 мегапикселями и более будет работать. Yorik 7 лет назад 1
Сейчас мы говорим! Не уверен, если вы знаете, что это на самом деле очень похоже на подход Google для сканирования книг (по крайней мере, в форме), вот статья NPR об этом [http://www.npr.org/sections/library/2009/04 /the_granting_of_patent_7508978.html). Я еще не уверен, но мне интересно, может ли этот подход (для самых сложных или больших форматов), плюс один или два высокопроизводительных сканера, быть лучшим балансом между скоростью и эффективностью (так как текст потребует ** OCR ** обработка). Gryph 7 лет назад 0
Я использую камеру для всего сейчас. Я даже использую DSLR и световой стол в качестве подсветки для захвата прозрачных пленок 4x5 и 8x10. Yorik 7 лет назад 0
Очень большой элемент с текстом, который вы хотите использовать для распознавания текста, вероятно, нужно будет соединить вместе. В противном случае размер текста упадет ниже разумного размера. Вы, вероятно, хотите минимум 150ppi при захвате. К счастью, вы можете написать весь рабочий процесс, прежде чем попасть туда. OCR может подождать до окончания окна сканирования, пока вы тестируете и проверяете правильность сбора данных. Yorik 7 лет назад 0
Опция, которая дает результаты более низкого качества, но требует значительно меньших настроек, - это оснащение смартфоном приложения для сканирования. Я использую [Объектив Office] (https://blogs.office.com/2014/03/17/office-lens-a-onenote-scanner-for-your-pocket/) на Windows Phone для создания PDF-файлов с текстом OCR с возможностью поиска и я вполне уверен, что есть хорошие аналоги на Android и iPhone, такие как CamScanner Micah Lindström 7 лет назад 0
@ MicahLindström: я согласен. Две вещи, которые имеет установка DSLR на эшафоте, могут работать в ее пользу для данной конкретной задачи: (1) кабель удаленного переключателя, чтобы оператор мог перелистывать страницы одной рукой и нажимать кнопку отпускания другой рукой. Это скорее соображение скорости; (2) поскольку камера никогда не движется, композиционное кадрирование нужно выполнять только один раз за стек (так быстрее). Второго можно добиться с помощью смартфона, просто используя резиновые ленты и т. Д., Чтобы установить камеру на якорь Yorik 7 лет назад 0
Кто-нибудь в этом ответе рассматривал использование ксерокса? Я устал от этой идеи из-за снижения качества, но я вижу преимущество последовательного формата вывода. Извините за повторное опубликование подобных комментариев, я не уверен, что темы будут поддерживать сообщения между ответами. Gryph 7 лет назад 0
Я только что заметил, что Adobe Acrobat DC ([арендная плата за $ 25 / месяц] (https://acrobat.adobe.com/us/en/acrobat/pricing.html)) может обрабатывать JPEG-файлы в PDF, включая автоматическую обрезку границ страницы и автоматическое чтение печатного материала Смотрите видео [«Преобразование JPEG в PDF для архивации»] (https://acrobat.adobe.com/us/en/acrobat/how-to/convert-jpeg-tiff-scan-to-pdf.html), а также [также это] (https://helpx.adobe.com/acrobat/using/enhance-camera-images.html). Затем, используя [Мастер действий] (https://helpx.adobe.com/acrobat/using/action-wizard-acrobat-pro.html), вы, вероятно, сможете очень быстро пост-обработать все эти изображения. Micah Lindström 7 лет назад 0
4
Gustav Eriksson

Я не могу ответить, какой сканер получить, однако могу сказать по опыту бывшего работника, который готовил, сканировал и архивировал документы всех форм и размеров, что бумага редко хрупкая, и в цифровой копии трудно разглядеть какие-либо разрывы.

Скобы - это боль, с которой приходится иметь дело, в зависимости от того, насколько важны углы. Если они важны, чтобы не быть поврежденными, их удаление может занять 4-15 секунд, в зависимости от того, насколько они упрямы, некоторые также любят взрываться, поэтому, пожалуйста, закройте скобу рукой, чтобы избежать повреждения глаз.
Существуют два различных типа инструментов для удаления скоб, один с металлическими зубцами, а другой - просто палка, которую вы скользите под скобу, а затем продолжаете скользить до тех пор, пока скоба не выйдет.
Зубчатый - намного медленнее, но редко разрывает бумагу, а скользящий - быстрее, но с большей вероятностью отрывает угол.

Опытная команда будет обрабатывать 130 000 бумаг 150-225 человеко-часов, неопытная команда может быть вдвое больше, в зависимости от того, как нужно обрабатывать бумажную массу. Но важная часть заключается в том, чтобы всегда держать сканер включенным.

Совет, который я бы дал по поводу сканера и сканирования, заключается в том, что очень важно обеспечить рабочую нагрузку для человека, который сканирует эффективным способом. Соберите документы и запустите их вместе с некоторыми разделителями между различными документами. Разделите документы по почте, если сканер не может сделать это вживую.
Вам действительно понадобится «бегун для бумаги», чтобы бумага не мешала ориентации в машине. ПРОСТО быстрее и лучше результаты, чем человек, просто потрясающий бумаги. Но у меня есть опыт работы только с одной машиной, поэтому я не знаю, как отличить хорошее от плохого, не используя его (если есть плохие).
Гораздо важнее иметь сканер, который легко загружать, чем иметь высокий уровень PPM (все относительно). Если вы не можете загрузить сканер на 25 страниц в минуту на 25 страниц в минуту, тогда это не совсем то, что вы получаете на 25 страниц в минуту. Вы действительно хотите иметь возможность загружать сотни бумаг одновременно, чтобы машина работала.

Если есть еще какие-то вопросы, которые вас интересуют, я постараюсь ответить и на них.

Это отличный совет - есть ли у вас опыт сканирования хрупкой бумаги (подумайте, чеки от 20 лет назад, эта тонкая бумага). Я вижу некоторые варианты выше, которые могут сработать, но я решил сначала спросить прямо. ** Бумажный бегун ** кажется хорошей идеей, хотя я был немного подавлен ** ценой ** (около 2 тыс.). Я посмотрю на ** аренду ** вариант для него. Gryph 7 лет назад 0
@Gryph Я не обращался со старыми квитанциями, но время от времени мы получали бумагу, которая имела качество телефонной книги, и в этом не было ничего особенного. Если были небольшие квитанции или что-то подобное, мы приклеили их на бумагу стандартного размера и пропустили через сканер. Если на маленькой бумаге была информация на обороте, мы сначала копировали ее, а затем приклеивали оригинал другой стороной к копии. Gustav Eriksson 7 лет назад 0
Это приятно знать; Я весьма обеспокоен этим аспектом. Вы когда-нибудь задумывались о том, чтобы просто фотокопировать работу, а затем заняться копиями? Моя интуиция говорит, что двойная работа и снижение качества было бы головной болью, но я понимаю, почему есть привлекательность - формат вывода был бы согласованным, и мы могли бы долго сканировать каждую копию на досуге. Gryph 7 лет назад 0
@ Гриф, я не спокоен, уверен, что следую твоему ходу мыслей. Большинство документов (почти все) имели какое-то юридическое значение для хранения (оригиналы), хотя в большинстве случаев нам приходилось извлекать оригиналы, потому что они должны были быть отправлены куда-то еще (ошибка отправителей в 95% случаев). Дешевые персональные копировальные аппараты и даже фотографии с телефонов дадут больше деталей, чем вы можете увидеть своими глазами, поэтому я не думаю, что качество будет проблемой. Вы всегда можете распечатать копию в цвете, но текст в черном или белом цвете всегда выглядит четким. Gustav Eriksson 7 лет назад 0
4
user291737

Несколько мыслей по удалению скоб

Для стандартных сканеров документов необходимо удалить скобы.

Если край бумаги рядом со скрепкой не содержит никакой информации, которую вы могли бы рассмотреть, просто обрежьте край вместе со скрепкой. Самый простой и быстрый способ - использовать нож для бумаги с рычагом . Роторные резаки для бумаги менее эргономичны и медленнее для этой цели. С вашим количеством сшитых документов у вас скоро появятся воспаленные пальцы, если вы будете использовать ножницы для этой цели, особенно если у вас плотные сшитые документы.

Если вы хотите сохранить края, у вас есть выбор из множества различных форм для удаления скоб . Для удаления сотен скрепок устройство для удаления скрепок в форме плоскогубцев, вероятно, предлагает лучшую эргономику и является самым безопасным для бумажных оригиналов. Преимущество в том, что у него есть рычаг, поэтому вам нужно меньше усилий. Челюстные съемники не имеют рычага. Как следствие, вам нужно гораздо больше силы, и вскоре у вас будет судорога в руке и боль в мышцах руки; то же самое с язычковыми скобками, Риск повредить бумагу в форме челюсти очень велик, а в форме языка - немного меньше. С челюстями вам часто нужно «кусать» под скобу с обеих сторон стопки бумаги, особенно если стопка бумаги толще, а скоба длинная. В этом случае вам понадобится много времени, чтобы вытащить скрепку.

С хорошим плоскогубцем для удаления скобок достаточно одного «укуса» с верхней стороны стопки бумаги, чтобы удалить скобу за один раз. С помощью съемника, который я использую ( Skrebba skre-klick ), риск повреждения бумаги минимален, так как требуется сила. Но могут быть и другие, которые так же хороши. С таким средством для удаления скрепок вы легко вдвое быстрее, чем с двумя другими, упомянутыми выше, и вы редко повредите бумагу .

Примеры упомянутых выше устройств для удаления скоб:

«Щипцы-образный» enter image description here

«Челюсти-образный» enter image description here

«Языкообразный» enter image description here

Похожие вопросы