Сканирование документов: как ускорить программную часть процесса сканирования?

3713
user291737

Я ищу решение для ускорения процесса сканирования документов, особенно для документов, которые не подходят для обычного сканера документов с автоматической подачей документов (АПД). Для этих документов в настоящее время я использую планшетный сканер.

Сначала я подумал, что решением будет более быстрое сканирующее оборудование (например, сканер камеры вместо обычного планшетного сканера). Но я заметил, что общее время сканирования составляет всего 20% для оборудования сканирования (движение сканирующей головки), но 80% для программного обеспечения (улучшение изображения и оптическое распознавание символов).

Чтобы ускорить сканирование, я искал следующее: (а) программное обеспечение для сканирования, которое будет использовать не только одно ядро ​​/ поток ЦП, но и несколько ядер / потоков. Несмотря на долгий поиск, я пока не смог найти многопоточную программу для TWAIN. (б) рабочий процесс + программное обеспечение: программа, которая дает возможность определять мои собственные профили сканирования. Но я не смог найти программное обеспечение, которое предлагает профили сканирования и в то же время хорошее автообрезание (и OCR не только на английском языке). (c) рабочий процесс, т. е. перемещение OCR на отдельный шаг (но я не получил от этого никакой скорости, поскольку программное обеспечение, входящее в комплект моих планшетных сканеров CanoScan, требует одинакового времени для сканирования, независимо от того, включаю ли я OCR или нет)

Как я могу ускорить сканирование?

Для тех, кто знает стороннее программное обеспечение для сканирования документов на рынке: увижу ли я значительную разницу в скорости между двухъядерным процессором i7 и четырехъядерным процессором i7?

Под программным обеспечением для сканирования документов я понимаю программное обеспечение, которое включает в себя функции улучшения изображения (например, выравнивание по горизонтали, автообрезка, удаление экрана), распознавание текста (не только для английского языка), возможность сохранять файлы нескольких типов (jpg, jpeg2000, TIFF, PDF с возможностью поиска), PDF / A) и профили сканирования (= определенная пользователем комбинация точек на дюйм, настроек улучшения изображения, языка распознавания текста, типа файла).

0
Один вопрос: «Для тех, кто знает стороннее программное обеспечение для сканирования документов на рынке: увижу ли я значительную разницу в скорости между двухъядерным процессором i7 и четырехъядерным процессором i7?» Другой вопрос касается рекомендации по программному обеспечению со спецификациями, которые я дал в предыдущем абзаце. user291737 10 лет назад 0
Вы упомянули эту теорию в своей рекомендации: «Одноядерный процессор с той же скоростью будет выполнять ту же операцию, что и двухъядерный или четырехъядерный процессор на 1/2 и 1/4 от соответствующих скоростей». Я спрашивал о реальном опыте использования программного обеспечения для сканирования документов на рынке. В реальном мире с программным обеспечением для сканирования документов: увижу ли я значительную разницу в скорости между двухъядерным процессором i7 и четырехъядерным процессором i7? user291737 10 лет назад 0
Если вам известно о программном обеспечении для сканирования документов, которое в полной мере использует потенциал четырехъядерного процессора i7, пожалуйста, дайте мне знать. user291737 10 лет назад 0
Другим вариантом является программное обеспечение, которое позволяет сканировать и обрабатывать отдельно. Программное обеспечение моего сканера документов позволяет мне сканировать, а затем выполнять оптическое распознавание целой группы файлов в пакете. Если мне нужно будет выполнить OCR, я сделаю сканирование, а затем перед выходом на следующий день включу пакет OCR. В этот момент неважно, займет ли это час или 8, если это будет сделано ко времени, когда я вернусь на следующий день. Steve Rindsberg 10 лет назад 0
Кроме того, если скорость имеет значение, вы можете использовать соответствующий драйвер ISIS (http://en.wikipedia.org/wiki/Image_and_Scanner_Interface_Specification) вместо его аналога TWAIN, так как он может быть быстрее. JSanchez 10 лет назад 0
@Ramhound: посмотрите на www.tomshardware.com/charts/cpu-charts-2013/-29-Adobe-Acrobat-X-Professional,3168.html для сравнения Adobe Acrobat и www.tomshardware.com/charts/cpu- charts-2013 / -30-Abbyy-Finereader, 3163.html для Abbyy Finereader как на шести-, так и на четырехъядерных / двухъядерных процессорах с гиперпоточностью, и вы увидите, что реальность программного обеспечения для сканирования не так проста, как, возможно, в область фотографического изображения или обработки видео. Деймон в ответе ниже также подтверждает, что, к сожалению, многие программы сканирования являются однопоточными. user291737 10 лет назад 0
@ Стив Риндсберг: Я еще не отделил сканирование от постобработки с помощью моего планшетного сканера (Canon), потому что по скорости не имеет значения, сохраняю ли я изображение PDF или PDF с возможностью поиска. Включаю ли я OCR или нет, скорость остается неизменной. Похоже, это особенность многих сканеров Canon (см. Обзоры на PCMag.com, например, www.pcmag.com/article2/0,2817,2399603,00.asp). user291737 10 лет назад 0
@Ramhound: Даже если вы используете программное обеспечение, оптимизированное для нескольких потоков, вы не увидите четырехкратного увеличения скорости при переходе с одного на четыре ядра, см .: www.abbyy-developers.eu/en:tech:samples:multicore_processing user291737 10 лет назад 0
@ user291737 Попробуйте сохранить сканы в формате TIFF (изображение) вместо PDF (документ), а затем постобработать TIFF. Используете ли вы программное обеспечение сканирования canon или другое программное обеспечение для сканирования. Попробуйте использовать что-нибудь простое, например, программное обеспечение для сканирования Microsoft или другое программное обеспечение. Когда вы сохраняете в формате TIFF и не нуждаетесь в «специальных» эффектах, подойдет практически любое программное обеспечение. Damon 10 лет назад 0
@Ramhound: Если Abbyy - одна из самых медленных программ, которые вы видели, вы знаете более быстрые. Я был бы признателен, если бы вы назвали их. Вы тестировали последнюю версию Abbyy? Несколько лет назад я тестировал старую версию, которая была действительно медленной. Эбби говорит, что они добавили поддержку многоядерности в последней версии. user291737 10 лет назад 0
Я редактировал вопрос несколько раз. Соответствует ли формулировка правилам? Может быть [на удержании] может быть удалено, пожалуйста? user291737 10 лет назад 0

1 ответ на вопрос

2
Damon

First, separate the scanning process from the post processing process. Do this by scanning as a picture at a higher resolution 300-600DPI or more. The files will be large, but only temporary until you post process. File size will be your biggest slow down here, so drop your resolution and bit depth to as low as comfortably possible. (e.g. use grey scale if you do not need color). What you do not want are 24bit 1200DPI image at 8-1/2"x11" that are 100's of MB's each unless you have to; they take too long to save and open.

Then using any software that suits your needs, run your post processing in a batch at your convenience. All software functions differently, so you will have to learn your software.

Here is the catch though. Most programs only run on 1 core of your multi-core CPU, so the best way to make things run faster is to open your program multiple times and split the batches between the open instances of the program. Most programs will not open multiple instances, so you have to run the program from either the start menu manually, or from the run command with a special "switch". Depending on your program depends on how you do it. Acrobat for example needs to be ran from the run command as "ACROBAT /N" to open a new instance if an instance is already open.

If I have upwards of 10,000 pages to post process, then during the day I will open 3 instances on a 4 core computer and split up the jobs across the 3 instances so I can still use the computer (the CPU runs at 75% leaving 25% for "office use"). At night, I will run 4 instances to max out the computer.

But if I know the post processing will not take that long, say only a few hours, I won't bother with opening up instances; I will simply run a batch and let it go until is complete. With a dual core computer, this would allow you do run your post processing and still use the computer. Most batches will not take that long. be aware if you run 2-3 instances on dual core computer, your computer may not function as a desktop for active use until the batches finish.

Another option, no matter if you run instances or not, is to go into the windows task manager and change the CPU priority for the instances to below-normal so your active work takes precedence over the background post processing.

As for the speed, the more cores working, the faster processing will go. The problem is if you have a dual core CPU that you run a single threaded app on, and you buy a comparable quad core and run the same app in the same manner, it will not go any faster. So, the trick is to run your single threaded app multiple times at the same time to max out you CPU's capabilities.

At the end of the post processing, save the document(s) in your desired format, then QC batch before deleting the images.

If you use Acrobat and you run large batches, be ready for problems though! Search for solutions and find more people with the same problems too! Acrobat is a PAIN!

Большое спасибо за ваш компетентный ответ !!! Я знал, что многие программы сканирования запускают только один поток. Вот почему я надеялся получить некоторые подсказки о программном обеспечении, которое запускает несколько потоков. Рынок сканирования, кажется, довольно своеобразен с большим количеством унаследованных приложений, которые содержат код 10 или даже 20 лет, и компании, продающие такое программное обеспечение, не удосуживаются обновить их, чтобы использовать весь потенциал современных процессоров. Я не знал, что можно запустить несколько экземпляров, большое спасибо! user291737 10 лет назад 0
Вопрос по оперативной памяти: достаточно 8 ГБ или будет быстрее с 16 ГБ или даже 32 ГБ? user291737 10 лет назад 0
ABBYY FineReader 11 и Omnipage 18 / Professional 18 / Ultimate утверждают, что они поддерживают многоядерные процессоры. Есть ли у вас опыт работы с ними? user291737 10 лет назад 0
@ user291737 Autocad Architecture - это проектная программа стоимостью более 6000 долларов, которая является однопоточной, поэтому однопоточными являются не только программы 10-20 лет. Adobe Acrobat также является однопоточным. ОЗУ - это одна из тех вещей, где, если у вас достаточно, тогда это не будет иметь никакого значения. Проверьте память в мониторе ресурсов Windows, чтобы увидеть, достаточно ли у вас. Вероятно, в 99% случаев для офисного компьютера 8 ГБ должно быть более чем достаточно. Я не знаком с упомянутыми вами программами. Damon 10 лет назад 0
Ваша пост-обработка ограничена OCR или вы также улучшаете изображение в пост-процессе (например, удаление экрана, уменьшение просвечивания, автообрезка)? Я заметил, что мой планшетный сканер с разрешением 300 точек на дюйм почти вдвое увеличивает время, необходимое для завершения сканирования + обработки одной страницы. Если бы я мог переместить экран на отдельную стадию постобработки, я бы сэкономил много времени. Я регулярно использую дескрин (например, при сканировании страниц из журналов с текстом и графикой). Это позволяет значительно уменьшить размер файла. user291737 10 лет назад 0
У меня есть все, что программа делает по умолчанию; Оптическое распознавание текста, выравнивание, уменьшение изображений и некоторая другая выборка для областей, не относящихся к изображениям, так что размер резко сокращается, наряду с другими вещами, которые я не запомнил, но делает это по умолчанию, если вы не отключите его. Просто отсканируйте TIFF; или другое изображение не делает ничего, кроме как сканирует изображение и сохраняет его. нет красных глаз, нет сжатия, нет ничего. Чем проще программа, тем лучше. Вам нужно простое необработанное изображение, с которым вы можете работать позже. JPEG сжаты, вы даже не хотите этого. Damon 10 лет назад 0
Я проверил ваше предложение и отсканировал в TIFF без какого-либо улучшения изображения. Когда я продолжаю обрабатывать TIFF с помощью Acrobat, полученный PDF не так ясен, как при улучшении изображения с помощью драйвера TWAIN / прилагаемого программного обеспечения. Например, Acrobat не так хорош, как драйвер / программное обеспечение для удаления расплывчатых отпечатков на обратной стороне тонких страниц. Если я позволю драйверу / программному обеспечению выполнить удаление из памяти, это увеличит время обработки примерно на 20% по сравнению с простым сканированием в TIFF без какого-либо улучшения изображения. Получаете ли вы чистые PDF-файлы с помощью Acrobat с такими документами? user291737 10 лет назад 0
Мы не сталкивались с кровотечением на наших страницах и не нуждались в акробате для его очистки. Ваш оригинальный вопрос упоминал 20% времени сканирования, 80% времени обработки. Предложенное решение позволило сократить время обработки. Если у вас по-прежнему 25% времени сканирования и 75% времени обработки без обработки, я не могу сказать вам, почему это не так. И если акробат не устраняет кровотечение, то это целый вопрос и решение, вытекающие из вашего первоначального вопроса. Извините, но похоже, что ваш поиск решения вашей проблемы продолжается! Damon 10 лет назад 0
Извините, что не упомянул об этом: когда я сканирую в TIFF без какого-либо улучшения изображения, это время сканирования составляет 90% и время обработки составляет 10%. Со временем это прекрасно. Если на отдельном этапе постобработки есть способ получить то же качество изображения, что и в комплекте с драйвером / программным обеспечением, то это было бы идеально. user291737 10 лет назад 0

Похожие вопросы