Использование wget параллельно, поскольку он не многопоточный
Мне нужно скачать около 1 млн веб-страниц. У меня есть их прямые URL-адреса (в базе данных, но я могу разместить их где угодно в любом виде хранилища, базы данных или файла).
Я пробовал wget, но я не хочу помещать wget в фоновый режим и оборачивать его некоторым управляющим скриптом, который будет контролировать количество процессов, чтобы я не испортил свой сервер сканирования.
Я читал, что сканер BUbiNG способен выполнять 1200 запросов в секунду для одного блока, и он разработан как сканер, поэтому он передает URL-адреса между потоками. Я не хочу этого делать - у меня уже есть прямые URL.
Мне нужно следить за перенаправлениями, так как я получил только домен без знания, если есть какие-либо перенаправления, которым нужно следовать.
Любой намек, совет или способ решить эту проблему? Должен ли я написать свое собственное программное обеспечение для этого (я не хочу изобретать колесо, как я уже сказал).
РЕДАКТИРОВАТЬ: Извините за решение, основанное на мнении - я не хотел, чтобы эта тема была основана на мнении.
Я нашел лучшее и самое элегантное решение с использованием:
parallel
утилита командной строки. Теперь я могу использовать wget параллельно, и это был самый быстрый и простой способ.
0 ответов на вопрос
Похожие вопросы
-
3
IE на Windows 7 не сохраняет файлы на диск
-
3
Завершение работы компьютера после завершения загрузки / выгрузки
-
4
Где скачать много цифр пи?
-
-
4
Настройка модема для загрузки Bittorrent
-
3
Firefox: Почему это медленно, если у меня есть активные загрузки?
-
2
Звоните, но не загружайте страницу с помощью wget
-
17
Как скачать URL в виде файла?
-
19
Как я могу скачать весь сайт?
-
4
Почему Microsoft заставляет пользователей использовать нестандартные решения для загрузки / установк...
-
7
URL сниффер / загрузчик