Веб-менеджер загрузок знает только о новых и измененных файлах

297
matt wilkie

Я ищу менеджер веб-загрузки, который может быть умным и перезаписывать или переименовывать только файлы нового или измененного размера. Несколько раз в год мне нужно освежить локальные копии от нескольких десятков до сотен гигабайт файлов.

На сегодняшний день я использовал FileZilla и WinSCP, которые имеют возможность сравнивать локальную метку даты / времени и размер файла с копией сервера и загружать только то, что отличается. Очень полезная функция, которая экономит часы и часы времени и 100 ГБ пропускной способности, как для меня, так и для хостов.

Ftp все еще работает, однако хосты дросселируют ftp до 4-х соединений и максимальная суммарная скорость ~ 1-2 МБ / с. Один и тот же сайт по протоколу http ограничен 8 соединениями и общей скоростью ~ 3-4 МБ / с. С помощью ftp мне нужно настроить работу на ночь и посмотреть, как все прошло утром (и, возможно, повторить некоторые). С помощью http я могу запустить задание на обед и чуть-чуть, даже если слепо перезаписывает все, а не только измененные файлы, и немедленно реагировать на ошибки или повторы.

Итак, есть ли способ массовой загрузки только новых измененных файлов из http-источника?

Windows предпочтительнее, но я могу раскрутить виртуальную машину Linux, если это лучший курс.

Это корпоративная настройка, которая запрещает и применяет набор правил брандмауэра "без торрентов". Жаль, что это идеальный сценарий для не-варезного применения одноранговой технологии.

Источник для тестирования: http://ftp2.cits.rncan.gc.ca/pub/geobase/official/nhn_rhn/

FileZilla перезаписывает только новый и измененный размер диалогового окна

1

1 ответ на вопрос

2
snorris

Как насчет этого?

wget -Nr -A.zip http://ftp2.cits.rncan.gc.ca/pub/geobase/official/nhn_rhn/gdb_en/01 
@mattwilkie Хм, честно. Nic Hartley 8 лет назад 0
Я попробовал wget несколько лет назад, но столкнулся с проблемами, которые иногда портили архивы. Насколько я помню, это было связано с просмотром другого (большего) размера файла и последующим добавлением нового содержимого в старый файл вместо перезаписи всего этого. Я не хотел отказываться от использования «возобновить незавершенное» скачивание, чтобы приспособиться к этому, потому что у нас часто возникали разорванные соединения. Возможно, сейчас пришло время вернуться к нему. matt wilkie 8 лет назад 0
Вот последняя (я думаю) версия моих попыток wget. Может быть, мои проблемы были связаны с неправильным сочетанием параметров командной строки (?) Https://gist.github.com/maphew/0f2f1b4f3659440bae82 matt wilkie 8 лет назад 0
Я был приятно удивлен, что это сработало - я был разочарован рекурсивным вариантом раньше. Я думаю, что ключ в том, что хост геобазы позволяет индексировать, иначе вы должны знать путь ко всем файлам, которые вы хотите. snorris 8 лет назад 0
Похоже, что опция --continue все еще будет иметь проблемы. Возможно, вам не повезет, если вы не сможете поддерживать работу wget во время разрыва соединения. snorris 8 лет назад 0