поиск инструмента создает компактные веб-архивы

172
H2ONaCl

Я ищу инструмент для эффективного архивирования блога, который меняется каждый день или даже два или три раза в день. Я не имею в виду, что отдельные сообщения в блоге меняются - не всегда, во всяком случае, - я просто имею в виду, что новые записи в блоге добавляются, а старые записи перемещаются вниз на первую страницу. Одна проблема, которую я вижу, состоит в том, что будет неэффективно архивировать одну и ту же запись в блоге несколько раз. В идеале редакции одной и той же записи должны быть заархивированы, но в оригинале это не обязательно, так как редакция, скорее всего, связана с улучшением или исправлением.

Это блог blogspot.com с текстовыми и статическими изображениями. Решение Linux является предпочтительным.

2

1 ответ на вопрос

1
Mechanical snail

Одним из решений является сохранение его в репозитории Git.

Поскольку Git использует контентную адресацию, неизмененные файлы занимают незначительное дополнительное пространство в хранилище. Редакции также занимают мало места, потому что в них хранятся различия. Первоначально большие двоичные объекты хранятся в сжатом виде по отдельности, но Git периодически объединяет файлы в пакеты, которые сжимаются более эффективно. Вы также можете вручную активировать эту функцию, используя git gc.

Простой способ получить данные сайта - использовать wget --mirror. В качестве альтернативы посмотрите, предоставляет ли сайт блога XML API (который был бы более экономичным, избегая архивирования стандартного HTML). Вы хотите загрузить страницы в текущее рабочее дерево.

Затем, после завершения загрузки, добавьте и зафиксируйте все в репозитории git. Следовательно, каждый коммит представляет собой моментальный снимок.