Одним из решений является сохранение его в репозитории Git.
Поскольку Git использует контентную адресацию, неизмененные файлы занимают незначительное дополнительное пространство в хранилище. Редакции также занимают мало места, потому что в них хранятся различия. Первоначально большие двоичные объекты хранятся в сжатом виде по отдельности, но Git периодически объединяет файлы в пакеты, которые сжимаются более эффективно. Вы также можете вручную активировать эту функцию, используя git gc
.
Простой способ получить данные сайта - использовать wget --mirror
. В качестве альтернативы посмотрите, предоставляет ли сайт блога XML API (который был бы более экономичным, избегая архивирования стандартного HTML). Вы хотите загрузить страницы в текущее рабочее дерево.
Затем, после завершения загрузки, добавьте и зафиксируйте все в репозитории git. Следовательно, каждый коммит представляет собой моментальный снимок.