Извлечение файлов из веб-архива (.warc)

11014
wxs

У меня есть несколько веб-сайтов, которые я архивирую, чтобы сохранить там много связанных файлов, в частности, несколько PDF-файлов.

У меня не было проблем с использованием сканера Heritrix для сбора сайтов. Однако я не нашел хорошего решения для извлечения файлов из этих .warcфайлов.

Есть ли у кого-то опыт с этим, или есть предпочтительный способ получить эти отдельные файлы?

2

3 ответа на вопрос

4
Dragan Espenschied

Вы можете просматривать WARC с помощью Webarchive Player и сохранять нужные файлы из своего браузера. Кроме того, загрузите WARC в webrecorder.io и просмотрите / загрузите там.

1
Ivan Begtin

Я предлагаю попробовать warctools https://github.com/internetarchive/warctools - это python lib, который очень прост в использовании.

0
Martin Parkin

I've used 7-Zip before to extract individual files or whole archives from Web Archive format files.

It's available from their site here.

Интересно. Я на машине с Linux, поэтому я использовал сборку ** p7zip **. Кажется, он не распознает `` .warc`` как какой-либо архив, который может распаковать (`` p7zip -d web-archive.warc``). Вы смогли извлечь отдельные файлы с помощью 7-Zip? wxs 10 лет назад 0
@Walker Я был действительно. Несмотря на то, что архив не был распознан, он открылся с помощью 7-Zip, и его содержимое было отображено и могло быть извлечено. Martin Parkin 10 лет назад 0
Гектометр Я попал на компьютер с Windows и использую 7-Zip 9.20. У меня есть три разных файла `` .warc``, но ни один из них не может быть извлечен программой. Не уверен, в чем проблема. wxs 10 лет назад 0