Я установил и запустил Heritrix Web Crawler. Он хранит данные в файлах .arc.gz

1440
Alex

Если бы вы использовали Heritrix Web Crawler, я был бы очень признателен за вашу помощь.

3 вопроса:

  1. Файл дуги, вероятно, содержит исходные коды многих страниц там. Как я узнаю, что есть что?
  2. Как мне интерпретировать файлы .arc.gz? Я открыл их в VIM и понял, что есть HTML-код + мусор (который я даже не могу разобрать, используя Python SGMLParser из-за мусора).
  3. Рекомендуется ли сжимать? (.Gz)

По сути, я понятия не имею, что такое файлы .ARC и что я могу с ними сделать. Я привык использовать URLLIB2 для загрузки и анализа HTML вручную.

0

1 ответ на вопрос

3
Andrew Johnson

Это ссылка на скачивание ArcReader и объяснение: http://crawler.archive.org/articles/developer_manual/arcs.html .

Я гуглил для чтения дуговых файлов и это была первая ссылка.

Сначала вам нужно распаковать файлы (они сжаты, отсюда расширение .gz.). Затем вы можете прочитать файл ARC.

Похожие вопросы