Я установил и запустил Heritrix Web Crawler. Он хранит данные в файлах .arc.gz

Question

1440

Alex 2009-10-14 в 22:31

Если бы вы использовали Heritrix Web Crawler, я был бы очень признателен за вашу помощь.

3 вопроса:

Файл дуги, вероятно, содержит исходные коды многих страниц там. Как я узнаю, что есть что?
Как мне интерпретировать файлы .arc.gz? Я открыл их в VIM и понял, что есть HTML-код + мусор (который я даже не могу разобрать, используя Python SGMLParser из-за мусора).
Рекомендуется ли сжимать? (.Gz)

По сути, я понятия не имею, что такое файлы .ARC и что я могу с ними сделать. Я привык использовать URLLIB2 для загрузки и анализа HTML вручную.

0

1 ответ на вопрос

3

Accepted Answer · 2009-10-14 22:41:07

Это ссылка на скачивание ArcReader и объяснение: http://crawler.archive.org/articles/developer_manual/arcs.html .

Я гуглил для чтения дуговых файлов и это была первая ссылка.

Сначала вам нужно распаковать файлы (они сжаты, отсюда расширение .gz.). Затем вы можете прочитать файл ARC.