Как сканировать большой список URL?

268
DangerBob Gaming

У меня есть огромный список URL-адресов. Это выглядит примерно так:

www.example.com/api/users/1.json www.example.com/api/users/2.json www.example.com/api/users/3.json 

И продолжается около 400 000 раз. Цель состоит в том, чтобы найти определенную строку текста на всех страницах. Кто-нибудь знает, как мне поступить?

1
Какая ОС? Это можно сделать с помощью довольно простого сценария в Linux, использующего цикл для чтения fe, затем wget или curl для загрузки содержимого и grep для его анализа. davidgo 5 лет назад 1
Я могу запустить Linux на виртуальной машине. DangerBob Gaming 5 лет назад 0

1 ответ на вопрос

0
slm

У меня нет опыта работы с этим проектом, но, покинув, я нашел такой, который называется Scrapy . Он написан на Python и обсуждается в нескольких местах, например:

2-я ссылка выше также показывает этот пример:

from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class ElectronicsSpider(CrawlSpider): name = "electronics" allowed_domains = ["www.olx.com.pk"] start_urls = [ 'https://www.olx.com.pk/computers-accessories/', 'https://www.olx.com.pk/tv-video-audio/', 'https://www.olx.com.pk/games-entertainment/' ]  rules = ( Rule(LinkExtractor(allow=(), restrict_css=('.pageNextPrev',)), callback="parse_item", follow=True),)  def parse_item(self, response): print('Processing..' + response.url) 

Вы можете изменить вышеупомянутое, чтобы включить все ваши URL-адреса или поместить их в отдельный файл, и прочитать этот файл через Python.

На вашем месте я бы начал с 3-й ссылки, quotesbot, поскольку этот проект звучит очень похоже на то, чего вы в конечном итоге пытаетесь достичь.

Похожие вопросы