Как сканировать большой список URL?

Question

web-crawler

Как сканировать большой список URL?

268

DangerBob Gaming 2018-06-12 в 01:52

У меня есть огромный список URL-адресов. Это выглядит примерно так:

www.example.com/api/users/1.json www.example.com/api/users/2.json www.example.com/api/users/3.json

И продолжается около 400 000 раз. Цель состоит в том, чтобы найти определенную строку текста на всех страницах. Кто-нибудь знает, как мне поступить?

1

Какая ОС? Это можно сделать с помощью довольно простого сценария в Linux, использующего цикл для чтения fe, затем wget или curl для загрузки содержимого и grep для его анализа. davidgo 5 лет назад 1

Я могу запустить Linux на виртуальной машине. DangerBob Gaming 5 лет назад 0

1 ответ на вопрос

0

Accepted Answer · 2018-06-12 02:29:57

У меня нет опыта работы с этим проектом, но, покинув, я нашел такой, который называется Scrapy . Он написан на Python и обсуждается в нескольких местах, например:

на StackOverflow - https://stackoverflow.com/questions/35986899/best-performance-for-scrapy, где предлагается запускать Scrapy в качестве демона,scrapyd .
Разработайте свой первый веб-сканер в Python Scrapy
Пример Scrapy - quotesbot

2-я ссылка выше также показывает этот пример:

from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class ElectronicsSpider(CrawlSpider): name = "electronics" allowed_domains = ["www.olx.com.pk"] start_urls = [ 'https://www.olx.com.pk/computers-accessories/', 'https://www.olx.com.pk/tv-video-audio/', 'https://www.olx.com.pk/games-entertainment/' ]  rules = ( Rule(LinkExtractor(allow=(), restrict_css=('.pageNextPrev',)), callback="parse_item", follow=True),)  def parse_item(self, response): print('Processing..' + response.url)

Вы можете изменить вышеупомянутое, чтобы включить все ваши URL-адреса или поместить их в отдельный файл, и прочитать этот файл через Python.

На вашем месте я бы начал с 3-й ссылки, quotesbot, поскольку этот проект звучит очень похоже на то, чего вы в конечном итоге пытаетесь достичь.

Как сканировать большой список URL?

1 ответ на вопрос

Похожие вопросы