У меня нет опыта работы с этим проектом, но, покинув, я нашел такой, который называется Scrapy . Он написан на Python и обсуждается в нескольких местах, например:
- на StackOverflow - https://stackoverflow.com/questions/35986899/best-performance-for-scrapy, где предлагается запускать Scrapy в качестве демона,
scrapyd
. - Разработайте свой первый веб-сканер в Python Scrapy
- Пример Scrapy - quotesbot
2-я ссылка выше также показывает этот пример:
from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class ElectronicsSpider(CrawlSpider): name = "electronics" allowed_domains = ["www.olx.com.pk"] start_urls = [ 'https://www.olx.com.pk/computers-accessories/', 'https://www.olx.com.pk/tv-video-audio/', 'https://www.olx.com.pk/games-entertainment/' ] rules = ( Rule(LinkExtractor(allow=(), restrict_css=('.pageNextPrev',)), callback="parse_item", follow=True),) def parse_item(self, response): print('Processing..' + response.url)
Вы можете изменить вышеупомянутое, чтобы включить все ваши URL-адреса или поместить их в отдельный файл, и прочитать этот файл через Python.
На вашем месте я бы начал с 3-й ссылки, quotesbot, поскольку этот проект звучит очень похоже на то, чего вы в конечном итоге пытаетесь достичь.