Сканирование / сканирование определенного веб-сайта

980
Jamie

Я пытаюсь очистить 1265 html-файлов за раз, чтобы получить названия и описания предметов, которые есть у меня на сайте.
У меня есть разрешение от оптовика на то, чтобы скопировать туда данные, но я не хочу тратить дни только на то, чтобы получить описания, так есть ли способ очистить данные в следующем формате?

 <h1 class="CWproductName">ADINA BLACK TV UNIT</h1> 

а также

 <div id="CWproductInfo">   <br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br /> <p class="CWcontShop"> 

что я хочу сделать, это скопировать информацию между

 <div id="CWproductInfo"> and <p class="CWcontShop"> 

так что я остался с

 <h1 class="CWproductName">ADINA BLACK TV UNIT</h1>  <br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br /> 

но с нескольких страниц одновременно, даже лучше, если он может быть вставлен в электронную таблицу

0
вам нужно написать скрипт парсера, но он кажется тривиальным, если вы приличны с bash / powershell или python или чем-то еще. Frank Thomas 9 лет назад 0

1 ответ на вопрос

1
Mike Honey

I would try the Power Query Add-In for this - it can loop over website pages and extract data from them, as long as the pages and their URLs are consistent.

Here's an example:

http://kzhendev.wordpress.com/2014/04/14/scraping-the-web-with-power-query/

Похожие вопросы