Быстрый поиск информации с фиксированной структурой из списка веб-ссылок

329
skyork

У меня есть таблица Excel, которая содержит список веб-ссылок (все на один сайт, но на разных страницах). Все эти страницы имеют одинаковый макет / структуру, и я хочу получить одну и ту же информацию (разные значения на разных страницах) со всех страниц / ссылок.

Очевидно, что я могу нажать на каждую ссылку в ячейке, перейти на страницу и записать информацию вручную. Однако их сотни, и я считаю, что это можно автоматизировать. Как я могу подойти к этому?

0
Запрос программного обеспечения или плагина закроет вопрос, потому что это не по теме. Попросить кого-нибудь написать вам сценарий, скорее всего, будет закрыт как слишком широкий. Так что просто спросите, как выполнить задачу. Что подводит нас к следующему вопросу. Ваше описание довольно туманно, и целью может быть что угодно. Добавьте один или два примера того, что вы пытаетесь получить. fixer1234 7 лет назад 0
подход Барлопа, вероятно, будет работать. Если вы хотите что-то более ориентированное на Excel, посмотрите на VBA. Как говорит fixer1234, мы не напишем это для вас. Если вы хотите использовать этот подход, изучите VBA (в Интернете и в самом Excel много ресурсов; также найдите [SU]) и попробуйте решить проблему самостоятельно. Если у вас что-то работает, но у вас возникают проблемы, вы можете обратиться к нам с подробностями. G-Man 7 лет назад 0
@ fixer1234 это не так туманно. Я был в состоянии ответить на это. И если человек может обобщить свой вопрос, все еще получая ответ, тогда это на самом деле лучше (а также показывает хороший способ решения проблем). Аналогично, если ответ работает не только для конкретного случая, это лучше. barlop 7 лет назад 0
@ fixer1234, и если вам показалось, что вы немного размыли его, как половину одного из его предложений, который был немного туманным, то вам следует процитировать это и указать, почему, а не утверждать, что его пост является туманным. barlop 7 лет назад 0
@ barlop, я прочитал это как проблему Excel. Слава за то, что посмотрел на эту большую картину. Похоже, ваш ответ решил проблему для ОП. Для меня весь вопрос казался слишком широким и неоднозначным, и действительно так и есть, даже несмотря на то, что вы смогли найти ОП для решения. Я перечитал ваш ответ, и он выглядит как реальное решение, так что +1. И я предполагаю, что это доказывает, что вопрос не обязательно слишком двусмысленный, поэтому я откажусь от своего закрытого голосования. fixer1234 7 лет назад 0

1 ответ на вопрос

2
barlop

Вы можете скопировать / вставить их из Excel в блокнот, который можно легко сохранить в виде простого текста. Если вы получаете одну ссылку на строку, то сохраните этот файл, например, как blah.a, и загрузите wget, тогда он больше не будет превосходным.

так что теперь скажем, что вы создали файл ссылок, тогда вы можете использовать команду под названием wget (которую вы должны загрузить и не имеет ничего общего с Excel). Допустим, в каждой строке файла есть строка, подобная http://blah.com/abc.html. Итак, вы делаете wget -i blah.a, а затем он загружает туда каждую ссылку ... но вы также должны включить задержку поэтому он не перегружает сервер, wget -i blah.a а использует что-то вроде -t -T и -w .. например -t 1 -T 5 -w 1(повторные попытки, тайм-аут и ожидание соответственно), поэтому задает такие вещи, как повтор, тайм-аут и ожидание. Так wget -t 1 -T 5 -w 1 -i blah.a<ENTER>Очевидно, что это в WGET --help. (с еще более подробной информацией в руководстве wget, которое находится в сети). Вы можете получить Wget, например, с Cygwin.