Новые вопросы с тегом «web-crawler»

Всего найдено 68 вопросов

0
голосов
0
ответов
322
просмотра

Использование wget параллельно, поскольку он не многопоточный

Мне нужно скачать около 1 млн веб-страниц. У меня есть их прямые URL-адреса (в базе данных, но я могу разместить их где угодно в любом виде хранилища, базы данных или файла). Я пробовал wget, но я не хочу помещать wget в фоновый режим и оборачивать его некоторым управляющим скриптом, который будет к...
спросил David Strejc 5 лет назад

1
голосов
0
ответов
213
просмотров

Любое расширение или плагин Chrome может автоматически сохранять просмотренные веб-страницы?

Я ищу программное обеспечение или расширение для браузера (лучше с Chrome), которое может сохранять все просмотренные мной веб-страницы автоматически на локальном компьютере. Насколько я знаю, есть один с Firefox под названием ScrapBook, но не поддерживает FireFox после версии 60.
спросил Eric Wang 5 лет назад

2
голосов
2
ответа
332
просмотра

Является ли сайт, который нигде не связан, полностью скрыт?

Я хочу создать веб-страницу, доступную для просмотра только мне и другому человеку. Я не хочу использовать какую-либо аутентификацию на нем (имя пользователя / пароль, сертификаты и т. Д.). У меня вопрос: если я обслуживаю веб-сайт со своего собственного веб-сервера и не помещаю содержимое в корнево...
спросил Cheesegraterr 5 лет назад

1
голосов
1
ответ
265
просмотров

Как сканировать большой список URL?

У меня есть огромный список URL-адресов. Это выглядит примерно так: www.example.com/api/users/1.json www.example.com/api/users/2.json www.example.com/api/users/3.json И продолжается около 400 000 раз. Цель состоит в том, чтобы найти определенную строку текста на всех страницах. Кто-нибудь знает, ка...
спросил DangerBob Gaming 5 лет назад

1
голосов
0
ответов
349
просмотров

Как загрузить сайт рекурсивно, который стоит за Google Auth?

Я хочу рекурсивно загрузить веб-сайт, который стоит за Google Auth. Я нашел много ссылок в магазине Chrome, которые позволяют мне загрузить открытую в данный момент веб-страницу, но ни одна из них не переходит по ссылкам. Какие-нибудь советы? Wget и настольные приложения не будут работать, так как о...
спросил sydd 5 лет назад

0
голосов
0
ответов
430
просмотров

Минимальное использование памяти в безголовом Firefox?

Я планирую запускать бот во многих отдельных параллельных экземплярах и хотел бы сохранить использование памяти на минимальном уровне. Боту нужен только функциональный JS и загрузка страницы, но ничего графического. Он будет использовать только одну вкладку в любой момент времени. Есть ли какие-либо...
спросил KellyKapoor 6 лет назад

0
голосов
1
ответ
264
просмотра

Как сделать пакетный ввод с веб-сервера?

Я пытаюсь загрузить файл структуры белка (например, этот ) на этот сайт . Это позволяет нам загружать только одну структуру за раз. Но у меня есть сотни структурных файлов для загрузки. Есть ли способ, которым я могу написать скрипт для включения пакетной отправки? Я открыт для любых предложений. Сп...
спросил lanselibai 6 лет назад

2
голосов
1
ответ
9030
просмотров

Как сохранить все файлы / ссылки из чата / канала телеграммы?

Я хочу сохранить ВСЕ http (s) ссылки и / или файлы, опубликованные в каком-либо телеграммном чате (частном или групповом) или канале (например, в списке рассылки). Мне нужен аналог TumblOne(для Tumblr) VkOpt(возможность сохранять историю чатов в vk.com) или jDownloader(для файловых хостингов) - про...
спросил WallOfBytes 6 лет назад

0
голосов
0
ответов
769
просмотров

xauth: (argv): 1: не удалось запросить расширение безопасности на дисплее ": 0"

Я пытаюсь настроить go-selenium, чтобы использовать его для тестирования веб-страниц. Я следовал инструкциям и завершил установку всех зависимостей, необходимых для веб-драйвера selenium (например, geckodriver, chromedriver и т. Д., Как указано на странице репозитория GitHub). Когда я пытаюсь запуст...
спросил yogesh_desai 6 лет назад

0
голосов
1
ответ
343
просмотра

Запишите URL в текстовый файл, который соответствует шаблону

Я пытаюсь разобрать сайт nickjr.com, в частности URL http://www.nickjr.com/paw-patrol/videos/ только для полных эпизодов. Сайт nickjr.com размещен по названию шоу, затем по играм или видео, по крайней мере, с помощью патруля лапы, поэтому URL-адрес останется прежним, пока я не нажму кнопку воспроизв...
спросил Christopher Johnson 6 лет назад

-3
голосов
3
ответа
672
просмотра

Как внедрить механизмы противоскребания для моего сайта на Amazon S3?

У меня есть несколько статических веб-страниц, размещенных на Amazon S3, которые очень часто обновляются. Я хочу внедрить несколько механизмов предотвращения взлома, таких как запрет IP-адресов, которые делают слишком много запросов или делают запросы, кажущиеся роботизированными и т. Д. Я знаю, что...

-1
голосов
1
ответ
1017
просмотров

Сканирование сайта для файлов

Привет! Я хотел бы загрузить все PDF-файлы с http://www.allitebooks.com/ и использовать wget. моя команда, "http://www.allitebooks.com/" -P "C:\dummydir" -c -A pdf -rно я считаю, что пока она не может переходить по ссылкам на поддомен, как я могу это исправить, чтобы она загружала http://file.allite...
спросил Thomas Moors 7 лет назад

0
голосов
0
ответов
250
просмотров

Centos 7 - Apache запрещает мой сканер безопасности веб-приложений

Я пытаюсь запустить сканирование своего веб-сайта с помощью Vega, но после того, как сканер отправил пару запросов, мой IP-адрес блокируется на 30 минут. Это не ошибка fail2ban (который установлен), потому что он имеет только джейл для sshd, и я попытался отключить его, чтобы посмотреть, поможет ли...
спросил Jojo595 7 лет назад

1
голосов
1
ответ
1184
просмотра

Как найти страницы, которые ссылаются на конкретную страницу?

У меня есть следующая страница http://www.fda.gov/downloads/scienceresearch/fieldscience/laboratorymanual/ucm092156.pdf Я хотел бы найти страницы на www.fda.gov, которые ссылаются на эту страницу? Как я могу это сделать?
спросил Norfeldt 7 лет назад

3
голосов
1
ответ
402
просмотра

Поиск страниц на веб-странице, содержащей определенную ссылку

Google делает хорошую работу по поиску соответствующей информации. Скажем, я Google: мнение FDA по ISO-9001 Затем он находит ссылку на PDF-файл на сайте fda.gov http://www.fda.gov/downloads/MedicalDevices/DeviceRegulationandGuidance/PostmarketRequirements/QualitySystemsRegulations/UCM134625.pdf. Но...
спросил Norfeldt 8 лет назад

1
голосов
0
ответов
775
просмотров

Как извлечь текст с сайтов

Я ищу способ автоматизировать извлечение текста из нескольких веб-сайтов в текстовый документ. При вставке в слово doc мне нужно его вставить, используя «форматирование слиянием». Вот как я хотел бы, чтобы извлеченный текст заканчивался после его вставки в слово doc - Пример Мне нужен текстовый экст...
спросил Woz 8 лет назад

2
голосов
1
ответ
1279
просмотров

Как назначить разные IP при сканировании веб-страниц

Как я могу назначить другой IP-адрес во время сканирования Я ползаю миллиарды страниц каждый день (выделение разных ip поможет блокировать генделя)
спросил Mounarajan 8 лет назад

1
голосов
1
ответ
256
просмотров

сохранить веб-страницу со всем связанным контентом

Я пытаюсь понять, как я могу сохранить веб-страницу со всеми связанными файлами, например: http://docs.oasis-open.org/ubl/os-UBL-2.0/xsd/ Я хочу сохранить все файлы в каталоге, вроде сканера, но более ограниченного и, если возможно, в Firefox
спросил maazza 8 лет назад

0
голосов
1
ответ
643
просмотра

Как я могу рекурсивно сканировать все файлы на файловом сервере

Есть тысячи файлов на файловом сервере http://xxxx.com Я пытался сканировать его с помощью инструмента httrack Это не работает, есть ли альтернативный инструмент, который может рекурсивно загружать целые файлы по веб-адресу? Спасибо
спросил user3675188 8 лет назад

1
голосов
2
ответа
248
просмотров

Веб-сканер с опцией конвертировать ссылки

Я хотел бы сканировать резервную копию сайта, к которому я потерял доступ. Резервное копирование сайта осуществляется на subdomain.somesite.com, а ссылки на веб-странице - www.subdomain.com. это приводит к следующей ситуации: ссылка http://subdomain.somesite.com/?page_id=number работает, но ссылка в...
спросил qballer 8 лет назад

-3
голосов
2
ответа
1027
просмотров

Как я могу очистить только данные слова с веб-сайта?

Я хочу скачать все содержание слова с определенного сайта. Сохраните результаты в MS Word, Excel или Notepad и проверьте, какие слова повторяются чаще всего и сколько раз.
спросил Staskata 8 лет назад

2
голосов
0
ответов
261
просмотр

wget - ограничить количество следующих ссылок

Я хочу сделать зеркало веб-сайта, но ограничить отслеживание только конкретными ссылками. Команда: wget --recursive --page-requisites --html-extension --convert-links --domains linuxmagazine.pl http://www.linuxmagazine.pl/index.php/magazine/archiwum дает мне всю страницу. Я хочу ограничить wget ссы...
спросил QkiZ 9 лет назад

-1
голосов
2
ответа
519
просмотров

«Умный» способ сканирования Интернета

У меня есть проект, в котором мне нужно сканировать сеть lyrics, я его реализую depth-first searchи делаю базу данных в виде списка (который содержит вложенные списки, которые впоследствии будут сохранены в файле). Моя идея состоит в том, чтобы получить HTML-содержимое веб-сайта и сохранить его в фа...
спросил Puru 9 лет назад

0
голосов
1
ответ
283
просмотра

Почему мой личный веб-сайт привлекает посетителей по таинственным URL-адресам?

Недавно я обновил журнал посещений моего сайта и, убедившись, что он работает должным образом, заметил, что я получаю посетителей по URL-адресам, которые мне не принадлежат. Я был удивлен, даже увидев ботов, так как сайт не принадлежит Google и не связан нигде, о котором я знаю сейчас. Мой сайт реги...
спросил Dylan 9 лет назад

1
голосов
0
ответов
192
просмотра

Доступ ко всем ссылкам в домене (гиперссылка недоступна)

Мне нужно иметь доступ ко всем ссылкам, таким как: http://www.thewebsitename.com/random_alphanumeric_code1.asp http://www.thewebsitename.com/random_alphanumeric_code2.asp и т. д. для данного веб-сайта: http://www.thewebsitename.com (Конечно, гиперссылки на такие ссылки не доступны на http://www.the...
спросил rinfinity 9 лет назад

0
голосов
0
ответов
206
просмотров

импорт веб-скрапинга на локальный сайт

Я ищу способ поиска определенного продукта на веб-сайте и извлечения данных из него, но без перехода непосредственно на этот веб-сайт, например, с локального веб-сайта, который запрашивает информацию и загружает их, Я думаю, что "поиск в Интернете" - это то, что я ищу, но я хотел спросить, знаете л...
спросил Steven Désilets 9 лет назад

2
голосов
3
ответа
975
просмотров

Извлечение ссылок из числового диапазона веб-страниц

Я хотел бы извлечь ссылки из числовой последовательности страниц, как это: http://example.com/page001.html http://example.com/page002.html http://example.com/page003.html ... http://example.com/page329.html На выходе мне нужен текстовый файл с URL-адресами, собранными по ссылкам на этих страница...
спросил 9 лет назад

-1
голосов
1
ответ
474
просмотра

Перечислите все ссылки одного сайта на другой сайт

Есть два сайта. 1) www.aa.com 2) www.bb.com Сейчас на bb.com так много ссылок на aa.com и его веб-страницы, как aa.com/blhahhaa.html aa.com/beautifulday.html aa.com так что я хочу узнать этот список. Так есть ли сценарии или инструменты для этого? Есть идеи, как разработать такой инструмент? Это т...
спросил Jeegar Patel 9 лет назад

1
голосов
1
ответ
1037
просмотров

Зеркальное отображение веб-сайта, имеющего страницы, использующие простой JavaScript

Существуют простые и удобные инструменты для загрузки веб-сайтов, которые позволяют создавать локальные зеркала простых сайтов, не имеющих JavaScript-инфраструктуры. Тем не менее, иногда бывают случаи, когда сайт выглядит простым (и даже достаточно старым, чтобы быть настоящим сайтом с веб-версией 1...
спросил Lyubomyr Shaydariv 10 лет назад

-1
голосов
1
ответ
372
просмотра

Составление списка ссылок на сайте и их действительность

Я хотел бы просканировать свой веб-сайт и создать список внутренних и исходящих ссылок, а также их конечный пункт назначения и HTTP-код (по крайней мере, для внутренних ссылок). Как я могу это сделать? Обратите внимание: меня не интересует содержание страницы, кроме как найти в ней ссылки.
спросил Malfist 10 лет назад