Заблокировать archive.today от сканирования моего сайта?

737
Kohjah Breese

Мой веб-сайт очищается архивом. Сегодня. Этот сайт похож на авторитетный archive.org, но archive.today не подчиняется robots.txt, подделывает универсальный пользовательский агент и пытается скрыть его IP-адреса. Затем сайт приступает к регургитации вашего контента и индексации его в поисковых системах.

0
На [webmasters.se]: [Запретить доступ к Archive.is] (http://webmasters.stackexchange.com/q/88257/17633) unor 8 лет назад 0

1 ответ на вопрос

0
Kohjah Breese

Вы можете заблокировать сканер, заблокировав следующие диапазоны IP-адресов:

78.46.174.128/27 & 108.61.0.0/16 & 5.101.96.0/21 

Как только вы их заблокируете, попытка проиндексировать страницу с помощью archive.today должна привести к бесконечному циклу на их сайте.

Вы можете сделать это в iptables как:

sudo iptables -A INPUT -s 78.46.174.128/27 -j DROP sudo iptables -A INPUT -s 108.61.0.0/16 -j DROP sudo iptables -A INPUT -s 5.101.96.0/21 -j DROP 

И я думаю, что у Apache и ngix есть способ сделать что-то подобное.

Архив. Сегодня победил:

enter image description here

Если вы этого не видите, возможно, у них есть новые IP-адреса.