Какое программное обеспечение необходимо для членских веб-сайтов и как они могут быть проиндексированы Google

356
Tyler Durden

Я замечаю, что в некоторых случаях статьи о платных новостях, похоже, индексируются Google, потому что отрывки из истории появляются в поисковой выдаче.

Тем не менее, когда я захожу на эти веб-сайты с использованием идентификатора робота-робота (Google), информация не появляется для сканирования статьи. Казалось бы, это говорит о том, что издатель каким-то образом отправляет свои статьи с платной подписью (и связанные URL-адреса) в Google, а не сканирует их. Очевидно, что такое представление было бы нетривиальным, поскольку в нем должны были бы содержаться как содержание статьи, так и различные метаданные, относящиеся к ней, такие как URL-адрес, на котором она находится, и срок ее действия.

Существует ли такой механизм? Если да, может ли обычный веб-мастер, такой как я, использовать его?

2
Вы пробовали Google, чтобы получить ответ? Это простой процесс, и даже если вы частично ошиблись, Google знает, к чему вы клоните. https://support.google.com/webmasters/answer/6259634?hl=en acejavelin 8 лет назад 3
@acejavelin Это было бы слишком мета. Tyler Durden 8 лет назад 0
Нет, это уместно. Суперпользователь - это не ваша база данных личной информации. Ожидается, что пользователи проводят собственные исследования, прежде чем задавать вопросы здесь. acejavelin 8 лет назад 1
Я сделал исследование, которое я описал в своем посте. Я не смог найти ни одного такого сервиса, который я описал, но я пришел к выводу, что он все еще может существовать на основе моих исследований роботов. Вот почему я спрашиваю. Tyler Durden 8 лет назад 0
ну, я дал вам ссылку на официальный ответ Google. acejavelin 8 лет назад 0
Это было в Поиске Google или в Новостях Google? unor 8 лет назад 0
@ DavidPostill: я думаю, что этот пост не следовало закрывать так быстро, имея как награду, так и голосов. Членские сайты, членские программы и веб-боты, безусловно, связаны с программным обеспечением. Смотрите мой ответ, если не уверены. Я немного расстроен, обнаружив, что сообщение было закрыто после попытки дать хороший ответ. harrymc 5 лет назад 0
@harrymc Это было не особенно быстро. Я не уверен, что привело это на первую полосу вчера, но вопрос уже более 2 лет. Кроме того, речь идет явно не о компьютерном оборудовании или программном обеспечении в определении справочного центра. Если бы вопрос был свежим и имел хорошие ответы, лучше было бы привести аргумент. Но заплесневелое старое это не по теме и не имеет ответов? Я согласен с Модом Постиллом в этом. music2myear 5 лет назад 0
@ music2myear: Сегодня сайты о членстве так же актуальны, как и 2 года назад, и кто-то сейчас достаточно заботится о том, чтобы получить награду. Баунти посты должны были быть защищены, поэтому они должны были быть закрыты только по уважительной причине. Он был закрыт вскоре после того, как я опубликовал свой ответ, в котором я попытался всесторонне осветить тему, поэтому были ответы. Я думал, что закрытие поста за вознаграждение противоречит правилам SU, даже если модератор может их переопределить. harrymc 5 лет назад 0
Я не помню это правило, но буду его искать. Но на первый взгляд я не согласен с этой идеей. Вопрос о том, как установить приложение на iPhone, является не по теме, независимо от того, имеет ли он награду или нет. Вопрос о подключении вашего дома к электричеству не по теме, щедрое вознаграждение или нет. Утверждение, что наличие награды является гарантированной защитой, не имеет смысла для меня в данный момент. music2myear 5 лет назад 0
Сделал немного Мета траления и нашел соответствующие посты о закрытии Баунти. Похоже, что согласие заключается в том, что закрытие вопросов о вознаграждении в порядке, если они в противном случае не соответствуют правилам сайта, но поскольку вознаграждение необходимо удалить (из-за дизайна сайта) до закрытия, процедура заключается в том, чтобы пометить его за внимание мод, чтобы они могли убрать награду и затем закрыть вопрос. music2myear 5 лет назад 0
@ music2myear: я должен сказать, что мне трудно понять, почему googlebot, программа, не для SU. Справка: «Super User - для компьютерных энтузиастов и опытных пользователей. Если у вас есть вопросы о… - компьютерном оборудовании, - компьютерном программном обеспечении или - персональных и домашних компьютерных сетях». Робот Googlebot относится как минимум к 2 из них. harrymc 5 лет назад 0
Wordpress - это программное обеспечение, равно как и Amazon ECS и Azure. Ключевое отличие в этом случае заключается в том, что они в основном существуют за пределами настольного компьютера пользователя и вместо этого функционируют и «живут» полностью в том, что мы называем Интернетом, с которыми взаимодействуют через веб-браузер или, возможно, через локальное приложение, которое приближается к веб-интерфейсу. , music2myear 5 лет назад 1
Что по теме [\ [1 \]] (https://superuser.com/help/on-topic): если у вас есть вопрос о и это не о ** веб-сайты или веб-службы **, такие как Facebook, Twitter, ... Очевидно, что поисковая система - это веб-служба, и этот вопрос следует перенаправить на [WebApps] (https://webapps.stackexchange.com/) или [WebMasters]. (https://webmasters.stackexchange.com/). На самом деле, [предыдущая попытка] ОП (https://superuser.com/q/1200482/) поднять этот вопрос была явно отклонена. Создание щедрости для предотвращения закрытия вопроса является игровым процессом системы и не должно выполняться. guest-vm 5 лет назад 1
@ music2myear: Google - это инструмент, который мы ежедневно используем на рабочем столе, и постеру потребовались объяснения результатов, которые он получил со своего рабочего стола. Googlebot является темой нескольких других сообщений, которые здесь не были закрыты - границы между SU и другими сайтами SO часто бывают серыми - обычно специализированные сайты переносят обобщенные запросы программного обеспечения в SU, больше заботясь о программировании и настройке. harrymc 5 лет назад 0
@ guest-vm: Начинается щедрость, чтобы предотвратить закрытие вопроса, и здесь я часто не вижу ничего плохого - не все итоговые голоса оправданы. Иногда хороший ответ служит для повторной записи сообщения в пределах SU, а иногда участники форума перефразируют его для соответствия. Обычно модератор объявляет о своем намерении закрыть сообщение, если оно не перефразировано, оставляя время для постера и ответчиков исправить его. Закрытие поста за вознаграждение таким способом немного экстремально. harrymc 5 лет назад 0

2 ответа на вопрос

2

Да, это возможно

У Google есть страница под названием « Получите ваш контент в Google», которая по состоянию на сегодня, 21 мая 2018 года, представляет собой исчерпывающую справку о том, как Google индексирует ваш контент. Здесь вы можете попробовать различные ссылки, в том числе:

  • Добавьте свой URL
  • Приложение сканирует
  • Консоль поиска
  • Руководство по поисковой оптимизации (SEO)

Этот ответ был опубликован @acejavelin два года и месяц назад в качестве комментария. Возможно, страница, на которую мы ссылались, была не такой полной, как сегодня, или я не понимаю, почему он не опубликовал ее в качестве полного ответа. Кроме того, я вижу, что ОП считал эту страницу «слишком мета» в то время, но сегодня это именно то, что он / она хочет.

Веб-сайты могут обнаружить поддельных Googlebots

Веб-сайты иногда не позволяют сканировать их веб-содержимое веб-браузерами, которые используют фиктивные строки агента пользователя Googlebot. Вы можете найти более подробную информацию по этому вопросу на веб-сайте Panopticlick Фонда Electronic Frontier . Короче говоря, у робота Google есть и другие функции идентификации, чем просто пользовательский агент.

1
harrymc

Тот факт, что веб-сервер компании возвратил печально известную ошибку HTTP 404 на URL, не означает, что ресурс не существует. Это только означает, что веб-сервер решил, что для вас этот ресурс не существует .

Веб-сервер может идентифицировать вас как платящего клиента многими способами, главным из которых является идентификационный файл cookie HTTP, хранящийся в вашем браузере. Когда файл cookie не найден, веб-сервер обычно запрашивает у вас вход в систему, а в случае успеха возвращает этот файл cookie.

Вопрос в том, почему Googlebot разрешен доступ, а вы нет?

Со временем робот Googlebot обнаружит практически любой веб-сайт, но веб-мастер может запросить скорейшее посещение с помощью инструментов, содержащихся в разделе Получить контент в Google . Он также может направить бота в определенные папки с помощью файла Robots.txt .

Пример такого файла:

User-agent: googlebot User-agent: google User-agent: bingbot User-agent: bing Disallow: /bedven/bedrijf/ Crawl-delay: 10  User-agent: * Disallow: / 

Бот идентифицирует себя, используя, например, в заголовке HTTP-запроса тег агента пользователяgooglebot .

Однако предположить, что личность Googlebot не так просто. Веб-сайт может легко проверить личность бота, выполнив обратный поиск DNS на IP-адресе доступа. В этом случае возвращаемое доменное имя должно быть либо, googlebot.com либо google.com, что вы сами не можете подделать.

Если вы полностью контролируете свой веб-сервер, например, через PHP, вы можете продублировать этот механизм и создать так называемый «веб-сайт членства». Такое программное обеспечение называется членским программным обеспечением .

Если вы не являетесь программистом PHP или не желаете таких вложений своего времени, существует множество альтернативных программ с открытым исходным кодом, а также множество коммерческих продуктов, которые будут конкурировать за ваш бизнес. Будьте очень критичны, если вы решите выбрать один, и тщательно проверьте его в Интернете для обзоров.

Для получения дополнительной информации см. Эти ресурсы, которые я нашел с помощью поиска (не обязательно лучшие, а некоторые носят коммерческий характер, но они помогут вам начать работу):