Робот Googlebot
Googlebot – общее название поискового робота Google. Существует два типа таких роботов: имитирующий пользователя компьютера и имитирующий пользователя мобильного устройства.

Скорее всего, ваш сайт будет сканироваться роботами обоих типов. Определить, какой робот обрабатывает вашу страницу, можно по строке агента пользователя в запросе. Но учтите, что давать различные команды разным роботам в файле robots.txt невозможно, так как оба типа роботов соответствуют одному и тому же токену агента пользователя.

Если ваш сайт оптимизирован для индексирования, ориентированного на мобильные устройства, большинство запросов на сканирование будет исходить от робота Googlebot для смартфонов. Запросы к тем сайтам, которые ещё не были оптимизированы, будут в основном исходить от робота, имитирующего поведение пользователя компьютера. В обоих случаях поисковый робот, от которого исходит меньше запросов, будет сканировать только те URL, которые уже обработал робот, посылающий большую часть запросов.

Как Googlebot работает с вашим сайтом
Робот Googlebot не может обращаться к сайту чаще, чем раз в несколько секунд (в среднем). Это относится к большинству страниц. В случае задержек частота обращений может увеличиться.

Робот Googlebot предназначен для распределенной работы на тысячах компьютеров. Это необходимо для эффективности и масштабирования системы, так как количество ресурсов в Интернете растет. Это также позволяет сократить передачу трафика за счет меньшего расстояния от компьютеров, на которых работает Googlebot, до хостинговых серверов. Поэтому в ваших журналах могут быть записаны обращения от нескольких компьютеров в домене google.com, для которых в качестве агента пользователя указан робот Googlebot. Наша цель заключается в том, чтобы обработать как можно больше страниц на вашем сайте за один раз, не оказывая излишней нагрузки на сервер. Если запросы от Google все-таки замедляют работу сервера, вы можете изменить частоту сканирования.

Как закрыть роботу Googlebot доступ к вашему сайту
Даже если вы сами не размещаете ссылки на ваш веб-сервер, сохранить его в секрете не удастся. Как только кто-нибудь перейдет по ссылке с вашего "секретного" сервера на другой, URL, переданный в теге источника ссылки, может быть сохранен и опубликован на целевом сервере в журнале источников ссылок. Также в Интернете множество устаревших и неработающих ссылок. Если на другой странице размещена некорректная или устаревшая ссылка на ваш сайт, робот Googlebot попытается использовать ее.

Если вы хотите прекратить сканирование своего сайта роботом Googlebot, вы можете воспользоваться рядом средств. При этом обратите внимание, что запрет на сканирование, запрет на индексирование и блокировку доступа к странице одновременно для поисковых роботов и пользователей следует осуществлять разными методами.

Как убедиться, что ваш сайт сканирует именно робот Googlebot
Помните, что строку агента пользователя Googlebot часто имитируют другие поисковые роботы. Прежде чем блокировать доступ нашему роботу, убедитесь в том, что нежелательный запрос поступил именно от Google. Лучший способ это сделать – выполнить обратный DNS-запрос по IP-адресу источника.

Googlebot и другие заслуживающие доверия роботы следуют инструкциям в файле robots.txt, но инструменты, разработанные спамерами и прочими злоумышленниками, могут эти инструкции игнорировать. Сообщайте нам о страницах со спамом в результатах поиска Google. Мы незамедлительно принимаем меры по устранению подобных нарушений.

Отредактировано google bot (2020-10-10 16:02:10)

Подпись автора

https://forumupload.ru/uploads/001a/d5/a6/2/t164876.png

https://www.google.com/