X

Блокирование поисковых роботов на сайте

Есть полезные поисковые, вроде роботов Яндекс, Google, Bing и других поисковиков. Но есть роботы, которые нагрузку на сайт могут создавать существенную, а пользы для владельцев ресурса не приносят. Например, бот Linguee Bot. Давайте научимся его блокировать и сохранить ресурсы сервера или хостинга!

Есть несколько способов, которые позволяют прекратить заходы роботов на сайт. Можно ограничить их посещения через файл robots.txt, с помощью мета тегов, а также с помощью файла htaccess. Но первые два способа могут не сработать, так как неизвестно, обращает ли внимание робот на указанные в них инструкции. Настройка же файла htaccess указывает как обрабатывать запросы веб серверу и всегда работает.

Ограничение с помощью robots.txt

robots.txt находится в корневой папке сайта. Хорошие роботы сначала смотрят в него, чтобы узнать в какие разделы сайта им не нужно заходить и какие для них открыты.

Способ ограничить просмотр любым роботом весь сайт:

User-agent: *
Disallow: /

Разрешить просмотр любым роботам (User-agent) просмотр всего сайта:

User-agent: *
Disallow:

Запретить боту Linguee Bot доступ ко всему сайту:

User-agent: Linguee Bot
Disallow: /

Позволить боту Linguee Bot доступ к сайту, кроме раздела catalog:

User-agent: Linguee Bot
Disallow: /catalog

Позволить боту Linguee Bot доступ к сайту, кроме разделов catalog и photos:

User-agent: Linguee Bot
Disallow: /catalog
Disallow: /photos

Ограничение с помощью мета тегов

Можно ограничить работу ботов с помощью указания мета тега внутри head вашей веб страницы. Для этого между тегами <head> и </head> нужно будет добавить следующие строки, как они будут приведены ниже.

Мета теги указывают информацию для конкретной старницы, поэтому если вы используете шаблон, то можно получить эффект от них на всех страницах сайта. Если же вам нужно ограничить их конкретными страницами, то нужно будет дополнительно написать логику вывода мета тегов на нужных вам страницах.

Разрешить просмотр страницы всем роботам:

<meta name=”robots” content=”index” />

Разрешить доступ к странице и ссылкам на ней:

<meta name=”robots” content=”index, follow” />

Разрешить доступ к странице, но не давать им следовать по ссылкам на ней:

<meta name=”robots” content=”index, nofollow” />

Не разрешать роботам доступ к странице:

<meta name=”robots” content=”noindex” />

Разрешить роботу Linguee Bot доступ к странице:

<meta name="Linguee Bot" content="index">

Запретить Linguee Bot доступ к странице:

<meta name="Linguee Bot" content="noindex">

Разрешить Linguee Bot доступ к странице и ссылкам на ней

<meta name="Linguee Bot" content="index, follow">

Ограничение с помощью HTACCESS

Для ограничения доступа роботам через файл .htaccess у вас должен быть доступ к его редактированию. Не все хостинги дают такую возможность, но с его помощью вы можете остановить обработку запросов от роботов на уровне веб сервера.

Добавьте следующие строки в файл .htaccess для блокирования обработки запросов от них. Убедитесь, что вы заменили фразу Change User-Agent названием робота, которого вы хотите заблокировать. В качестве примера приводим запись для блокирования ответов Linguee Bot:

SetEnvIfNoCase User-Agent ^$ bad_bot #leave this for blank user-agents
SetEnvIfNoCase User-Agent "^Linguee Bot" bad_bot
SetEnvIfNoCase User-Agent "^Change User-Agent" bad_bot

<Limit GET POST HEAD>
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</Limit>
Related Post