Блокирование поисковых роботов на сайте

Есть полезные поисковые, вроде роботов Яндекс, Google, Bing и других поисковиков. Но есть роботы, которые нагрузку на сайт могут создавать существенную, а пользы для владельцев ресурса не приносят. Например, бот Linguee Bot. Давайте научимся его блокировать и сохранить ресурсы сервера или хостинга!

Есть несколько способов, которые позволяют прекратить заходы роботов на сайт. Можно ограничить их посещения через файл robots.txt, с помощью мета тегов, а также с помощью файла htaccess. Но первые два способа могут не сработать, так как неизвестно, обращает ли внимание робот на указанные в них инструкции. Настройка же файла htaccess указывает как обрабатывать запросы веб серверу и всегда работает.

Ограничение с помощью robots.txt

robots.txt находится в корневой папке сайта. Хорошие роботы сначала смотрят в него, чтобы узнать в какие разделы сайта им не нужно заходить и какие для них открыты.

Способ ограничить просмотр любым роботом весь сайт:

Разрешить просмотр любым роботам (User-agent) просмотр всего сайта:

Запретить боту Linguee Bot доступ ко всему сайту:

Позволить боту Linguee Bot доступ к сайту, кроме раздела catalog:

Позволить боту Linguee Bot доступ к сайту, кроме разделов catalog и photos:

Ограничение с помощью мета тегов

Можно ограничить работу ботов с помощью указания мета тега внутри head вашей веб страницы. Для этого между тегами <head> и </head> нужно будет добавить следующие строки, как они будут приведены ниже.

Мета теги указывают информацию для конкретной старницы, поэтому если вы используете шаблон, то можно получить эффект от них на всех страницах сайта. Если же вам нужно ограничить их конкретными страницами, то нужно будет дополнительно написать логику вывода мета тегов на нужных вам страницах.

Разрешить просмотр страницы всем роботам:

Разрешить доступ к странице и ссылкам на ней:

Разрешить доступ к странице, но не давать им следовать по ссылкам на ней:

Не разрешать роботам доступ к странице:

Разрешить роботу Linguee Bot доступ к странице:

Запретить Linguee Bot доступ к странице:

Разрешить Linguee Bot доступ к странице и ссылкам на ней

Ограничение с помощью HTACCESS

Для ограничения доступа роботам через файл .htaccess у вас должен быть доступ к его редактированию. Не все хостинги дают такую возможность, но с его помощью вы можете остановить обработку запросов от роботов на уровне веб сервера.

Добавьте следующие строки в файл .htaccess для блокирования обработки запросов от них. Убедитесь, что вы заменили фразу Change User-Agent названием робота, которого вы хотите заблокировать. В качестве примера приводим запись для блокирования ответов Linguee Bot: