файл ROBOTS.TXT запрет роботов
Файл robots.txt сообщает поисковым роботам, разрешено или нет сканирование и индексация различных частей сайта. Этот текстовый файл должен обязательно называться именно так — robots.txt (все с маленькой буквы), — и лежать в корневой директории сайта. Всегда полезно проверить, есть ли доступ к файлу роботс со стороны поисковых систем. Для этого достаточно в строке браузера ввести его URL-адрес, например, так: http://com-seo.ru/robots.txt (для этого сайта).
Как пользоваться файлом ROBOTS.TXT для запрета робота?
Все основные поисковые роботы понимают записи в файле robots.txt одинаково. Разберем для примера короткий пример, как пользоваться файлом роботс, который ставит запрет для роботов на доступ к файлам сайта:
User-agent: *
Dissallow: /images/
Disallow: /search
Этот пример запрещает всем поисковым роботам (указано символом *) доступ к директории сайта «images», а также по всем файлам, путь к которым начинается со слова «search». Как правило, запрет для поискового робота используется в тех случаях, когда веб-мастер считает, что некоторым страницам сайта не следует появляться в результатах выдачи поисковых систем, поскольку они бесполезны для посетителей.
Чтобы не ошибиться и не поставить поисковым роботам запреты на полезные директории и файлы, Гугл рекомендует использовать инструмент по проверке файла роботс из своей панели управления для веб-мастеров (Google Webmasters Tools, или сокращенно WMT). Если на сайте используются поддомены, и есть необходимость запретить сканирование отдельных фалов и директорий и на них, то файл robots.txt должен быть создан для каждого субдомена в отдельности и помещен в его корень.
Способы запрета индексации для роботов. Удаление страниц из Гугла.
Помимо запрета роботсом, есть и другие способы запретить индексацию для поисковых роботов. Например, поставить на странице мета-тег NOINDEX (не путать с чисто российским изобретением, просто тегом noindex внутри страницы!), или использовать соответствующие записи в файле .htaccess. Если неугодные страницы все же попали в индекс Гула, их можно оттуда удалить.
Запрет URL для робота и удаление страниц из Гугла
В этом видео-фрагмента Матт Каттс объясняет, как лучше закрыть страницы от Гугла, и как их удалять, если они все же туда попали, несмотря на запрет в file роботс.
Рекомендации Гугла по использованию файла РОБОТС.TXT
Для конфиденциальных страниц лучше пользоваться более надежными методами, чем запрет их сканирования файлом роботс.txt. Одна из причин к этому — то, что поисковые роботы Интернета все равно могут показать ссылку на запрещенную страницу (правда, ничего не прописывая в сниппете), если на нее найдутся ссылки в Интернете. Кроме того, есть поисковые системы, которые вообще не признают файл robots.txt и Robot Exclusion Standard (стандарт по исключению роботов). Наконец, излишне любознательные посетители сайта могут захотеть взглянуть, что именно прячет веб-мастер от индексации. Для всех этих случаев помогает либо кодирования запретных страниц, либо установка паролей для их просмотра. При использовании файла ROBOTS.TXT Гугол не рекомендует:
- оставлять для сканирования адреса с результатами поиска по сайту
- допускать к индексации большое число похожих по контенту страниц
- позволять индексировать страницы, созданные как результат прокси
Запреты робота в файле РОБОТС — очень полезный и нужным механизм для web-мастеров и оптимизаторов.
Файл ROBOTS.TXT запрет роботов |