февраль 12, 2013

файл ROBOTS.TXT запрет роботов

Файл robots.txt сообщает поисковым роботам, разрешено или нет сканирование и индексация различных частей сайта. Этот текстовый файл должен обязательно называться именно так — robots.txt (все с маленькой буквы), — и лежать в корневой директории сайта. Всегда полезно проверить, есть ли доступ к файлу роботс со стороны поисковых систем. Для этого достаточно в строке браузера ввести его URL-адрес, например, так: http://com-seo.ru/robots.txt (для этого сайта).

Как пользоваться файлом ROBOTS.TXT для запрета робота?

Все основные поисковые роботы понимают записи в файле robots.txt одинаково. Разберем для примера короткий пример, как пользоваться файлом роботс, который ставит запрет для роботов на доступ к файлам сайта:

User-agent: *

Dissallow: /images/

Disallow: /search

Этот пример запрещает всем поисковым роботам (указано символом *) доступ к директории сайта «images», а также по всем файлам, путь к которым начинается со слова «search». Как правило, запрет для поискового робота используется в тех случаях, когда веб-мастер считает, что некоторым страницам сайта не следует появляться в результатах выдачи поисковых систем, поскольку они бесполезны для посетителей.

Чтобы не ошибиться и не поставить поисковым роботам запреты на полезные директории и файлы, Гугл рекомендует использовать инструмент по проверке файла роботс из своей панели управления для веб-мастеров (Google Webmasters Tools, или сокращенно WMT). Если на сайте используются поддомены, и есть необходимость запретить сканирование отдельных фалов и директорий и на них, то файл robots.txt должен быть создан для каждого субдомена в отдельности и помещен в его корень.

Способы запрета индексации для роботов. Удаление страниц из Гугла.

Помимо запрета роботсом, есть и другие способы запретить индексацию для поисковых роботов. Например, поставить на странице мета-тег NOINDEX (не путать с чисто российским изобретением, просто тегом noindex внутри страницы!), или использовать соответствующие записи в файле .htaccess. Если неугодные страницы все же попали в индекс Гула, их можно оттуда удалить.

Запрет URL для робота и удаление страниц из Гугла

В этом видео-фрагмента Матт Каттс объясняет, как лучше закрыть страницы от Гугла, и как их удалять, если они все же туда попали, несмотря на запрет в file роботс.

Рекомендации Гугла по использованию файла РОБОТС.TXT

Для конфиденциальных страниц лучше пользоваться более надежными методами, чем запрет их сканирования файлом роботс.txt. Одна из причин к этому — то, что поисковые роботы Интернета все равно могут показать ссылку на запрещенную страницу (правда, ничего не прописывая в сниппете), если на нее найдутся ссылки в Интернете. Кроме того, есть поисковые системы, которые вообще не признают файл robots.txt и Robot Exclusion Standard (стандарт по исключению роботов). Наконец, излишне любознательные посетители сайта могут захотеть взглянуть, что именно прячет веб-мастер от индексации. Для всех этих случаев помогает либо кодирования запретных страниц, либо установка паролей для их просмотра. При использовании файла ROBOTS.TXT Гугол не рекомендует:

оставлять для сканирования адреса с результатами поиска по сайту
допускать к индексации большое число похожих по контенту страниц
позволять индексировать страницы, созданные как результат прокси

Запреты робота в файле РОБОТС — очень полезный и нужным механизм для web-мастеров и оптимизаторов.

Файл ROBOTS.TXT запрет роботов

Файл ROBOTS.TXT запрет роботов

файл ROBOTS.TXT запрет роботов

Как пользоваться файлом ROBOTS.TXT для запрета робота?

Способы запрета индексации для роботов. Удаление страниц из Гугла.

Рекомендации Гугла по использованию файла РОБОТС.TXT

Создание файлов FB2. Дополнение к OpenOffice.org Writer: Конвертор ExportToFB21+ OOoFBTools

Практические решения по использованию файла .htaccess

Права доступа на файлы и папки WordPress

Правильный robots.txt для WordPress