файл ROBOTS.TXT запрет роботов

Файл robots.txt сообщает поисковым роботам, разрешено или нет сканирование и индексация различных частей сайта. Этот текстовый файл должен обязательно называться именно так — robots.txt (все с маленькой буквы), — и лежать в корневой директории сайта. Всегда полезно проверить, есть ли доступ к файлу роботс со стороны поисковых систем. Для этого достаточно в строке браузера ввести его URL-адрес, например, так: http://com-seo.ru/robots.txt (для этого сайта).

Как пользоваться файлом ROBOTS.TXT для запрета робота?

Все основные поисковые роботы понимают записи в файле robots.txt одинаково. Разберем для примера короткий пример, как пользоваться файлом роботс, который ставит запрет для роботов на доступ к файлам сайта:

User-agent: *

Dissallow: /images/

Disallow: /search

Этот пример запрещает всем поисковым роботам (указано символом *) доступ к директории сайта «images», а также по всем файлам, путь к которым начинается со слова «search». Как правило, запрет для поискового робота используется в тех случаях, когда веб-мастер считает, что некоторым страницам сайта не следует появляться в результатах выдачи поисковых систем, поскольку они бесполезны для посетителей.

Чтобы не ошибиться и не поставить поисковым роботам запреты на полезные директории и файлы, Гугл рекомендует использовать инструмент по проверке файла роботс из своей панели управления для веб-мастеров (Google Webmasters Tools, или сокращенно WMT). Если на сайте используются поддомены, и есть необходимость запретить сканирование отдельных фалов и директорий и на них, то файл robots.txt должен быть создан для каждого субдомена в отдельности и помещен в его корень.

Способы запрета индексации для роботов. Удаление страниц из Гугла.

Помимо запрета роботсом, есть и другие способы запретить индексацию для поисковых роботов. Например, поставить на странице мета-тег NOINDEX (не путать с чисто российским изобретением, просто тегом noindex внутри страницы!), или использовать соответствующие записи в файле .htaccess. Если неугодные страницы все же попали в индекс Гула, их можно оттуда удалить.

Запрет URL для робота и удаление страниц из Гугла

В этом видео-фрагмента Матт Каттс объясняет, как лучше закрыть страницы от Гугла, и как их удалять, если они все же туда попали, несмотря на запрет в file роботс.

Рекомендации Гугла по использованию файла РОБОТС.TXT

Для конфиденциальных страниц лучше пользоваться более надежными методами, чем запрет их сканирования файлом роботс.txt. Одна из причин к этому — то, что поисковые роботы Интернета все равно могут показать ссылку на запрещенную страницу (правда, ничего не прописывая в сниппете), если на нее найдутся ссылки в Интернете. Кроме того, есть поисковые системы, которые вообще не признают файл robots.txt и Robot Exclusion Standard (стандарт по исключению роботов). Наконец, излишне любознательные посетители сайта могут захотеть взглянуть, что именно прячет веб-мастер от индексации. Для всех этих случаев помогает либо кодирования запретных страниц, либо установка паролей для их просмотра. При использовании файла ROBOTS.TXT Гугол не рекомендует:

  • оставлять для сканирования адреса с результатами поиска по сайту
  • допускать к индексации большое число похожих по контенту страниц
  • позволять индексировать страницы, созданные как результат прокси

Запреты робота в файле РОБОТС — очень полезный и нужным механизм для web-мастеров и оптимизаторов.

Файл ROBOTS.TXT запрет роботов

Файл ROBOTS.TXT запрет роботов

This article was updated on август 19, 2024

You should also read:

Практические решения по использованию файла .htaccess

Для чего служит .htaccess?

Набирая адрес в строке браузера, вы получаете на свой компьютер файлы, которые отображает браузер. Управление тем, какие файлы и как вам показывать (пересылать) осуществляет веб-сервер. Наиболее популярных серверов два: IIS и Apache.

Как и любая программа, веб-сервер имеет определенные настройки. Но, у вас, как пользователя Апача может (и скорее всего не будет, если говорить о виртуальном хостинге) прав менять конфигурацию Апача через его главные файлы, действие которых распространяется на всех пользователей этого сервера. Но, вы можете менять некоторые конфигурационные файлы, который распространяют свое действие только на ваш сайт. Один из таких файлов - .htaccess

Правильный robots.txt для WordPress

Файл robots.txt

Есть у движка wordpress одна проблема в техническом плане. Заключается она в дублирование контента и мусорных страниц. Эта штука сулит очень большие проблемы с поисковыми системами, особенно если очень увлекаться тегами (метками).

В самом плохом варианте сайт может попасть под фильтр Яндекса АГС (бан, когда в индексе остается 10 или менее страниц), и в дополнительный индекс Гугла. Объяснять, что такое АГС и дополнительный индекс я сейчас не буду, эта тема отдельного разговора, а вот как решить проблему с дублями я расскажу.