Правильный robots.txt для WordPress

Файл robots.txt

Есть у движка wordpress одна проблема в техническом плане. Заключается она в дублирование контента и мусорных страниц. Эта штука сулит очень большие проблемы с поисковыми системами, особенно если очень увлекаться тегами (метками).

В самом плохом варианте сайт может попасть под фильтр Яндекса АГС (бан, когда в индексе остается 10 или менее страниц), и в дополнительный индекс Гугла. Объяснять, что такое АГС и дополнительный индекс я сейчас не буду, эта тема отдельного разговора, а вот как решить проблему с дублями я расскажу.

Во первых проверьте, что сейчас проиндексировано Яндексом по вашему сайту: способ 1,способ 2. Тут задача убедиться, есть ли дубли контента и другие мусорные данные. На этом этапе мы осознаем проблему.

 

ВНИМАНИЕ!

Ниже я привожу такой роботс, который блокирует все возможные страницы с дублирующем контентом на wordpress.

Если ваш сайт уже старый и раскрученный, то это может повлиять не очень благоприятно — из индекса могут вылететь страницы на которые идет трафик с поисковиков и на которых содержится дублирующая информация!

В этом случае, я рекомендую использовать более универсальный роботс, он делает только самое необходимое (не подходит для сайтов с url по умолчанию, вида: http://ваш_сайт.ru/?p=123).

 

А сама проблема решается очень просто, нужно создать правильный файл robots.txt. Для этого нужно скопировать содержание, указанное ниже, в блокнот, отредактировать его (заменить ваш_сайт.ru на нужный url-адрес) и сохранить с названием robots.txt.

Затем этот сохраненный файл нужно закачать по фтп в корень сайта – там, где лежат папочки: wp-admin, wp-content, wp-includes и файлик wp-config.php. Вот содержание (что оно обозначает смотрите в видео выше):

User-Agent: *

Allow: /wp-content/uploads/

Disallow: /wp-

Disallow: /cgi-bin

Disallow: /author/

Disallow: /xmlrpc.php

Disallow: /tag/

Disallow: /category/

Disallow: /page/

Disallow: /archive/

Disallow: /*?tag=

Disallow: /*?cat=

Disallow: /*?paged=

Disallow: /*?m=

Disallow: /*feed

Disallow: /*comments

Disallow: /*trackback

Disallow: /*comment-page

Disallow: /*cpage=

Disallow: /*?s=

Disallow: /*&s=

Crawl-delay: 3User-agent: Yandex

Allow: /wp-content/uploads/

Disallow: /wp-

Disallow: /cgi-bin

Disallow: /author/

Disallow: /xmlrpc.php

Disallow: /tag/

Disallow: /category/

Disallow: /page/

Disallow: /archive/

Disallow: /*?tag=

Disallow: /*?cat=

Disallow: /*?paged=

Disallow: /*?m=

Disallow: /*feed

Disallow: /*comments

Disallow: /*trackback

Disallow: /*comment-page

Disallow: /*cpage=

Disallow: /*?s=

Disallow: /*&s=

Crawl-delay: 3

Host: ваш_сайт.ruSitemap: http://ваш_сайт.ru/sitemap.xml

Замените ваш сайт.ru – на URL адрес нужного сайта, например nokak2.ru!

Если у вас нету файла sitemap.xml — то советую его создать, но это не обязательно. Можно убрать последнюю строку и не париться с этим.

Затем зайти сюда: http://webmaster.yandex.ru/robots.xml, ввести адрес своего сайта (имя хоста) и проверить правильно ли все вы сделали. Просто убедиться в наличие этого файла у вас на сайте и его правильное понимание Яндексом — используемые секции 24-46 и 48-48 (т.е. Яндекс будет руководствоваться строками с 24 по 46 и 48).

Я старался сделать этот robots максимально универсальным и он подойдет как к проектам с ЧПУ, так и к базовым url-адресам, которые стоят по умолчанию. Но есть одна оговорка. Вот этот блок, нужно использовать ОЧЕНЬ ВНИМАТЕЛЬНО и аккуратно!:

Disallow: /tag/

Disallow: /category/

Disallow: /page/

Disallow: /archive/

Disallow: /*?tag=

Disallow: /*?cat=

Disallow: /*?paged=

Disallow: /*?m=

Дело в том, что в нем мы закрываем дубли (тэги, списки категорий и архивов, а также постраничную навигацию. Первые 4 строки для сайтов с ЧПУ остальные 4 для сайтов по умолчанию (/?p=123). Проблема может заключаться в том, что при использование не стандартных ЧПУ, вы можете выводи свои статьи через archive или category, например адрес статьи — site.ru/archives/123.

А это означает, что стати НЕ БУДУТ ИНДЕКСИРОВАТЬСЯ, так как в robots.txt прописан запрет на индексацию archive и category! Будьте внимательны!

Узнать подробнее, что обозначают все эти директивы в файле robots.txt можно в разделе помощь, на Яндексе.

P.S.: Для любознательных, мы блок:

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /wp-trackback

Disallow: /wp-feed

Disallow: /wp-comments

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content

Заменяем на

Disallow: /wp-

Этим мы закрываем все от индексации начинающееся с wp-. Т.е. все что указано выше + многое другое.

А теперь о robots.txt от Яндекса:

 

Для чего нам это нужно?

1. Скрытие информации от поисковых систем.

2. Уменьшение числа внешних ссылок с сайта.

3. Полезность, меньше «говна» в индексе.

Для запрета индексации части текста или ссылок в ПС Яндекс используется тег noindex. Его полностью игнорируют все поисковые системы кроме Рамблера. В стандартах HTML нет этого тега, поэтому многие валидаторы проверок кода будут ругаться на него, поэтому не пугайтесь, ничего страшного в этом нет.

И так когда нам нужно использовать noindex

1. Закрывайте внешние ссылки, если не хотите чтобы они были учтены ПС и Биржами ссылок

2. Закрывайте контент который присутствует на всех страницах, это негативно влияет на ваше присутствие в ПС.

3. Закрывайте служебную информацию или то что не должно попадать в индекс.

4. Закрывайте коды счетчиков (не путать с кодами бирж ссылок!)

Для гугла не существует аналогичного тега, но есть атрибут ссылки nofollow, который позволяет не учитывать нужные вам внешние ссылки.

Ссылка с этим атрибутом будет выглядеть так:

1
текст ссылки

Тег нужно использовать в обязательном порядке если вы не хотите, чтобы ваши ссылки были учтены ПС и Биржами ссылок

Атрибут nofollow можно использовать robots.txt

Для того чтобы ссылка не учитывалась обоими поисковками, нужно использовать слудующий код:

1
текст ссылки

Для массового запрета индексации следует использовать robots.txt

Если в корне вашего сайта нет файла robots.txt создавайте его.

Файл robots.txt был задуман чтобы можно было сказать роботу ПС, какие страницы сайта не следует индексировать.

robots.txt состоит из одной или более записей, разделенных одной или более пустых линий. Каждая запись имеет формат:

1
<имя_поля>:<необязательные_пробелы><значение><необязательные_пробелы>

Значение имени поля чувствительно к регистру, что очень не маловажно!

В файл robots.txt можно включать комментарии в виде символа # это означает, что остаток строки — это комментарий и не анализируется поисковым роботом.

Более подробно про robots.txt можно почитать в хелпе Яндекса, а так же проверить правльность их же анализатором

Присутствие на сайте пустого файла robots.txt не имеет какого-либо особого значения, он рассматривается как отсутсвующий.

Обязательно используйте robots.txt на форумах и больших порталах для массового запрета индексации, для увеличения релевантных страниц в индексе ПС, что хорошо влияет на картину в целом.

Пример robots.txt для моего форума IPB:

1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374
User-agent: *Disallow: /ipbDisallow: /style_images/Disallow: /lofiversion/Disallow: /index.php?act=idxDisallow: /index.php?act=LoginDisallow: /index.php?act=SearchDisallow: /index.php?act=ShoutboxDisallow: /index.php?act=RegDisallow: /index.php?act=MsgDisallow: /index.php?act=MailDisallow: /index.php?act=ForwardDisallow: /index.php?act=TrackDisallow: /index.php?act=PostDisallow: /index.php?act=postDisallow: /index.php?act=PrintDisallow: /index.php?act=STDisallow: /index.php?act=boardrulesDisallow: /?act=boardrulesDisallow: /index.php?act=HelpDisallow: /index.php?act=StatsDisallow: /index.php?act=statsDisallow: /index.php?act=MembersDisallow: /index.php?act=OnlineDisallow: /index.php?act=calendarDisallow: /index.php?act=SRDisallow: /index.php?act=SFDisallow: /index.php?act=ICQDisallow: /index.php?act=MSNDisallow: /index.php?act=AOLDisallow: /index.php?act=AIMDisallow: /index.php?act=SCDisallow: /index.php?act=taskDisallow: /index.php?act=findpostDisallow: /index.php?act=UserCPDisallow: /index.php?act=usercpDisallow: /index.php?&act=Disallow: /index.php?act=reportDisallow: /index.php?act=buddyDisallow: /index.php?act=legendsDisallow: /index.php?CODE=Disallow: /index.php?act=attachDisallow: /index.php?act=AttachDisallow: /index.php?&&CODE=Disallow: /index.php?&debug=1Disallow: /index.php?act=ProfileDisallow: /index.php?showuserDisallow: /index.php?s=Disallow: /index.php?autocom=chatsigmaDisallow: /index.php?autocom=chatparaDisallow: /index.php?act=thanksDisallow: /*&view=getnewpost$Disallow: /*&view=getlastpost$Disallow: /*&view=old$Disallow: /*&view=new$Disallow: /*&view=getfirst$Disallow: /*&view=getprevious$Disallow: /*&view=getnext$Disallow: /*&view=getlast$Disallow: /*mode=linearDisallow: /*mode=threadedDisallow: /*mode=linearplusDisallow: /*&p=Disallow: /*&pid=Disallow: /*&gopid=Disallow: /*&hl=Disallow: /*&start=Disallow: /*&showtopicDisallow: /*gallery&req=statsDisallow: /*gallery&req=userDisallow: /*gallery&req=slideshowDisallow: /*reportimageDisallow: /*prune_day=Host: zatusim.ru

На данный момент яндекс в панели вебмастера пишет для этого сайта, что: «Документов запрещенных в файле robots.txt? 19322

Скажем нет не нужной инфе 

:)
You should also read:

WordPress плагин Cache Images для автоматического сохранения картинок размещенных на других сайтах.

Данный плагин решает такую проблему:

Например я вставляю в редактор картинку с другого сайта, а при нажатии "Сохранить" или "Опубликовать" эта картинка автоматически сохраняется у меня в папке для загрузок и соответственно ссылка на эту картинку становится уже на мою папку. Т.о. мне не надо сохранять эту картинку к себе на комп, а потом ее загружать в Вордпрес.

Cache Images - очень полезный плагин для WordPress. Его работа заключается в том, что он автоматом пробегает по вашим публикациям, находит в них те картинки, которые вставлены по ссылкам с других серверов, перекачивают картинки к вам на хостинг и заменяет в публикациях ссылки, так что картинка уже берется не с другого сайта, а с вашего.

Плагин для WordPress

Плагин для автоматической перелинковки WordPress

Давно знал о существовании плагина для автоматической перелинковки на WordPress, но никак руки до него не доходили, а точнее, не думал что он настолько полезен. Лишь однажды, когда я случайно попал на новостной сайт (какая-то новость заинтересовала), прочитал новость, а потом перешел по внутренней ссылке этой новости, а потом в другой новости снова перешел по внутренней ссылке (все эти ссылки просто были внутри статьи на каком-то слове или фразе)… в общем, я понял, что с помощью этих внутренних перелинковок можно надолго задержать посетителя на вашем сайте, то есть как бы улучшаются “поведенческие факторы”, которые сейчас упорно стараются использовать все поисковые системы при поднятии сайта в топе или для понижения его позиций.

Обзор SEO-плагина WordPress SEO by Yoast

В данном обзоре будет рассмотрен и протестирован бесплатный плагин для Вордпресса WordPress SEO by Yoast. В сентябре 2012 года была выпущена новая версия этого плагина с номером 1.2.8.4, совместимая с версией WordPress 3.4.2. WordPress SEO by Yoast имеет много положительных отзывов, и на сайте wordpress.org он оценён 4,7 балами из 5. Тестирование его функций для этого обзора было выполнено на WordPress 3.4.2.

Как перевести тему или плагин WordPress — пошаговая инструкция

Известно что хороший дизайн и верстка сайта очень сильно влияют на отношение посетителей к сайту и его владельцу. Не забываем также что хороший шаблон существенно влияет на поисковую оптимизацию и юзабилити сайта.

Шаблонизация WordPress довольно несложная, и можно недорого найти хорошего дизайнера и верстальщика WordPress тем. В среднем цена на хороший дизайн темы WordPress стоит от $30-40, и гдето столько же стоит отверстать шаблон под ваш движок.