Как сделать правильный robots.txt для WordPress

Всем привет. Судя по всему вы сюда попали из соседней темки, о том как ускорить индексацию вашего сайта в гугле, если нет, то советую вам её прочесть!

Как я писал в ней, я для своего блога как правило не использую все рекомендации, которые сам и писал. Но не смотря на все это  у меня все индексируется достаточно быстро, учитывая возраст моего блога на момент написания той статейки (около трех недель)… Кстати говоря, как раз таки для той инструкции для быстрой индексации гуглом я сам применил все рекомендации и в результате – запись опубликованная ближе к глубокой ночи к обеду попала в индекс гугла.
Я не зря начал пост с этого примера. Файл robots.txt очень важен для корректной индексации вашего сайта и помимо этого, он очень важен с точки зрения оптимизации вашего блога или сайта. Как я говорил в соседних темах, где углублялся в понятие оптимизации блога, этот процесс является фундаментом, без него никуда!

Роль robots.txt в сео оптимизации

Правильно составленный файл robots.txt позволит поисковикам правильно проиндексировать ваш сайт и оказать положительное влияние с точки зрения поисковой оптимизации.

Вот вам элементарный пример – дублирующийся контент на сайте, что с точки зрения сео оптимизации просто недопустимо!
"а у меня такого нет", скажете вы "все статьи у меня строго уникальные, я ничего не ворую и если делаю рерайт, то он очень глубокий и качественный!" Конечно, я не спорю и верю вам на все сто, но дубляж контента бывает не только у тех, кто его ворует господа! Более подробно про дублирующийся контент на WordPress

Правильный robots.txt для WordPress

Давайте попробуем создать правильный robots.txt для нашего блога. Как показывает практика, Яша (он же Яндекс) почему-то любит персональное обращение через

User-agent:

Поэтому наша инструкция для роботов будет состоять из двух частей:

1. Для Яндекса

2. Для всех

Отлично, теперь нам надо определиться , что мы запретим для индексации, чтобы задать верную инструкцию. Если мы что-либо пропустим или наоборот впишем в запрет лишнее, то как результат, мы можем оформить себе кривой индекс сайта.

Если рассматривать стандартную ситуацию, то в первую очередь нам надо запретить для индекса

Disallow: /wp-admin 
Disallow: /wp-includes

Эти папки мы целиком скрываем от индексации, их содержимое абсолютно ни к чему для поисковиков. Что у нас остается? А, верно wp-includes. Эту папку целиком скрывать нам не надо, т.к. в ней лежат картинки, которые надо бы проиндексировать, ведь некоторая часть трафика может появиться из яндекс и гугл картинок. Поэтому мы скроем только лишнее:

Disallow: /wp-content/languages 
Disallow: /wp-content/upgrade 
Disallow: /wp-content/themes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache

А разрешить в этой папке нам нужно как раз таки папку, в которой все наши картинки, добавленные на блог

Allow: /wp-content/uploads

Убрать дублированный контент в WordPress с помощью robots.txt

Для начала запретим индекс страниц выдачи информации по тегам:

Disallow: /tag

Убираем из индекса страницы выдачи контента по авторам

Disallow: /author

Теперь хочу обратить ваше внимание на одну важную вещь! Очень важно правильно запретить индексацию архивов. Многие ставят просто "Disallow: /archive/". Но это далеко не у всех работает ;-) У меня, например, архивы открываются так – vsepro100.net/2012/01  - это архив за январь 2013 года. Значит для меня запрет индексации архивов будет выглядеть так:

Disallow: /2013

Чтобы проверить, не такой ли у вас случай, наберите  "вашсайт.ru/2013″ или любой другой год, когда вы добавляли контент на ваш сайт

 

Перед тем как читать далее, вам нужно определиться какой у вас из двух вариантов:

1. Все записи выводятся на главной странице, в виде анонсов. Внизу главной страницы есть переход на вторую страницу, где более старые записи (как это реализовано у меня на блоге)

2. У вас статическая страница, на которой не выводятся ваши записи. А просмотреть их можно в категориях.

 

Почему важно выбрать какой вариант у вас? Ответ простой – ошибетесь с выбором – запретите индексацию ваших записей для поисковиков :!:

Для варианта №1 будем прописывать запрет индексации рубрик (так как все записи доступны с морды блога и морда/page/*)

Disallow: /category

Для второго случая нам запрещать индексацию категорий НЕЛЬЗЯ!

Перед подведением итога и составлением готового файла, надо еще кое что добавить. Бывают такие случаи когда у вас помимо стандартных папок wp-admin, wp-content, wp-include могут быть еще, залитые лично вами. К примеру, у меня в корне сайта есть еще папка images, которая для индексации тоже не нужна, следовательно её мы тоже скрываем от роботов поисковых систем

Disallow: /images

Посмотрите внимательно через ftp клиент, что у вас находится из добавленного лично вами, возможно еще папка share42, которая может быть у вас в результате добавления социальных кнопок на блог

 

Пример robots.txt для блога wordpress

Чтобы создать правильный robots.txt для WordPress, вам помогут примеры, которые я приведу для базовых случаев

1. Для блога первого случая – все посты ссылками на главной странице:

как сделать robots.txt для wordpress-правильный robots.txt

2. Вариант для блогов, где главная страница статическая, и записи выводятся только в рубриках:

как сделать robots.txt для wordpress-правильный robots.txt
И для блогов, где, как я рассказывал, статическая морда и пара свежих анонсов под сео текстом, лучше использовать первый вариант, так как у робота есть возможность с главной странички перебраться на site/page/2,3,4,5 и так далее

В этих примерах мы написали инструкции для всех поисковых роботов и отдельно для робота яндекса. Далее мы запретили тут индексацию архивов для  моего случая (будьте внимательны, я просмотрел с пару десятков блогов и увидел в их robots.txt  Disallow: /archive/ , а у них архивы записей были доступны по site/2012 и т.д.)! У меня архивы начинаются с /2013/

Далее мы еще запретили индексацию для отдельных php файлов. У нас это страница авторизации.

Так же, если у вас нету директории  "cgi-bin", то удалите эту строчку.

Так же советую вам добавить следующие строчки:

Disallow: */*/feed/*
Disallow: */feed

А если вы используете ЧПУ, то еще и:

Disallow: /?
Disallow: /*?
Disallow: /*?*

На этом я думаю стоит завершаться, надеюсь  вам помог в ответах на ваши вопросы!

В случае ,если у вас еще остались вопросы, нашли ошибки в моем посте или неточности, а так же "спасибо" и летящие со скоростью пули помидоры…В общем прошу вас посетить комментарии, друзья.

Буду благодарен за жмаканье по социальным кнопкам! Благодарствую авансом :mrgreen:

 

vsepro100.net был атакован и восстановлен недавно!
У вас быстро открывается сайт vsepro100.net

Добавить статью в соц сеть

Комментарии к: Как сделать правильный robots.txt для WordPress

  1. у меня сайт на вордпрессе, яндекс откопал вот такого вида ссылки:
    - http://www.site.ru/pagename-1
    - http://www.site.ru/pagename-1/comment-page-1/

    - http://www.site.ru/pagename-2
    - http://www.site.ru/pagename-2/comment-page-1/
    и т.д.

    полагаю, что когда комментариев будет много, появятся страницы comment-page-2, -3 и т.д.

    при переходе по этим ссылкам из вебмастера открывается один и тот же контент, получается что у меня дублирующие страницы

    подскажите, как заблокировать эти страницы в роботсе? желательно какой-то маской, чтобы не добавлять постоянно каждую новую страницу туда

    спасибо!!

    • Павел Гаврилин

      Disallow: */comment-page*

      Вообще, лучше бы скинули ваш сайт, чтобы можно было посмотреть, или при следующем комменте укажите в поле URL ваш сайт, кроме меня его никто не увидит

  2. Скажите могли бы вы помочь правильно составить роботс, просто вы написали конечно хорошо и понятно но где всё это размещать и в каком порядке? У меня проблема с дубликатом страниц по категориям при чём я не знал даже об этом, и как это проверяется тоже не знаю если можно покажите.

  3. Не помогает ничего, не могу понять, поменял роботс, и всё равно какие то странные дубли страниц, с добавлением слова tag, не знаю что с этим делать. :?:

  4. Решил вплотную заняться этим вопросом. У меня разница yandex/google = 75/140 . Насчет архивов это правильно. Но у меня еще лишних 65 страниц в гугле. Что посоветуете?

    • Павел Гаврилин

      Если у вас лишние страницы в выдаче, то их нужно закрыть в robots.txt! Но не ждите, что они за один день исчезнут, пройдет неделя-две в зависимости от поисковой системы.

  5. Доброй ночи. Есть такая трабла с сайтом. Пробую добавить его в гугл вебмастер на выделение и он мне определяет устаревшую страницу. Также заметил, что при нажатии на поделится в фейсбук или одноклассники он выдает мне устаревшую картинку с сайта bodas.net. Неделю уже меняю все на сайте, перенес альбомы, коечто удалил, чтото добавил. А гугл и соц.сети этого не видят. Что делать??? Помогите пожалуйста. Если нету времени подробно, то хотябы в каком направлении искать??? Спасибо

  6. Здравствуйте Павел! Подскажите пожалуйста гугл и яндекс индексирует все страницы моей главной страницы, переходы Тоесть вот что получается vmultivarke.com.ua/page/2,3,4 и тд. Нужно ли с этим боротся и как? Есле прописать site:vmultivarke.com.ua, то там выдно. vmultivarke.com.ua это мой сайт подскажите пожалуйста, буду очень признателен.

  7. Подскажите, есть
    урл вида site.com/рубрика/подрубрика/page/1
    его нужно оставить в инексе, а вот
    site.com/рубрика/название_статьи/comments/page/1
    закрыть от индекса что бы старницы с коментами не индексились и не попадали в дубли.

    Я так понимаю, если написать Disallow: /*/page/ то закроет все траницы где есть page в урле.

    Спасибо за ответ!

  8. Огромное спасибо за разъяснение! Прошерстил сайтов 30 до Вас, никто не мог четко указать что нужно,а что нет, а Вы прояснили все от А до Я.

  9. Здравствуйте! Извините, я не поняла кусок "Disallow: /wp-admin
    Disallow: /wp-includes
    Эти папки мы целиком скрываем от индексации, их содержимое абсолютно ни к чему для поисковиков. Что у нас остается? А, верно wp-includes." мы же ее запретили?! или это опечатка? Там вп-контент должно быть? и еще, у меня остается много всяких файлов, которые я вроде и не запрещаю индексировать, но я и не разрешаю. Как робот будет к ним относится? :oops:

  10. Здравствуйте!
    С Новым годом! Спасибо за подробные рекомендации.
    Прочитав вашу статью склоняюсь к выводу что в моем случае нужно открыть в роботс индексацию рубрик.
    Буду признателен, если укажите ошибки в моем файле робот, с учетом сайта.
    И еще один вопрос. Я правильно понимаю, если в рубриках делать описание, то закрывать от индексации не нужно?

  11. Уебишный твой сайт!!!

  12. Здравствуйте скажите пожалуйста если несложно могли вы посмотреть мой сайт и помочь в создании robots.txt, сейчас он есть у меня но сайт индексируется както криво. Желательно скиньте ответ на маил.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Captcha Captcha Reload

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!:

Подписаться, не оставляя комментарий