Файл robots.txt или как не попасть в немилость к поисковикам?

После написания уникального оптимизированного контента, нужно чтобы о нем узнали поисковые системы. Для этого мы сделали файл sitemap.xml, в котором прописано какие страницы индексировать поисковому роботу.

Но роботы будут ходить не только по тому, что прописано, они будут ходить вообще по всех ссылках и файлах вашего сайта. Будут индексировать даже сам движок, я уж не говорю об индексации категорий, страниц, архивов, тегов.

То есть у нас статьи уже проиндексировались – а тут робот еще раз их индексирует через архивы, потом через теги, через страницы (потому что это другие ссылки). И с точки зрения поисковых систем это будет неуникальный контент. Так и до бана не далеко. Бан конечно, это я чересчур, но понизить в выдаче поисковики могут легко.

Есть еще один файл, который в отличии от sitemap.xml отвечает за указание поисковым системам, что не индексировать на сайте. Это файл robots.txt, в нашем случае для WordPress. Именно в нем мы указывали путь к файлу sitemap, как бы говоря поисковикам: у меня записано, что тебе запрещено индексировать, а вот файл sitemap, в котором то, что нужно проиндексировать.

Это обычный текстовый файл в UTF-8, который помещается в корень сайта. Корень сайта это папка вашего блога. Может быть httpdocs, public_html или ваш_сайт/www. Заходите на свой хостинг, ищете Файловый-менеджер, выбираете файл- загрузить.

Создание файла robots.txt происходит в текстовом редакторе, например Notepad++. Кодировать в UTF-8 (без BOM).

Правильный robots.txt можно разобрать на примере:

User-agent: *
Allow: */uploads - разрешить индексировать все подпапки uploads
Disallow: /wp- – запретить индексировать все папки, начинающиеся с wp-
User-agent: Yandex
Disallow: /wp-admin – запретить конкретную папку
Disallow: */feed – запретить индексировать фиды
Disallow: /category/* – запретить индексировать категории и все внутри
Disallow: /archive/* – запретить индексировать архивы и все внутри
Disallow: /page/* – запретить индексировать страницы и все внутри
Host: ottd.one
Sitemap: http://ottd.one/sitemap.xml.gz
Sitemap: http://ottd.one/sitemap.xml

User-agent: – выбираем, через пробел, с каким поисковым ботом мы работаем. Знак * означает боты всех поисковиков. Между директивой и ее значением всегда должен быть пробел.

User-agent: Yandex – указания поисковому боту Яндекса. Практически всегда прописывается отдельная секция robots.txt для Яндекс, ибо этот поисковик понимает только если скажешь лично ему. Если нужно/хочется прописать тоже самое для Google, то пишем Googlebot – так называется сам бот.

Allow: и Disallow: – соответственно разрешения и запрет индексации определенных секций. Разрешения обычно ставят впереди запретов, так как считывается файл последовательно и как только найдет запрет – все, индексировать не будет и robot.txt дальше просматривать не будет.

Если написать следующее, то будут запрещаться статьи без настроенного ЧПУ, например http://ottd.one/?p=112:

Disallow: /*?*
Disallow: /*?

Host: ottd.one – директива host указывает главное зеркало сайта. Даже если у нас вроде бы нет зеркал, все равно пишем. Так как есть отличия сайта www.ottd.one и просто ottd.one.

Sitemap – две директивы указывают на сжатую и обычную карту сайта xml. Обе директивы считаются межсекционными, поэтому ставятся отдельно, через пустую строку, от указаний поисковым ботам.

Можно скопировать мой рабочий пример robots.txt – http://ottd.one/robots.txt. У меня прописаны две директивы с годом:

Disallow: /2011/*
Disallow: /2012/*

Это все для потому, что директива Disallow: /archive/* не срабатывает. Почему это происходит не знаю, но такая ситуация у многих. Соответственно в 2013 году добавлю еще одну строку.

Проверить насколько правильный ваш robots.txt можно через Яндекс.Вебмастер и Гугл.Вебмастер. Там же смотрим, какие страницы индексируются поисковыми системами. Если что то нас не устраивает – делаем изменения в robots.txt, а лишние страницы можно удалить через панель вебмастеров.

Яндекс

Заходим в Яндекс, если профиль не сохранен – то зайти в почту. Затем нажать в правом верхнем углу на свой логин и зайти в Вебмастер.

Нас перебросит в панель вебмастеров, где можно просмотреть различные параметры своего сайта.

Нужно выбрать Мои сайты и анализ robots.txt. Затем можно проверить сам файл, нажав Проверить.

Дальше можно добавлять любую нужную страницу сайта и проверить, не закрыто ли ее индексирование:

Похожим образом можно работать с Google webmaster.

Заходим в http://www.google.com/webmasters/ (в профиле сохранен пароль, можно просто зайти в почту).

Заходим в Состояние и смотрим Заблокированные URL. Там также можно нажать проверить файл robots.txt.

Выводы: для того, чтобы составить нормальный файл роботс, нужно не только знать теоретическую подоплеку написания, но и поэкспериментировать практически. Нет стопроцентно правильного файла для вашего сайта. Можно скопировать чей то файл, а затем нужно отлаживать его под себя.