Настраиваем Robots.txt на WordPress

После того как все необходимые модули расширения установлены, нужно создать правильный Robots.txt. Это текстовый файл, который находится в корневой директории Вашего сайта, содержащий инструкции для роботов поисковых систем.

WordPress, как и другие CMS, генерирует множество однотипных страниц (дублей), что может привести Ваш блог к попаданию под различные нежелательные фильтры от поисковых систем. Правильный Robots.txt позволит Вам спрятать от поисковиков дубли страниц.

Для создания Robots.txt используются следующие директивы:

- «User-agent», содержащая поискового робота. Она позволяет настраивать индексацию сайта для каждого поискового робота. Например, если Вы хотите запретить индексацию отдельных разделов для поисковых роботов Яндекс, то директива будет иметь вид - User-agent: Yandex. Если же Robots.txt создается одинаковым для всех поисковых роботов, то следует использовать директиву - User-agent: *.

- «Disallow», ограничивающая доступ роботов к отдельным частям блога или сайту в целом. Использую данную директиву в создании Robots.txt для блога, который станет участником блоговой биржи Buypost.ru необходимо помнить, что использование директивы «Dissalow: /» для отдельных поисковых роботов запрещено, поскольку она будет препятствовать индексации сайта нашим роботом.

- «Allow», разрешающая доступ роботов к сайту.

- «Host», используемая в целях избегания проблем с зеркалами сайта. Данная директива указывает поисковому боту Яндекса главное зеркало. Она имеет следующий правильный вид - Host: site.ru, то есть не должно содержаться http:// и закрывающегося слеша «/»

- «Sitemap», указывающая на место хранения карты сайта (Sitemap xml).

Пример правильного файла Robots.txt

Приведем пример правильного созданного файла Robots.txt для блога на WP:

User-Agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads
Host: site.ru
Sitemap: http://site.ru/sitemap.xml

Отдельно заметим, что мы также настоятельно рекомендуем закрыть от индексации все служебные разделы (категории, календарь, страницы профилей и авторов), добавив в robots.txt следующие записи:

Disallow: /category/
Disallow: /date/
Disallow: /tag/
Disallow: /author/

Это окончательно решит проблему с дублями страниц, что положительно скажется на равномерности индексации Вашего сайта всеми поисковиками, а также снизит вероятность выпадения отбракованных страниц из индекса.

Еще способы заработать в интернете

Комментарии запрещены.