robots.txt — как правильно составить файл?

Robots.txt - простой .txt файл, позволяющий настроить запрет индексации тех файлов или страниц, наличие которых, нежелательно в выдаче поисковых систем. Как правило у тех, чьи сайты имеют не статические , а динамические страницы, происходит дублирование страниц. Получается что одна и та же страница с одним и тем же контентом доступна по разным адресам. А дублирование контента - одна из тех вещей, которые могут пагубно повлиять на Ваш сайт. Что бы избежать этого нужно правильно создать и настроить файл robots.txt.

Создаем простой текстовый документ и называем его robots.txt. В Windows 7 писать расширение .txt не нужно, просто называем новосозданный текстовый документ robots

Синтаксис абсолютно не сложный, ничего замудреного нет.

User-Agent: * - данная директива указывает к какому именно поисковому роботу идет обращение. Значок "*" означает, что всем роботам. Для того, что бы указать роботу какой-либо определенной поисковой системы, нужно лишь вписать вместо "*" название робота.

Вот список поисковых ботов основных поисковых систем Ру нета:

Яндекс - Yandex

Google  - Googlebot

Рамблер -  StackRambler

Мэйл.ру - Mail.Ru

Disallow: - директива запрещающая индексацию файла, материала, страницы, директории.

Для того, чтобы поисковые системы индексировали весь материал, необходимо директиву Disallow: оставить пустой:

User-Agent: *

Disallow:

Allow: - директива позволяет индексацию того или иного материала, страницы, директории. 

Для того, чтобы полностью запретить индексацию всего сайта Вам необходимо прописать следующий код:

User-Agent: *

Disallow: /

Так же можно запретить индексацию файлов с определенным расширением, например вписав в robots.txt такую строку, мы запретим индексировать все файлы с расширением .pdf:

User-Agent: *

Disallow: *.pdf

Host: - директива, указывающая на основное зеркало сайта. Так можно указать основной сайт с www или без. Хотя лучше это делать на стороне хостинга.

User-Agent: *

Disallow:

Host: www.site.ru

Sitemap: - директива, которая указывает на то, где находится .xml карта сайта, предназначенная для поисковых систем.

User-Agent: *

Disallow:

Sitemap: http://needsite.net/sitemap_index.xml

Файл robots.txt нужно размещать в корневом каталоге сайта.

Для сайтов, созданных с помощью CMS (систем управления содержимым), типа WordPress или Joomla! существуют специальные плагины, позволяющие настроить правильную индексацию сайта.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *