Файл robots.txt – текстовый файл, который располагают в корне сайта, в котором указываются специальные инструкции поисковому роботу. Инструкции в файле Robots.txt могут запрещать к индексации некоторые страницы, или разделы на сайте, указывать на правильное зеркало сайта, указывать адрес файла с картой сайта в формате XML.

Пример файла robots.txt

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-login.php
Sitemap: http://site.net/sitemap.xml

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-login.php
Sitemap: http://site.net/sitemap.xml
Host: site.net

Где:

User-agent: – указание поисковой системы(бота), для которой предназначены нижеуказанные директивы
Disallow: – указание файла, или директории которую запрещено включать в индекс поисковой системы, директива User-agent: * указывает компанды для всех поисковых систем
Sitemap: – указание расположения карты сайта в формате XML
Host: – указание основного зеркала сайта (работает только в поисковой системе Яндекс)

Список имен распостраненных поисковых систем

Имя бота поисковой системы Название поисковой системы
googlebot Google
yandex Яндекс
StackRambler Рамблер
ia_archiver Alexa
Slurp Yahoo
msnbot MSN

После размещения файла robots.txt на сайте, правильность его формирования можно проверить с помощью функционала в Google Webmaster Tools , или Яндекс.Вебмастер

Интересное в интернете

Как создать бизнес в интернете интересная статья.