robots.txt / wiki ТопЭксперт

robots.txt

robots.txt — файл в котором описан стандарт поведения для роботов поисковых систем на сайте.

Зачем он нужен?

Поисковые системы постоянно отправляют поисковых роботов в сеть, которые бродят в поисках новых страниц. Обнаружив новую страничку, робот переходит по всем находящимся в ней ссылкам и добавляет их в свою базу. Спустя какое-то время, при очередном апдейте, ссылки на все обнаруженные новые страницы (даже на те страницы, которые не предназначены для посетителей сайта, являются версией страницы для печати и т. д.) попадают в поисковую выдачу. Чтобы исключить индексацию роботами лишних страниц, требуется создать и настроить файл robots.txt и положить его в корневую директорию сайта (например: http://site.ru/robots.txt).

Как создать robots.txt?

Создать robots.txt очень просто — с помощью любого простого текстового редактора создаем новый текстовый файл и переименовываем его в robots.txt.

Как настроить robots.txt?

Для управления поведением поисковых роботов на сайте, существует специальная команда User-agent. Не стоит забывать что у каждой поисковой системы свои роботы и в большом количестве.

Ниже приведены основные примеры обращений к роботам

* — указывает на то, что после нее идет обращение ко всем поисковым роботам.

User-agent: *  # написанная после этой строки команда будет обращена ко всем поисковым роботам
User-agent: YandexBot  # обращение к основному поисковому роботу Яндекса
User-agent: Googlebot  # обращение к основному поисковому роботу Google

 User-agent: *
 Disallow: / # запрет доступа всем роботам к сайту

Disallow — команда запрета поисковым роботам.

 User-agent: *
 Disallow: /admin/ # запрет доступа всем роботам к директории /admin/

Allow — разрешает индексировать.

User-agent: Googlebot
Disallow: /strawberry/ # запрет доступа определенному роботу (в данном случае роботу Google) к каталогу /strawberry/
Disallow: /strawberry/images/ # а каталог /strawberry/images/ роботу Google мы позволяем индексировать

User-agent: YandexBot
Allow: / # а роботу Яндекса разрешаем индексировать все

Crawl-delay — указывает роботам время, которое надо выдержать между загрузкой страниц. Делается это для того, чтобы не нагружать сервер. Впрочем, сейчас поисковые машины задают по умолчанию время задержки 1–2 секунды.

User-agent: *
 Crawl-delay: 10

Sitemap — указывает адрес карты сайта.

Sitemap: http://site.ru/sitemap.xml # Указывает адрес карты вашего сайта

robots.txt

robots.txt

Зачем он нужен?

Как создать robots.txt?

Как настроить robots.txt?

Уроки по теме: