Зайдя на сайт, первое, что делают поисковые роботы, это ищут в корне сайта файл robots.txt. Если файл обнаружен, просматривается его содержимое. Файл robots.txt — это инструмент благодаря, которому можно общаться с поисковыми работами. От этого файла зависит многое, например, будет ли сайт проиндексирован, какие страницы попадут в индекс, а какие нет. Отсутствие файла или его неправильное содержимое, создаст немало проблем.
На сайте одна и та же информация чаще всего имеет несколько URL адресов (дубликаты страниц). Но поисковые роботы, считают, что это несколько разных страниц, с одинаковым наполнением. В итоге, они индексируют все, что попадается, без разбора, и в конечно результате, в поисковиках оказываются многочисленные копии страниц.
Да еще и то, что вообще не должно индексироваться. Поэтому, чтобы этого избежать, прежде чем добавить сайт в поисковики, нужно создать правильный robots.txt файл и загрузить его в корень сайта.
Для написания файла robots.txt есть несколько специальных директив, они сообщают поисковым роботам, как они должны себя вести. Самая главная директива User-agent, пишется в файле самой первый. Параметром прописывается имя робота, для которого предназначены следующие за ней правила.
Пример:
User-agent: * — Указывает, что последующие правила касаются всех поисковых роботов.
User-agent: Yandex – В этом случае, правила предназначаются только роботам поисковой системы Яндекс.
Вторая важная директива файла robots.txt, это Disallow. Директива позволяет запретить индексировать роботам весь сайт или лишь некоторые его директории. В примере ниже показано, как можно запретить индексировать любую директорию, например, /admin/ со всеми вложенными папками и файлами, поисковым роботам Яндекс.
Пример:
User-agent: Yandex
Disallow: /admin/
Еще одна часто используемая директив, это Host. Адреса сайта можно указывать с www и без (главное зеркало сайта), из-за чего получается два разных адреса. Если поисковым роботам не сообщить, что два адреса принадлежат одному ресурсу, это приведет к путанице и проблемам.
Так, считая, что два адреса, это два разных сайта, поисковик Яндекс разделит начисленный ТИЦ пополам. Поэтому, в директиве Host прописываем главное зеркало (сайт с www или без такогого).
Пример:
Host: www.syblog.ru
или
Host: syblog.ru
И последняя директива, которую обязательно нужно добавить в robots.txt, это Sitemap (карта сайта). В качестве параметра, прописывается полный путь к карте сайта. Но перед этим, ее нужно создать. Карта позволяет, не только пользователям быстро ориентироваться на сайте и находить нужные страницы, но и поисковым роботам. Сайты, которые имеют карту, более эффективно индексируются поисковиками.
Пример:
User-agent: Yаndex
Disallow: /admin/
Host: syblog.ru
Sitemap: http://commerinfo.ru/syblog.ru/
Посмотреть и сравнить со своим, файл robots.txt можно на любом сайте, где он конечно присутствует. Нужно ввести в адресной строке название сайта/robots.txt/.