Создание файла robots.txt

Зайдя на сайт, первое, что делают поисковые роботы, это ищут в корне сайта файл robots.txt. Если файл обнаружен, просматривается его содержимое. Файл robots.txt — это инструмент благодаря, которому можно общаться с поисковыми работами. От этого файла зависит многое, например, будет ли сайт проиндексирован, какие страницы попадут в индекс, а какие нет. Отсутствие файла или его неправильное содержимое, создаст немало проблем.

Создание файла robots.txt

На сайте одна и та же информация чаще всего имеет несколько URL адресов (дубликаты страниц). Но поисковые роботы, считают, что это несколько разных страниц, с одинаковым наполнением. В итоге, они индексируют все, что попадается, без разбора, и в конечно результате, в поисковиках оказываются многочисленные копии страниц.

Да еще и то, что вообще не должно индексироваться. Поэтому, чтобы этого избежать, прежде чем добавить сайт в поисковики, нужно создать правильный robots.txt файл и загрузить его в корень сайта.

Для написания файла robots.txt есть несколько специальных директив, они сообщают поисковым роботам, как они должны себя вести. Самая главная директива User-agent, пишется в файле самой первый. Параметром прописывается имя робота, для которого предназначены следующие за ней правила.

Пример:

User-agent: * — Указывает, что последующие правила касаются всех поисковых роботов.
User-agent: Yandex – В этом случае, правила предназначаются только роботам поисковой системы Яндекс.

Вторая важная директива файла robots.txt, это Disallow. Директива позволяет запретить индексировать роботам весь сайт или лишь некоторые его директории. В примере ниже показано, как можно запретить индексировать любую директорию, например, /admin/ со всеми вложенными папками и файлами, поисковым роботам Яндекс.

Пример:

User-agent: Yandex
Disallow: /admin/

Еще одна часто используемая директив, это Host. Адреса сайта можно указывать с www и без (главное зеркало сайта), из-за чего получается два разных адреса. Если поисковым роботам не сообщить, что два адреса принадлежат одному ресурсу, это приведет к путанице и проблемам.

Так, считая, что два адреса, это два разных сайта, поисковик Яндекс разделит начисленный ТИЦ пополам. Поэтому, в директиве Host прописываем главное зеркало (сайт с www или без такогого).

Пример:

Host: www.syblog.ru

или

Host: syblog.ru

И последняя директива, которую обязательно нужно добавить в robots.txt, это Sitemap (карта сайта). В качестве параметра, прописывается полный путь к карте сайта. Но перед этим, ее нужно создать. Карта позволяет, не только пользователям быстро ориентироваться на сайте и находить нужные страницы, но и поисковым роботам. Сайты, которые имеют карту, более эффективно индексируются поисковиками.

Пример:

User-agent: Yаndex
Disallow: /admin/
Host: syblog.ru
Sitemap: http://commerinfo.ru/syblog.ru/

Посмотреть и сравнить со своим, файл robots.txt можно на любом сайте, где он конечно присутствует. Нужно ввести в адресной строке  название сайта/robots.txt/.

Понравилась статья? Поделиться с друзьями:
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: