Robots txt для сайта. Как правильно составить

Всем привет! Сегодня я хотел бы поговорить с вами о таком интересном файле, как robots.txt: как правильно составить и для чего он нужен. Но, давайте начнем немного издалека. Что же такое ваш сайт? Правильно, это определенный набор файлов и папок.

И здесь есть один нюанс. Некоторые файлы и папки мы бы не хотели показывать другим. Верно? Так как же нам все-таки скрыть от посторонних глаз эти наши отдельные папки и файлы? Ответ прост. Всего лишь нужно правильно настроить один служебный файл, который называется robots.txt.

 

Что делает поисковый робот, когда приходит на сайт.

У каждой поисковой системы есть свои специальные поисковые роботы. Их много. У каждого из них есть свой алгоритм работы. И они предназначены для правильной индексации сайта с последующей выдачей его в поиске (Яндекса или Гугла). Поэтому, как только появляется новый блог или новая статья, то поисковые роботы сразу же приходят сюда.

В чем же заключается работа поискового робота? Если вкратце, то вот примерный алгоритм.

Сначала он ищет определенную инструкцию, по которой должен совершить проверку сайта. И эта инструкция (файл) называется — robots.txt. Robots.txt – это все же служебный файл. А его создание – один из главных пунктов внутренней оптимизации вашего сайта/блога.

Для того чтобы проверить наличие самого robots.txt, нужно в адресной строке к названию вашего сайта добавить / robots.txt. Вот как это будет выглядеть на примере Яндекса и Гугла.

robots yandex i googl

В нем прописывается «маршрут» этого самого поискового робота. Где ему дозволено смотреть, а где нет. Так вот, он двигается согласно «разрешенному маршруту» (папки и файлы) и ищет там уникальную информацию т.е. ваши статьи (желательно). Затем робот заносит это все в свою базу данных.

А, что же поисковый бот будет делать, когда не найдет файла robots.txt? Он будет действовать «напролом», т.е. просматривать все файлы и папки, которые есть в корневой директории. В итоге, на это уйдет много времени, и робот может пропустить какие-то важные для продвижения статьи.

Но там ведь еще есть файлы настроек, созданные для наших личных целей. И мы бы не хотели, чтобы все это было открыто другим. К тому же от этого пострадаете вы и ваш сайт.

Вот специально для этого и создается файл robots.txt. Правильно создав свой robots.txt, вы будете уверены в том, что робот просмотрит (проиндексирует) только нужные вам файлы. А те, которые не хотели бы ему показывать – он не увидит, вернее не будет их индексировать.

 

Что же нам необходимо закрыть от индексации?

Вот список:

  • Технические страницы (политика конфиденциальности, согласие с рассылкой, пользовательское соглашение и т.д.)
  • Системные папки и файлы
  • Страниц с персональными данными (личный кабинет)
  • Страницы дубли (если не можете от них избавиться)
  • Страницы, которые содержат историю просмотров или покупок
  • Список желаний
  • Корзину
  • Страницы регистрации и авторизации
  • Страницы фильтров и сортировок (если они не оптимизированы)
  • Страницы результатов поиска
  • Страницы печати
  • Страницы восстановления пароля

Здесь дан общий перечень всех станиц и файлов, которые нужно закрыть от индексации. Это подходит и для магазина, и для блога. В зависимости от вида вашего сайта вы должны выбирать свои значения.

Если у вас магазин, то весь список используете. Если же блог – то у вас просто не будет: личного кабинета, истории покупок, списка желаний, корзины, различных фильтров, сортировки и т.д.

 

Robots.txt как правильно составить

Для начала нужно создать в Блокноте Windows файл с названием robots, и расширение у него должно быть txt.

Далее разберемся с командами для поисковых роботов:

User-agent – эту команду должны выполнять роботы всех поисковых систем;

Disallow – это «запрещающая» команда для поисковых роботов, показывает, где запрещено проводить индексацию;

Allow – это «разрешающая» команда, которая, в отличие от предыдущей, показывает роботам, где нужно проводить индексацию;

Host – эта команда показывает поисковым роботам главное зеркало нашего сайта. Сейчас она уже не актуальна;

Sitemap – это файл с информацией о страницах нашего сайта (карта нашего сайта), которые поисковые роботы должны индексировать. Расширение у этого файла должно быть xml.

 

А теперь рассмотрим примеры:

User-agent: * — здесь идет указание на общие правила для роботов;

User-agent: GoogleBot – это правила только для бота Google;

Disallow: — как теперь видно, это «запрет» на проверку роботом-поисковиком от Google;

User-agent: Googlebot-Image

Allow: /wp-content/uploads/: — а здесь наоборот роботу Google разрешено индексировать эту папку. Здесь проверяются изображения. Так же эту папку нужно открыть для поискового робота от Яндекса — User-agent: YandexImages.

 

Вот общие примеры команд:

Disallow: / — эта команда на полный запрет индексации всего сайта. Она дается на самом начальном этапе разработки сайта;

Disallow: /catalog/ — здесь запрещено индексировать папку (директорию) под названием catalog;

Disallow: /politica.html – закрываем определенную страницу под названием politica;

Allow: / catalog /pod-razdel – здесь разрешено индексировать страницу pod-razdel внутри закрытой категории / catalog.

 

Так же еще есть ряд служебных символов, вот они «/, *, $, #». И, теперь мы их расшифруем.

/ (слэш) – означает, что мы хотим закрыть от индексирования. Например, если указали один / в правиле Disallow, то мы запрещаем индексировать весь наш сайт, если два //, то только ту категорию, которая указана между ними;

* (звездочка) – ставится после каждого правила для роботов и означает любую последовательность символов в указанном файле;

$ (знак доллара) – он ограничивает действие звездочки;

# (решетка) – при помощи нее, вебмастер оставляет некие комментарии для себя либо для других. При индексации робот их не будет учитывать.

 

Запрещаем поисковикам индексировать следующие папки (пример):

wp-includes – папка со служебными файлами;

wp-feed – здесь содержатся служебные файлы;

wp-content/plugins – папка с плагинами;

wp-content/cache – здесь хранятся кэшированные страницы;

wp-content/themes – это папка с темами WordPress.

 

Кстати, после любых манипуляций с файлом его необходимо проверить на корректность с помощью Яндекс.Вебмастер —> Анализ robots.txt.

Это только отдельные примеры, которые нужно учитывать при составлении своего robots.txt. Опять же, повторюсь, примеры вы можете узнать сами, набрав в поисковике название сайта и дописав (через /) robots.txt.

На самом деле эти файлы составляются, как длинными «простынями», так и очень короткими (только самое основное). Но, сейчас, большинство экспертов сходятся во мнении, что чересчур сильно robots «раздувать» не стоит. Нужно указать только самые главные пункты.

После изучения всех приведенных выше команд начинаем создавать свой robots.txt в Блокноте. Обязательно размещаем наш файл robots.txt на хостинге, только в корневой папке сайта.

Я, надеюсь, что теперь вы узнали, как правильно составить robots.txt. Все оказалось достаточно просто. Так же его можно создать с помощью таких плагинов, как Yoast SEO и Clearfy Pro. Раньше robots.txt создавали вручную, но теперь эти плагины отлично с такой задачей справляются.

На данный момент он у меня создан при помощи Clearfy Pro. Мой robots.txt максимально минималистичен. Ниже на скриншоте вы можете видеть его в Яндекс.Вебмастере. И результаты его проверки отличные.

my robots

Вот в принципе и все.

Рейтинг
( 1 оценка, среднее 5 из 5 )
Понравилась статья? Поделиться с друзьями:
Комментарии: 2
  1. nikolay

    полезная статья все по полочкам и понятно :smile:

    1. Олег Кириченко (автор)

      Здравствуйте, nikolay! Благодарю за отзыв. Я, действительно, много времени потратил на изучение данного вопроса.

Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: