Директивы и настройки файла Robots.txt: что нужно знать

8 мин
3776
Команда AskUsers
Команда AskUsers
27 ноября 2020 • 8 мин
Содержание

Для индексации сайта роботы поисковых систем определяют, к каким разделам у них есть доступ. Эти данные прописаны в текстовом файле robots.txt. Он работает в качестве преграды для поисковых алгоритмов и указывает, какие страницы могут смотреть роботы, а какие для них закрыты. 

Заказать юзабилити-аудит сайта CTA-баннер.png

Глубину ограничений настраивают с помощью директив. Роботы воспринимают их как инструкции к действию. И если они видят команду Disallow с указанием разделов сайта, то не будут их индексировать. В этой статье расскажем, как настраивать директивы для Яндекса и Google и как составить правильный robots.txt.

Почему индексация сайта зависит от файла robots.txt

Если не хотите, чтобы частные и корпоративные данные попадали в поисковые системы, нужно закрыть к ним доступ. Поэтому в robots.txt стоит прописать запрет на доступ к панели администратора и конфиденциальным данным.

Неверно составленный файл испортит индексацию в поисковиках. Стоит неправильно указать директивы роботс для сайта, и из поисковой выдачи вылетит половина страниц и разделов, приносящих трафик. Составление правильного синтаксиса — еще одно требование при работе с robots.txt. Появление ошибки в командах и спецсимволах приводит к тому, что во время анализа и проверки ресурса робот не поймет ограничений и проиндексирует страницу, которую вы хотели закрыть. Или наоборот — закроется посещаемый раздел, и сайт лишится трафика. Мы уже писали о том, как повысить трафик за счет работы с релевантностью страницы.

Какие бывают директивы и как их настраивать

User-agent

Определяет, для каких поисковых алгоритмов составлен роботс. Эту команду указывают первой при создании файла. Как и остальные директивы User-agent составляется по шаблону. Вот правильный порядок — название директивы, двоеточие, пробел, значение команды. В случае с User-agent значением будет название поисковых роботов.

Примеры синтаксиса:

Disallow

Запрещает роботам индексировать указанные страницы и подразделы. Чтобы закрыть весь ресурс от поисковых алгоритмов, в значении команды поставьте символ «/». В данном примере запрет касается подраздела «page», который расположен следом за правильным URL-адресом сайта. Например, http://directive.ru/page.

Синтаксис директивы можно настраивать символом «*». Нужно поставить его перед «/» и прописать формат документов, которые необходимо запретить для индексации. Например, «doc» или «pdf». Все документы с этим форматом роботы будут игнорировать.

Allow

Разрешает доступ к страницам. Для этой команды актуальны все настройки Disallow. В этом примере мы запретили поисковым алгоритмам индексировать весь сайт с помощью Disallow, кроме разделов, которые начинаются с /page ( Allow).

Можно настраивать взаимодействие разрешающей и запрещающей директив с таким синтаксисом:

Доступ к страницам /blog закрыт, а подраздел /blog/page работы проиндексируют.

Sitemap

Указывает путь к XML-карте сайта. Если их несколько, для каждой новой используйте отдельную команду. О том, как настраивать карту сайта и почему она важна для SEO, читайте здесь.

Clean-param

Команда убирает лишние страницы, которые повторяют содержание индексируемых разделов. Clean-param очищает URL, удаляя ненужные метки, фильтры, информацию о сессиях и т.д. Возьмем такую страницу:

И настроим директиву:

Роботы во время проверки уберут из индексации выбранный динамический URL для всех страниц /page.

Crawl-delay

Указывает алгоритмам Яндекса, сколько секунд нужно подождать перед загрузкой очередного раздела. Команда спасает ваш сервер от дополнительной нагрузки, когда роботы часто заходят на ресурс. Синтаксис самый простой:

Правильная настройка robots.txt

Можно использовать шаблоны, где указаны стандартные настройки без анализа особенностей вашего ресурса. Вслепую загружать такой файл на сайт не стоит — роботы могут криво проиндексировать его.

Настраивать robots.txt всегда лучше самостоятельно. Четко проверяйте, какие страницы нужно закрыть для индексирования, и не допускайте ошибок в командах. Синтаксис файла роботс устроен по простым и понятным законам — не нарушайте их, чтобы алгоритмы верно проиндексировали ваш ресурс.

Расскажем, как указать правильные настройки в чек-листе:

  • Одна строка — одна директива. Проверка этого принципа — первая цель после того, как составлен роботс.
  • Значение команды пишите в одной строчке.
  • Составляйте их без точек с запятой, кавычек и заглавных букв.
  • То же самое для меток слежения (*utm, *clid и т.д.).
  • Настройка Host, Clean-param и Crawl-delay для Гугла производится в Google Search Console.
  • Основное правило составления файла — никаких пустых строк. Они появляются только между директивами User-agent и между завершающей User-agent и Sitemap.
  • Разрешите доступ ко всем файлам JS и CSS из системных папок. Необходимо для корректной индексации.
  • Укажите в Allow известные форматы изображений (*.jpg, *.png и т.д.). Это перестраховка для того, чтобы страницу не проиндексировали без картинки.
  • Аккуратно настраивайте доступ ко всем страницам со служебной информацией, секретными и персональными данными. Их лучше закрыть от роботов.
  • Для Яндекса укажите корректный Host, следите за синтаксисом.

Как добавить robots.txt и где лежит файл

Роботс составляют в простой текстовой программе — блокноте. Анализ работы поисковых алгоритмов показал, что лучше собирать файл прямо там, а не в других редакторах. Блокнот поддерживает кодировку UTF-8, а некоторые программы работают с другими настройками. А их поисковики могут некорректно проиндексировать.

Обязательно нужно указать имя файла — robots.txt. Сохраняем его и размещаем строго в корневом каталоге сайта. Файл должен открываться, например, по адресу — http://www.directive.ru/robots.txt. Подраздел — http://www.directive.ru/blog/robots.txt — не подойдет, в этом случае роботы его не проиндексируют.

Настраивать роботс можно и после загрузки на сайт. Если допустили ошибку и заметили после анализа, ее легко поправить в файле.

Проверка синтаксиса

После размещения robots.txt в корневом каталоге стоит провести анализ настройки директив. Даже если вы не в первый раз составляете список команд для роботов, лучше воспользоваться проверкой файла на предмет ошибок. Правильный синтаксис — залог успешного индексирования. Например, одна ошибка в команде Host будет стоить вам трафика.

Для анализа используйте Вебмастеры Яндекса и Google. Нужно указать адрес ресурса и в пустое поле скопировать текст из роботса. Проверка займет пару секунд, и сервис сообщит о найденных ошибках.

Вывод

После проверки robots.txt работа с ним не завершена. Вносите изменения после появления новых страниц. Проводите анализ сайта, составляйте новые ограничения, настраивайте синтаксис и следите, чтобы роботы четко индексировали ресурс. После каждого изменения проводите проверку.

Понравилась статья? Жмите лайк или подписывайтесь на рассылку.

А также поделитесь статьей с друзьями в соцсетях.

Команда AskUsers
Команда AskUsers
Популярные статьи