Продвижение сайтов & web-аналитика

Отправить заявку    +38 096 558 75 14

Robots.txt - что это, и как с помощью него управлять индексацией сайта

Каким бы древним ни было SEO, но такой инструмент как robots.txt всё ещё актуален, и останется таким ещё очень долго. Разберёмся, что это за инструмент и как им пользоваться правильно.

Robots.txt - это файл в корне продвигаемого сайта, в котором указываются правила для поисковых роботов по сканированию тех или иных разделов сайта.

Зачем нужен robots.txt?

👉 Разрешать или запрещать поисковым роботам сканировать конкретные папки, разделы сайта, и соответственно размещать их в индекс поисковой системы.

Основные команды в robots.txt

  • User-agent: - указывает для какого робота предназначены правила сканирования ниже. Если указывается конкретное название, то правила будут работать только для указываемого робота, если указано “*” - то для всех поисковых роботов.
  • Disallow: - запрет для индексации указанного раздела или папки сайта.
  • Allow: - разрешение для индексации указанного раздела сайта.
  • Sitemap: - указание пути к карте сайта.
  • Host: - главный домен сайта.
  • Crawl-delay: - команда, которая указывает на тайм-ауты загрузки страниц роботом, и как правило, задаётся для больших сайтов. По информации многих источников, эта команда сейчас не актуальна, но по старинке прописываем.

Как закрыть сайт для индексации через robots.txt?


User-agent: *
Disallow: /

Этот “/” указывает, что всё начиная от корневой папки, закрыто для индексации.

Если Вам необходимо закрыть к индексации только конкретную папку, то указываете ее через “/”. В данном случае будет индексироваться весь сайт, кроме указанной папки.


User-agent: *
Disallow: /admin

Если необходимо закрыть часть из структуры сайта, имеющую определенную закономерность в URL, то можно после "/" добавить конструкцию типа *parts_of_url*.

Это будет означать для робота, что URL сайта, которые содержат данный кусок индексироваться не будут.

Как открыть сайт для индексации через robots.txt?


User-agent: *
Disallow:

Отсутствие “/”, разрешает роботу сканировать всё в границах данного домена.

Как открыть только отдельные папки для индексации через robots.txt?


User-agent: *
Disallow: /
Allow: /admin

В данном случае весь сайт, за исключением папки “admin”, закрыт к индексации.

Обычно, “allow” используют при сложной структуре сайта, когда внутри закрытых папок необходимо что-то открыть для робота.

Как составить robots.txt?

Robots.txt, как правило создаётся вручную, исходя из следующих составляющих:

👉 анализ корня сайта;

👉 анализ URL-структуры сайта.

Обычно это делают SEO-специалисты, при запуске сайта. Если robots.txt не создать, то сайт в любом случае будет проиндексирован.

Как протестировать robots.txt?

Тест файла robots.txt осуществляется через специальный инструмент в Google Search Console, с возможностью проверки работоспособности директив:

Тест файла robots

Стоит отметить, что директивы robots.txt на запрет индексации не всегда на 100% выполняются. Поэтому, если хотите себя подстраховать, рекомендуем воспользоваться дополнительными инъекциями в html код, типа:


<meta name="robots" content="noindex, nofollow">

Данная команда сразу принимается роботом во внимание, при загрузке html кода страницы и сканировании, даже если робот не обратится к файлу robots.txt.

Собственно, это основные важные моменты по работе с robots.txt. Это важный этап при запуске проекта и техническом SEO-аудите сайта, о котором не стоит забывать. Надеемся, этот материал был для Вас полезным. До новых встреч.