Каким бы древним ни было SEO, но такой инструмент как robots.txt всё ещё актуален, и останется таким ещё очень долго. Разберёмся, что это за инструмент и как им пользоваться правильно.
Robots.txt - это файл в корне продвигаемого сайта, в котором указываются правила для поисковых роботов по сканированию тех или иных разделов сайта.
Зачем нужен robots.txt?
👉 Разрешать или запрещать поисковым роботам сканировать конкретные папки, разделы сайта, и соответственно размещать их в индекс поисковой системы.
Основные команды в robots.txt
- User-agent: - указывает для какого робота предназначены правила сканирования ниже. Если указывается конкретное название, то правила будут работать только для указываемого робота, если указано “*” - то для всех поисковых роботов.
- Disallow: - запрет для индексации указанного раздела или папки сайта.
- Allow: - разрешение для индексации указанного раздела сайта.
- Sitemap: - указание пути к карте сайта.
- Host: - главный домен сайта.
- Crawl-delay: - команда, которая указывает на тайм-ауты загрузки страниц роботом, и как правило, задаётся для больших сайтов. По информации многих источников, эта команда сейчас не актуальна, но по старинке прописываем.
Как закрыть сайт для индексации через robots.txt?
User-agent: *
Disallow: /
Этот “/” указывает, что всё начиная от корневой папки, закрыто для индексации.
Если Вам необходимо закрыть к индексации только конкретную папку, то указываете ее через “/”. В данном случае будет индексироваться весь сайт, кроме указанной папки.
User-agent: *
Disallow: /admin
Если необходимо закрыть часть из структуры сайта, имеющую определенную закономерность в URL, то можно после "/" добавить конструкцию типа *parts_of_url*.
Это будет означать для робота, что URL сайта, которые содержат данный кусок индексироваться не будут.
Как открыть сайт для индексации через robots.txt?
User-agent: *
Disallow:
Отсутствие “/”, разрешает роботу сканировать всё в границах данного домена.
Как открыть только отдельные папки для индексации через robots.txt?
User-agent: *
Disallow: /
Allow: /admin
В данном случае весь сайт, за исключением папки “admin”, закрыт к индексации.
Обычно, “allow” используют при сложной структуре сайта, когда внутри закрытых папок необходимо что-то открыть для робота.
Как составить robots.txt?
Robots.txt, как правило создаётся вручную, исходя из следующих составляющих:
👉 анализ корня сайта;
👉 анализ URL-структуры сайта.
Обычно это делают SEO-специалисты, при запуске сайта. Если robots.txt не создать, то сайт в любом случае будет проиндексирован.
Как протестировать robots.txt?
Тест файла robots.txt осуществляется через специальный инструмент в Google Search Console, с возможностью проверки работоспособности директив:

Стоит отметить, что директивы robots.txt на запрет индексации не всегда на 100% выполняются. Поэтому, если хотите себя подстраховать, рекомендуем воспользоваться дополнительными инъекциями в html код, типа:
<meta name="robots" content="noindex, nofollow">
Данная команда сразу принимается роботом во внимание, при загрузке html кода страницы и сканировании, даже если робот не обратится к файлу robots.txt.
Собственно, это основные важные моменты по работе с robots.txt. Это важный этап при запуске проекта и техническом SEO-аудите сайта, о котором не стоит забывать. Надеемся, этот материал был для Вас полезным. До новых встреч.