Просування сайтів & web-аналітика

Відправити заявку    +38 096 558 75 14

Robots.txt – що це, і як за допомогою нього керувати індексацією сайту

Яким би древнім не було SEO, але такий інструмент, як robots.txt, все ще актуальний, і залишиться таким ще дуже довго. Розберемося, що це за інструмент і як користуватися ним правильно.

Robots.txt - це файл у корені сайту, що просувається, в якому вказуються правила для пошукових роботів по скануванню тих чи інших розділів сайту.

Навіщо потрібен robots.txt?

👉 Дозволяти або забороняти пошуковим роботам сканувати конкретні папки, розділи сайту та відповідно розміщувати їх в індекс пошукової системи.

Основні команди у robots.txt

  • User-agent: - вказує для якого робота призначені правила сканування нижче. Якщо вказується конкретна назва, то правила будуть працювати тільки для робота, що вказується, якщо вказано “*” - то для всіх пошукових роботів.
  • Disallow: - заборона для індексації вказаного розділу чи папки сайту.
  • Allow: - дозвіл для індексації вказаного розділу сайту.
  • Sitemap: - вказівка шляху до карти сайту.
  • Host: - головний домен сайту.
  • Crawl-delay: - команда, яка вказує на тайм-аути завантаження сторінок роботом, і зазвичай задається для великих сайтів. За інформацією багатьох джерел, ця команда зараз не актуальна, але по-старому прописуємо.

Як закрити сайт для індексації через robots.txt?


User-agent: *
Disallow: /

Цей “/” вказує, що все, починаючи від кореневої папки, закрито для індексації.

Якщо Вам необхідно закрити до індексації лише конкретну папку, то вказуєте її через “/”. В даному випадку буде індексуватися весь сайт, крім зазначеної папки.


User-agent: *
Disallow: /admin

Якщо необхідно закрити частину структури сайту, що має певну закономірність в URL, то можна після "/" додати конструкцію типу *parts_of_url*.

Це означатиме для робота, що URL сайту, які містять цей шматок, індексуватися не будуть.

Як відкрити сайт для індексації через robots.txt?


User-agent: *
Disallow:

Відсутність "/" дозволяє роботу сканувати все в межах даного домену.

Як відкрити лише окремі папки для індексації через robots.txt?


User-agent: *
Disallow: /
Allow: /admin

У цьому випадку весь сайт, крім папки “admin”, закритий до індексації.

Зазвичай, "allow" використовують при складній структурі сайту, коли всередині закритих папок необхідно щось відкрити для робота.

Як скласти robots.txt?

Robots.txt, як правило, створюється вручну, виходячи з наступних складових:

👉 аналіз кореня сайту;

👉 аналіз URL-структури сайту.

Зазвичай це роблять SEO-фахівці при запуску сайту. Якщо robots.txt не створити, сайт у будь-якому випадку буде проіндексований.

Як протестувати robots.txt?

Тест файлу robots.txt здійснюється через спеціальний інструмент у Google Search Console, з можливістю перевірки працездатності директив:

Тест файла robots

Варто зазначити, що директиви robots.txt на заборону індексації не завжди виконуються на 100%. Тому, якщо хочете себе підстрахувати, рекомендуємо скористатися додатковими ін'єкціями у html код, типу:


<meta name="robots" content="noindex, nofollow">

Ця команда відразу приймається роботом до уваги, при завантаженні html коду сторінки та скануванні, навіть якщо робот не звернеться до файлу robots.txt.

Власне, це основні важливі моменти роботи з robots.txt. Це важливий етап при запуску проекту та технічному SEO-аудиті сайту, про який не варто забувати. Сподіваємось, цей матеріал був для Вас корисним. До нової зустрічі.