Як закрити сайт від індексації Google в robots txt ✔ PROject SEO

Багато веб-майстрів при роботі з сайтом можуть вносити правки, які сильно позначаються на його дизайні і функціоналі. У деяких випадках це може бути пов’язано з розробкою нового оформлення для проекту, додаванні різних фішок і т.п. В результаті виникає ситуація, коли потрібно закрити сайт від індексації в пошукових системах, щоб пошукові боти не бачили веб-сайт на стадії розробки.

Зміст:

Заборонити індексацію папки або директорії сайту
Заборонити індексацію зображень
Закрити від індексації піддомени
Інструкції для інших пошукових систем
Закрити вікно від індексації

На допомогу в цьому випадку прийде файл robots.txt, який повинен лежати в кореневій папці проекту. Щоб закрити сайт від індексації у всіх пошукових системами потрібно розмістити в файл robots.txt наступні рядки:

User-agent: *
Disallow: /

Іноді ви можете заборонити індексувати сайт окремим пошуковим роботам (у кожного пошукача є свій), для цього буде потрібно замість зірочки в robots.txt прописати звернення до пошукового робота.

Yandex – для Яндекса
Googlebot – для Google.

Заборонити індексацію папки або директорії сайту

За допомогою Роботс також можна закривати окремі розділи сайту. Для цього слід додати ось такі значення:

User-agent: *
Disallow: /name/

Де name – назва папки. Це заборонить індексацію всіх адрес сайту, які розташовані всередині розділу name.

При цьому можна додатково прописати інструкцію, яка дозволить відкрити для індексації окремий файл. Для цього прописуємо наступні рядки:

User-agent: *
Disallow: /name/
Allow: /name/page_1

В результаті роботи пошукових систем не будуть сканувати весь вміст папки name, крім розділу page_1.

Дану інструкцію також можна окремо прописувати для пошукових роботів.

Заборонити індексацію зображень

За допомогою Роботс можна без проблем закрити індексацію зображень на сайті. Для цього розмістіть в файлі рядок Dissallow: із зазначенням формату зображень, які не повинні бути проіндексовані пошуковими ботами. наприклад:

Disallow: *.png

Закрити від індексації піддомени

Пошукові системи розпізнають всі піддомени як окремі сайти. Тому необхідно на кожному з них розміщувати свій Роботс. Знаходиться він в кореневій папці вашого поддомена. Щоб закрити від індексації потрібний вам піддомен, додайте в файл robots.txt інструкцію, яка була вказана вище.

Список додаткових директив, які використовуються у файлі robots.txt

Крім стандартних директив, Google, Яндекс та інші пошукові системи знають ще кілька.

Sitemap – розпізнається всіма пошуковими системами. Дана директива дає можливість вказати шлях до карти сайту в форматі sitemap.xml.
Clean-param – ця директива розпізнається тільки Яндексом. З її допомогою можна заборонити індексацію get-параметрів вашого сайту, які призводять до дублювання сторінок. Наприклад, при наявності на тій чи іншій сторінці utm-міток, вона буде мати однаковий контент при різних url.
Crawl-delay – розпізнається більшістю пошукових систем. З її допомогою ви можете вказати мінімальне значення часу, за який з сервера буде вироблено скачування 2-х файлів.

Інструкції для інших пошукових систем/h3>

За допомогою рядка User-agent: ви можете звернутися в robots.txt до різних відомих пошукових систем. Кожна з них має свого робота, який проводить сканування сторінок сайту. Крім стандартних звернень до Яндексу і Google, які були описані вище, можна прописати звернення і до інших пошукових ботів.

Бінг – MSNBot;
Yahoo – Slurp;

Закрити вікно від індексації

Крім файлу robots.txt можна заборонити для індексації ту чи іншу сторінку проекту. Для цього використовується мета-тег robots, який повинен бути прописаний в html-коді сайту. Пошуковики сприймають його, і він має досить високий пріоритет. Для того щоб заборонити індексування URL, додайте в код такі рядки: