Как закрыть сайт от индексации Google в robots txt ✔ PROject SEO

Оглавление:

Запретить индексацию папки или директории сайта
Запретить индексацию изображений
Закрыть от индексации поддомены
Инструкции для других поисковых систем
Закрыть страницу от индексации

Многие вебмастера при работе с сайтом могут вносить правки, которые сильно сказываются на его дизайне и функционале. В некоторых случаях это может быть связано с разработкой нового оформления для проекта, добавлении различных фишек и т.п. В результате возникает ситуация, когда требуется закрыть сайт от индексации в поисковых системах, чтобы поисковые боты не видели веб-сайт на стадии разработки.

На помощь в данном случае придет файл robots.txt, который должен лежать в корневой папке проекта. Чтобы закрыть сайт от индексации во всех поисковых системами потребуется разместить в файл robots.txt следующие строки:

User-agent: *
Disallow: /

Иногда вы можете запретить индексировать сайт отдельным поисковым роботам (у каждого поисковика имеется свой), для этого потребуется вместо звездочки в robots.txt прописать обращение к поисковому роботу.

Yandex – для Яндекса
Googlebot – для Google.

Запретить индексацию папки или директории сайта

С помощью роботса также можно закрывать отдельные разделы сайта. Для этого следует добавить вот такие значения:

User-agent: *
Disallow: /name/

Где name – название папки. Это запретит индексацию всех адресов сайта, которые расположены внутри раздела name.

При этом можно дополнительно прописать инструкцию, которая позволит открыть для индексации отдельный файл. Для этого прописываем следующие строки:

User-agent: *
Disallow: /name/
Allow: /name/page_1

В результате роботы поисковых систем не будут сканировать все содержимое папки name, кроме раздела page_1.

Данную инструкцию также можно отдельно прописывать для поисковых ботов.

Запретить индексацию изображений

С помощью роботса можно без проблем закрыть индексацию изображений на сайте. Для этого разместите в файле строку Dissallow: с указанием формата изображений, который не должен быть проиндексирован поисковыми ботами. Например:

Disallow: *.png

Закрыть от индексации поддомены

Поисковые системы распознают все поддомены как отдельные сайты. Поэтому необходимо на каждом из них размещать свой роботс. Находится он в корневой папке вашего поддомена. Чтобы закрыть от индексации нужный вам поддомен, добавьте файл robots.txt инструкцию, которая была указана выше.

Список дополнительных директив, которые используются в файле robots.txt

Помимо стандартных директив, Google и прочие поисковики знают еще несколько.

Sitemap – распознается всеми поисковиками. Данная директива дает возможность указать путь к карте сайта в формате sitemap.xml.
Crawl-delay – распознается большинством поисковых систем. С ее помощью вы можете указать минимальное значение времени, за которое с сервера будет произведено скачивание 2-х файлов.

Инструкции для других поисковых систем

С помощью строки User-agent: вы можете обратиться в robots.txt к разным известных поисковых систем. Каждая из них имеет своего робота, который проводит сканирование страниц сайта. Помимо стандартных обращений Google, которые были описаны выше, можно прописать обращения и к другим поисковым ботам.

Бинг – MSNBot;
Yahoo – Slurp;

Закрыть страницу от индексации

Помимо файла robots.txt можно запретить к индексации ту или иную страницу проекта. Для этого используется мета-тег robots, который должен быть прописан в html-коде сайта. Поисковики воспринимают его, и он имеет довольно высокий приоритет. Для того чтобы запретить индексирование URL, добавьте в код следующие строки: