Многие вебмастера при работе с сайтом могут вносить правки, которые сильно сказываются на его дизайне и функционале. В некоторых случаях это может быть связано с разработкой нового оформления для проекта, добавлении различных фишек и т.п. В результате возникает ситуация, когда требуется закрыть сайт от индексации в поисковых системах, чтобы поисковые боты не видели веб-сайт на стадии разработки.
На помощь в данном случае придет файл robots.txt, который должен лежать в корневой папке проекта. Чтобы закрыть сайт от индексации во всех поисковых системами потребуется разместить в файл robots.txt следующие строки:
User-agent: *
Disallow: /
Иногда вы можете запретить индексировать сайт отдельным поисковым роботам (у каждого поисковика имеется свой), для этого потребуется вместо звездочки в robots.txt прописать обращение к поисковому роботу.
С помощью роботса также можно закрывать отдельные разделы сайта. Для этого следует добавить вот такие значения:
User-agent: *
Disallow: /name/
Где name – название папки. Это запретит индексацию всех адресов сайта, которые расположены внутри раздела name.
При этом можно дополнительно прописать инструкцию, которая позволит открыть для индексации отдельный файл. Для этого прописываем следующие строки:
User-agent: *
Disallow: /name/
Allow: /name/page_1
В результате роботы поисковых систем не будут сканировать все содержимое папки name, кроме раздела page_1.
Данную инструкцию также можно отдельно прописывать для поисковых ботов.
С помощью роботса можно без проблем закрыть индексацию изображений на сайте. Для этого разместите в файле строку Dissallow: с указанием формата изображений, который не должен быть проиндексирован поисковыми ботами. Например:
Disallow: *.png
Поисковые системы распознают все поддомены как отдельные сайты. Поэтому необходимо на каждом из них размещать свой роботс. Находится он в корневой папке вашего поддомена. Чтобы закрыть от индексации нужный вам поддомен, добавьте файл robots.txt инструкцию, которая была указана выше.
Список дополнительных директив, которые используются в файле robots.txt
Помимо стандартных директив, Google, Яндекс и прочие поисковики знают еще несколько.
С помощью строки User-agent: вы можете обратиться в robots.txt к разным известных поисковых систем. Каждая из них имеет своего робота, который проводит сканирование страниц сайта. Помимо стандартных обращений к Яндексу и Google, которые были описаны выше, можно прописать обращения и к другим поисковым ботам.
Помимо файла robots.txt можно запретить к индексации ту или иную страницу проекта. Для этого используется мета-тег robots, который должен быть прописан в html-коде сайта. Поисковики воспринимают его, и он имеет довольно высокий приоритет. Для того чтобы запретить индексирование URL, добавьте в код следующие строки:
<meta name=”robots” content=”noindex, nofollow”/>
Или
<meta name=”robots” content=”noindex, follow”/>
Также можно использовать альтернативный вариант:
<meta name=”robots” content=”none”/>
Мета тег дает возможность обращаться к поисковым ботам. Для этого нужно заменить в нем строчку robots на yandex или googlebot.
Главный редактор.
SEO кейсы от НАС!