Robots что это такое, Robots - это простыми словами ✔ PROject SEO

Robots.txt представляет собой файл текстового типа в кодировке UTF-8. В нем содержится основная рекомендация для роботов поисковых систем, что видно в названии. В нем же отображаются настройки индексации страниц на определенном ресурсе. Благодаря им робот видит, какие страницы можно индексировать, а какие запрещены для проведения такой процедуры и чётко следует указаниям, применяемым для настроек ресурса.

Файл традиционно находится в корневой папке основного сайта и доступен по адресу определенного формата. Стандарт утвержден в 1994 году специальной комиссией. Причем использование файла данного типа является добровольным как для владельцев сервисов, так и для роботов поисковых систем.

Основная цель и функции Роботс

К основной задаче данного файла специалисты относят контроль за поведением роботов поисковых систем на ресурсе. Дело в том, что после прихода на сайт робот практически сразу использует данные, содержащиеся в указанном файле. Если он отсутствует, то индексация будет произведен на всех страницах сайта. Из-за такой, казалось бы нужной процедуры могут возникнуть следующие проблемы:

попадание конфиденциальных документов и лишних страниц сайта в индексацию роботом;
робот не доберется до основного контента на сайте, поскольку его время нахождения там ограничено, как и ресурсы.

После обработки файла роботы получают инструкции для дальнейших действий, а также списке исключений для индексации. Обычно администраторы предпочитают скрывать такие разделы сайтов, как:

панель администратора;
файлы системного назначения;
данные кэшированного формата;
личные кабинеты пользователей и администрации;
формы регистрации сайта.

Список может пополняться и изменяться в зависимости от личных предпочтений владельцев ресурсов.

Состав файла Robots txt

В составе файла Robots присутствуют традиционно следующие данные:

User-agent – это определенное правило, которое указывает то, каким роботам предназначаются данные инструкции. Простой символ * означает, что данные указания, входящие в файл, применимы для всех известных видов роботов и поисковых систем;
Disallow обозначает правило, которое запрещает индексировать тот или иной фрагмент, документ ресурса. Можно указать как сайт полностью, так и его отдельные фрагменты;
Allow – при помощи данной инструкции можно выставить разрешенные фрагменты для индексации. Нередко используется для разрешения индексации определённой части сервиса;
Host – это директива, которая содержит информацию о зеркале сайта. Стоит помнить о том, что с 2018 года система Яндекс официально от нее отказалась, потому строгой необходимости в ее прописи детальным образом нет. Но для корректной работы сайта важно, чтобы на второстепенных зеркалах стоял редирект пограничного формата 301;
Crawl-delay – при помощи данного правила можно задать скорость обхода ресурса. При помощи его можно задать правило интервала времени от загрузки определенной страницы. Поможет в случае сильной нагрузки на общий сервер, когда робот индексацией может еще больше затормозить работу;
Clean-param – при помощи данного правила можно настроить отсутствие индексации роботом дублирующихся страниц, которые необходимы иногда модераторам и создателям для работы;
при помощи команды Sitemap можно указать роботам путь к УРЛ файлам, допущенным до индексации. В данной команде путь лежит к исходным данным в точке Sitemap.xml. При каждом новом посещении робот будет дополнять свою информацию взятыми данными об УРЛ уже с этого ресурса.

Каким образом заполнять указанные фрагменты придется решать каждому владельцу сайта индивидуально с учетом указанных рекомендаций.

Процесс создания файла Robots.txt

Файл можно легко создать в любом текстовом редакторе, а при сохранении приписать ему имя в формате robots.txt. После чего файл с рабочего стола можно загрузить в корневую папку сайта. Если сайт запущен в формате блога или новостного портала, можно скачать традиционный вариант с ресурса разработчиков, подкорректировав его под конкретные особенности. Проверить документ на работоспособность можно при помощи сервисов для вебмастеров от ведущих поисковых систем Google и Яндекс.