Robots

    robots

    Robots.txt представляет собой файл текстового типа в кодировке UTF-8. В нем содержится основная рекомендация для роботов поисковых систем, что видно в названии. В нем же отображаются настройки индексации страниц на определенном ресурсе. Благодаря им робот видит, какие страницы можно индексировать, а какие запрещены для проведения такой процедуры и чётко следует указаниям, применяемым для настроек ресурса.

    Файл традиционно находится в корневой папке основного сайта и доступен по адресу определенного формата. Стандарт утвержден в 1994 году специальной комиссией. Причем использование файла данного типа является добровольным как для владельцев сервисов, так и для роботов поисковых систем.

    Основная цель и функции Роботс

    К основной задаче данного файла специалисты относят контроль за поведением роботов поисковых систем на ресурсе. Дело в том, что после прихода на сайт робот практически сразу использует данные, содержащиеся в указанном файле. Если он отсутствует, то индексация будет произведен на всех страницах сайта. Из-за такой, казалось бы нужной процедуры могут возникнуть следующие проблемы:

    • попадание конфиденциальных документов и лишних страниц сайта в индексацию роботом;
    • робот не доберется до основного контента на сайте, поскольку его время нахождения там ограничено, как и ресурсы.

    После обработки файла роботы получают инструкции для дальнейших действий, а также списке исключений для индексации. Обычно администраторы предпочитают скрывать такие разделы сайтов, как:

    • панель администратора;
    • файлы системного назначения;
    • данные кэшированного формата;
    • личные кабинеты пользователей и администрации;
    • формы регистрации сайта.

    Список может пополняться и изменяться в зависимости от личных предпочтений владельцев ресурсов.

    Состав файла Robots txt

    В составе файла Robots присутствуют традиционно следующие данные:

    • User-agent – это определенное правило, которое указывает то, каким роботам предназначаются данные инструкции. Простой символ * означает, что данные указания, входящие в файл, применимы для всех известных видов роботов и поисковых систем;
    • Disallow обозначает правило, которое запрещает индексировать тот или иной фрагмент, документ ресурса. Можно указать как сайт полностью, так и его отдельные фрагменты;
    • Allow – при помощи данной инструкции можно выставить разрешенные фрагменты для индексации. Нередко используется для разрешения индексации определённой части сервиса;
    • Host – это директива, которая содержит информацию о зеркале сайта. Стоит помнить о том, что с 2018 года система Яндекс официально от нее отказалась, потому строгой необходимости в ее прописи детальным образом нет. Но для корректной работы сайта важно, чтобы на второстепенных зеркалах стоял редирект пограничного формата 301;
    • Crawl-delay – при помощи данного правила можно задать скорость обхода ресурса. При помощи его можно задать правило интервала времени от загрузки определенной страницы. Поможет в случае сильной нагрузки на общий сервер, когда робот индексацией может еще больше затормозить работу;
    • Clean-param – при помощи данного правила можно настроить отсутствие индексации роботом дублирующихся страниц, которые необходимы иногда модераторам и создателям для работы;
    • при помощи команды Sitemap можно указать роботам путь к УРЛ файлам, допущенным до индексации. В данной команде путь лежит к исходным данным в точке Sitemap.xml. При каждом новом посещении робот будет дополнять свою информацию взятыми данными об УРЛ уже с этого ресурса.

    Каким образом заполнять указанные фрагменты придется решать каждому владельцу сайта индивидуально с учетом указанных рекомендаций.

    Процесс создания файла Robots.txt

    Файл можно легко создать в любом текстовом редакторе, а при сохранении приписать ему имя в формате robots.txt. После чего файл с рабочего стола можно загрузить в корневую папку сайта. Если сайт запущен в формате блога или новостного портала, можно скачать традиционный вариант с ресурса разработчиков, подкорректировав его под конкретные особенности. Проверить документ на работоспособность можно при помощи сервисов для вебмастеров от ведущих поисковых систем Google и Яндекс.

    Поделится:
    14.12.2019
    101

    Смотрите свежие кейсы:

    SEO кейсы от НАС!

    Последние посты: