Robots що це таке, Robots - це простими словами

Robots.txt являє собою файл текстового типу в кодуванні UTF-8. У ньому міститься основна рекомендація для роботів пошукових систем, що видно з назви. У ньому ж відображаються налаштування індексації сторінок на певному ресурсі. Завдяки їм робот бачить, які сторінки можна індексувати, а які заборонені для проведення такої процедури і чітко виконує вказівки, що застосовуються для налаштувань ресурсу.

Файл традиційно знаходиться в кореневій папці основного сайту і доступний за адресою певного формату. Стандарт затверджений в 1994 році спеціальною комісією. Причому використання файлу даного типу є добровільним як для власників сервісів, так і для роботів пошукових систем.

Основна мета і функції Роботс

До основного завдання даного файлу фахівці відносять контроль за поведінкою роботів пошукових систем на ресурсі. Справа в тому, що після приходу на сайт, робот практично відразу використовує дані, що містяться в зазначеному файлі. Якщо він відсутній, то індексація буде проведена на всіх сторінках сайту. Через таку, здавалося б потрібну процедуру можуть виникнути наступні проблеми:

потрапляння конфіденційних документів і зайвих сторінок сайту в індексацію роботом;
робот не добереться до основного контенту на сайті, оскільки його час знаходження там обмежений, як і ресурси.

Після обробки файлу роботи отримують інструкції для подальших дій, а також списки винятків для індексації. Зазвичай адміністратори вважають за краще приховувати такі розділи сайтів, як:

Панель Адміністратора;
файли системного призначення;
дані кешованого формату;
особисті кабінети користувачів і адміністрації;
форми реєстрації сайту.

Список може поповнюватися і змінюватися в залежності від особистих уподобань власників ресурсів.

Склад файлу Robots txt

У складі файлу Robots присутні традиційно такі дані:

User-agent – це певне правило, яке вказує на те, яким роботам призначаються дані інструкції. Простий символ * означає, що дані вказівки, що входять в файл, застосовні для всіх відомих видів роботів і пошукових систем;
Disallow означає правило, яке забороняє індексувати той чи інший фрагмент, документ ресурсу. Можна вказати як сайт повністю, так і його окремі фрагменти;
Allow – за допомогою даної інструкції можна виставити дозволені фрагменти для індексації. Нерідко використовується для дозволу індексації певної частини сервісу;
Host – це директива, яка містить інформацію про дзеркало сайту. Варто пам’ятати про те, що з 2018 року система Яндекс офіційно від неї відмовилася, тому суворої необхідності в її прописі детальним чином немає. Але для коректної роботи сайту важливо, щоб на другорядних дзеркалах стояв редирект прикордонного формату 301;
Crawl-delay – за допомогою даного правила можна задати швидкість обходу ресурсу. За допомогою його можна задати правило інтервалу часу від завантаження певної сторінки. Допоможе в разі сильного навантаження на загальний сервер, коли робот індексацією може ще більше загальмувати роботу;
Clean-param – за допомогою даного правила можна налаштувати відсутність індексації роботом дублюючих сторінок, які необхідні іноді модераторам і творцям для роботи;
за допомогою команди Sitemap можна вказати роботам шлях до УРЛ файлів, допущених до індексації. У даній команді шлях лежить до вихідних даних в точці Sitemap.xml. При кожному новому відвідуванні робот буде доповнювати свою інформацію взятими даними про УРЛ вже з цього ресурсу.

Яким чином заповнювати зазначені фрагменти доведеться вирішувати кожному власнику сайту індивідуально з урахуванням зазначених рекомендацій.

Процес створення файлу Robots.txt

Файл можна легко створити в будь-якому текстовому редакторі, а при збереженні прописати йому ім’я в форматі robots.txt. Після чого файл з робочого столу можна завантажити в кореневу папку сайту. Якщо сайт запущений в форматі блогу або новинного порталу, можна скачати традиційний варіант з ресурсу розробників, підкоригувавши його під конкретні особливості. Перевірити документ на працездатність можна за допомогою сервісів для вебмайстрів від провідних пошукових систем Google і Яндекс.