Создание и раскрутка сайта: robots.txt
Какой robots.txt считается качественным и каково значение этого файла для сайта? Профессиональные SEO-специалисты дают ответ на этот вопрос – значение правильности составления по пятибалльной шкале равняется пяти баллам.
Это важно, ведь, если robots.txt сделан неверно и не учитывает малейших нюансов конкретного ресурса, это нанесёт вред процессу индексации сайта поисковиками. Пропустите одну директиву и поисковики «вывалят» в своих индексах закрытую информацию, не предназначенную для постороннего взгляда или наоборот или закроет все станицы полностью и сайт перестанет ранжироваться. Один случай произошел в 2011-ом, когда случилась утечка базы SMS-пользователей мобильного оператора «Мегафон». Если же в программу robots.txt «вклинится» единственная ненужная или неправильно прописанная директива, сайт или отдельная часть исчезнут из индексов поисковиков. А это означает потерю поискового трафика.
Предлагаем правила для составления robots.txt
- Что значит robots.txt? Для чего он требуется на сайте?
Как объясняет справка в Яндексе, это файл текстового типа повышенного значения при создании и раскрутке сайта. В нем содержатся различные параметры, необходимые для индексирования сайта роботами поисковиков. Когда роботы поисковых систем начинают сессию, первым делом они загружают этот файл. Если он представлен не в виде текстового документа(.txt), или же в ответ на запросы роботы получают HTTP-статус, не совпадающий с 200 OK, роботы понимают под этим, что доступность страниц сайта отсутствует. Иначе объясняется назначение этого файла в качестве набора директив и зависит от HTTP-статуса. Эти команды расшифровываются роботами, которые исследуют сайт, как сигналы. Получая команду проиндексировать страницу, они это делают. Если установлен сигнал "не выполнять индексацию" – не станут. Интересно, что при огромном значении файлов этого типа в русскоязычном интернете, верно подготовленного robots.txt, практически нет.
- Что такое директивы robots.txt и как они включаются?
Чтобы ввести директивы, наберите команду: Директива><двоеточие><пробел><ввести имя документа, к которому прикрепляется директива>
User-agent – означает, какому из роботов предназначен перечень команд, идущих под этими словами. Обязательная директива, размещенная в начале файлов:
- обозначение User-agent для поисковика Яндекс - Yandex, указывает директивы или команды для перечня роботов этой системы;
- директивы или команды для поисковика Google – Googlebot, устанавливается в качестве User-agent и направлен на перечень роботов этого поисковика;
- в случае, когда требуется указать инструкции всем типам User-agent, указывается знак «*».
Disallow - директива, запрещающая индексирование, с такой директивой раскрутка сайтов в указанном разделе приостанавливается. В ней обозначаются либо каталоги, либо отдельные части в наименованиях документов.
Если же вводится запрет на индексирование, то определение пути ведется с корня сайта. Чтобы запретить индексировать документы, относящиеся ко второму и другим уровням, укажите полный путь. Второй способ – вставить «*» перед адресом самого документа. Если вводится запрещение индексации каталога, то это относится к включенным в него страницам. Возможно введение запрета индексировать страницы, которые в своем url располагают конкретными символы.
Allow - директива, которая разрешает индексировать страницы, в этом случае раскрутка сайтов в указанных разделах осуществляется. Это команда относится к числу тех, что используются по умолчанию в отношении любой страницы на сайте, если для этой страницы не предусмотрено других указаний. Эту директиву используют, чтобы разрешить индексировать документы (обозначение стрелками синего цвета), местонахождение которых в каталогах, закрытых для индексации (обозначается стрелками красного цвета).
Предусмотрена опция, чтобы открыть индексацию страниц содержащих в адресе(url) некие символы – они проходят под стрелками синего оттенка.
Важно учитывать, что директивы Disallow-Allow применяются следуя определенным правилам. Так, сортировка директив Allow и Disallow, относящихся к соответствующему User-agent блоку производится в зависимости от длины префиксов URL, по принципу: от того, что короче, к тому, что длиннее. Применение директив идет последовательно.
Sitemap - директива, указывающая путь.
Crawl-delay - директива, которая обозначает минимальный временной промежуток, проходящий между загрузками страниц. Распознают ее лишь роботы системы Яндекс. Задача этой команды – защитить сайт от перегрузок роботами поисковиков. Чтобы ввести подобное ограничение по времени, Google применяет функцию «Настройка сайта», которая находится в Google Search Console и напрямую на раскрутку и создание сайтов не влияет.
Clean-param - директива, применяемая, чтобы удалять параметр, находящиеся в url-адресах сайтов. Применяется для Яндекса. Ее применение возможно для того, чтобы удалять метки, которые используются в отслеживании, а также чтобы ликвидировать фильтры, идентификаторы сессии и иные характеристики. Чтобы роботы обрабатывали метки правильно, Google применят функцию «Параметры URL» (через Google Search Console).
Как применяется Google Search Console (GSC)
Определенный набор функций, возможных для поисковика Яндекс, обозначается в robots.txt. Роботы Google получают информацию через Google Search Console. Для обозначения главного зеркала Google требует подтверждения обоих зеркал - www.site.ru и site.ru в системе GSC. Чтобы это сделать, проследуйте в раздел "настройки сайта" (под знаком в виде шестеренки). Затем следует ссылка «Настройка сайта», где присутствует блок «Основного домена»: здесь выбирается главное зеркало, внесенные изменения сохраняются. Для ограничения скорости, с которой роботы Google сканируют сайты, требуется подтверждение сайта в системе GSC. Чтобы выполнить это действие, нужно в настройках сайта, обозначаемых значком «шестеренка», найти ссылку настройки сайта. И там уже, найдя блок «Частоты сканирования», обнаружить в нем плашку «Ограничить максимальную скорость сканирования Google». Теперь выбрать нужный параметр и выполнить сохранение. Зафиксировать показатели обработки Google в пределах url-адресов можно с помощью подтверждения сайта GSC. Для этого заходят в «Сканирование», там идут в пункт «Параметры URL», после чего нажимается кнопка добавления параметра. Данные вносятся в нужные строки.
Для поля «Параметр» нужно добавить именно параметр: это поле чувствительное к регистру. Для поля «Изменяет ли этот параметр содержание страницы, которое видит пользователь?» профессионалы советуют брать ответ «Да, параметр изменяет, реорганизует или ограничивает содержимое страницы», причем неважно, какое по-настоящему значение у параметра. Такая рекомендация связана с тем, что, если выбрать «Нет, параметр не влияет на содержимое страницы» (например, чтобы отслеживать применение), то возможно попадание одной и той же страницы в индекс. Для поля «Как этот параметр влияет на содержимое страницы?» стоит остановиться на любом из предлагаемых ответов: эти характеристики влияют на отображение параметра в перечне иных, входящих GSC.
Блок «Какие URL, содержащие этот параметр, сканирует робот Googlebot?» делайте выбор, ориентируясь на сам выбранный параметр. В случае выбора меток, используемых в отслеживании, оптимальный вариант - выбрать строчки «Никакие URL». В ситуации использования GET параметров для продвижения страницы рекомендуется нажать «Каждый URL».
Как составить robots.txt
После того, как проведено изучение основных директив, необходимых для действий с robots.txt, можно переходить к формированию этого файла. Первое – специалисты не советуют выбирать и наугад пользоваться шаблонными файлами: это не позволит учесть все необходимые нюансы, чтобы сделать работу сайта наиболее эффективной.
1. Сначала в robots.txt выполняется добавление трех User-Agent, одна команда от другой отделяется при помощи пустой строки:
- User-agent: Yandex
- User-agent: Googlebot
- User-agent: *
Добавление третьего User-Agent необходимо для того, чтобы роботы каждого поисковика получали различные списки команд.
2. Каждый из User-agent требует добавления команд, запрещающих выполнять индексацию наиболее часто встречающихся документальных форматов:
- Disallow: *.pdf
- Disallow: *.xls
- Disallow: *.doc
- Disallow: *.ppt
- Disallow: *.txt
Закрывать от индексирования поисковиками необходимо, чтобы не допустить перетягивания ими релевантности на себя, в результате чего они оказываются в выдаче взамен страниц, которые нужны для создания и раскрутки сайта.
3. Если на сайтах отсутствуют документы в определённом формате, профессионалы советуют не удалять эти строки, отложите возможности использования.
4. Даже при отсутствии в данное время на сайте картинок в названных форматах, не стоит удалять такие директивы.
5. User-agent’у в системе Яндекс добавление директив – команд по удалению меток отслеживания, необходимо выполнять с целью не допустить появления дублирующих страничек в поисковиках, что может повлиять на создание и раскрутку сайта.
Clean-param: utm_source&utm_medium&utm_term&utm_content&utm_campaign&yclid&gclid&_openstat&from /
6. Закрытие таких же характеристик выполняется и в GSC, для чего выбирается «Параметры URL».
Важный момент! В случае, если будут выбраны метки, закрывающие возможность делать индексацию для роботов Google с использованием запрещающих команд, то возможно, в дальнейшем реклама в Google Adwords не сможет быть запущенной на этих страницах.
7. В User-agent’е «*» применяется команда, запрещающая стандартный тип закрытия меток:
Disallow: *utmDisallow: *clid=Disallow: *openstatDisallow: *from
8. Следом нужно выполнить закрытие возможности индексирования документов служебного назначения, а также те документы, которые не обладают значимостью для поисковика, плюс все дублирующие страницы. Копирование запрещающих команд нужно делать каждому User-agent’у. Вот примеры, где могут располагаться подобные документы:
- в частях сайта, предназначенных для администрирования;
- в частях, которые являются пользовательскими, персонального плана;
- относящиеся к корзинам и этапам оформления;
- в области фильтров и сортировок.
9. В качестве завершающей команды для User-agent’а Yandex выступает указание на главное зеркало Host: site.ru
10. Завершающая директива, которая вводится после того, как введены остальные команды, обозначает после пропуска пустой строки команды xml-карт сайтов, в случае, когда они применяются для сайта. Sitemap: http://site.ru/sitemap.xml. Когда все действия выполнены, получается файл robots.txt.
Он может применяться на сайте
1. Самые частые недочеты.
Сформировать верно robots.txt не так трудно, как выполнять некоторые иные действия, однако пользователи нередко допускают неточности. Стоит знать о них, чтобы избежать неэффективной работы сайта.
1.1. Когда сайт полностью скрывается от индексирования. User-agent: *Disallow: / Эта неточность ведет к тому, что все страницы сайта исключаются из поиска во всех системах, а поисковый трафик теряется целиком и не о каком создании и раскрутке сайта не может быть речи.
1.2. Когда сайт не закрывается от индексации меток отслеживания. Следствием такой ошибки может стать то, что появится множество дублирующих страниц – это неблагоприятно отражается на процессе продвижения ресурсов.
1.3. Когда происходит неверное формирование команды для поисковика по зеркалу. User-agent: *Host: site.ru # Верный вариант - sub.site.ru
Стандартно Яндекс пропускает команду. Но если судбомены разные, работающие на различные регионы, возникает высокий риск «склеивания» зеркал.
Итог
Современные интернет-технологии предлагают варианты, чтобы обеспечить управление индексацией сайтов. Однако опыт показывать, что правильно составленный robots.txt дает возможности эффективного продвижения и адекватной защиты от появления ошибок. Информация, на наш взгляд о главных правилах формирования директив, которую мы представили в этом материале, окажется для вас полезной. И ваша работа по продвижению ресурса в поисковых системах повысит продуктивность.