Ускорение индексации сайта с помощью robots.txt

Google crawler

Медленно индексируется сайт в поисковых системах? У меня есть несколько рекомендаций по настройке правил для поисковых роботов robots.txt, которые в свою очередь помогут сохранить квоту краулинга для любых сайтов от блогов и интернет-магазинов до порталов под управлением популярных CMS.

Краулинговый бюджет

Как работает Crawler?

Crawler (веб-паук, краулер) — один из составляющих любой поисковой машины, краулер предназначен для поиска и внесения в собственную базу данных веб-страниц найденных на просторах всемирной паутины.

У каждого краулера есть квота для сайтов, которая ограничивается определенным количеством запросов в сутки для обхода новых и уже существующих страниц. Не каждому веб-мастеру это известно, хотя данная информация давно была предоставлена специалистами из поисковых систем.

Секрет, как я упоминал выше, кроется в том, что необходимо сохранить данную квоту и не тратить ее на переобход ненужных страниц. «Приручить» веб-паука и заставить играть по своим правилам, можно с помощью дополнительных инструкций и запрета индексации динамических параметров.

Снижение количества обращений к сайту от поисковых систем

Почему это важно?

Ускорение индексации сайта в поисковых системах Яндекс и Google, кроется в соблюдении простых правил, таких как:

  • Настройка правил robots.txt,
  • Анализ данных из панели Яндекс Вебмастер.

Поисковая система Яндекс за последний год, существенно улучшила инструментарий для российских веб-мастеров. Используйте данную возможность на полную катушку.

Яндекс.Вебмастер отдает в распоряжение владельцев сайтов, гораздо больше информации, чем в 2010-2012 годах. На основе статистики можно составить целую стратегию по увеличению скорости индексации.

Составление по-настоящему эффективных правил для поисковых машин базируется на запрете обхода ненужного контента, в который входят, такие вещи как: панель администратора, UTM-метки, динамические данные и огромное количество других похожих страниц.

Именно в запрете индексации страниц дублей и ненужного контента, кроется скорость индексации, потому как из 5 ежедневных запросов от поисковика, все 5 из них уйдут на просмотр наиболее важных страниц.

При настройке robots.txt, учитывайте рекомендации и правила от поисковых систем. Закройте от индексации: удаленные разделы, динамические параметры навигации (например, www.site.ru/latest?start=8), корзину товаров, поиск по сайту, конфиденциальные данные страницы фильтров и сортировки, а так же другие нежелательные элементы, которые обычно отображаются в панели обхода страниц вашего сайта.

Директива Clean-Param

Директива Clean-Param является межсекционной, это означает, что ее можно использовать в любой строчке robots.txt неограниченное число раз.

Если на сайте используются динамические параметры страниц, которые никак не влияют на их содержимое, мы можем закрыть такие параметры с помощью данной директивы.

Как использовать Clean-Param?

Для начала с помощью инструментов для веб-мастера необходимо отыскать динамические параметры.

Как с помощью robots.txt запретить обход таких параметров? Если необходимо использовать запрет для конкретных директорий, пишем:

Clean-param: start https://site.ru/news
Clean-param: start https://site.ru/articles/featured

Если динамических параметров несколько, воспользуемся амперсандом:

Clean-param: format&type https://site.ru/evakuator-v-kaluge

Если требуется отрезать параметр от всех страниц на сайте, достаточно написать в robots.txt:

Clean-param: start

Это правило отлично работает для UTM-меток:

Clean-param: utm_source&utm_medium&utm_campaign

Таким образом, вы сэкономите краулинговый бюджет и повысите частоту обхода наиболее важных страниц на вашем сайте. Внедряйте!

Аватар пользователя: Николай Дубков
@dubkov
Веб-разработчик, автор сервиса для комплексного анализа сайтов, в прошлом сертифицированный специалист по Яндекс.Директ (2017-2019). Иногда отвечаю на вопросы про SEO на Хабре.
2 комментария
  1. Аватар пользователя: Николай?
    Николай?

    …и после этого предупреждение из Яндекс.Вебмастер уйдет?

    1. Аватар пользователя: Николай Дубков
      Николай Дубков

      Возможно, а какое именно у вас предупреждение?