Ускорение индексации сайта с помощью robots.txt

Google crawler

Медленно индексируется сайт в поисковых системах? У меня есть несколько рекомендаций по настройке правил для поисковых роботов robots.txt, которые в свою очередь помогут сохранить квоту краулинга для любых сайтов от блогов и интернет-магазинов до порталов под управлением популярных CMS.

Краулинговый бюджет

Как работает Crawler?

Crawler (веб-паук, краулер) — один из составляющих любой поисковой машины, краулер предназначен для поиска и внесения в собственную базу данных веб-страниц найденных на просторах всемирной паутины.

У каждого краулера есть квота для сайтов, которая ограничивается определенным количеством запросов в сутки для обхода новых и уже существующих страниц. Не каждому веб-мастеру это известно, хотя данная информация давно была предоставлена специалистами из поисковых систем.

Секрет, как я упоминал выше, кроется в том, что необходимо сохранить данную квоту и не тратить ее на переобход ненужных страниц. «Приручить» веб-паука и заставить играть по своим правилам, можно с помощью дополнительных инструкций и запрета индексации динамических параметров.

Снижение количества обращений к сайту от поисковых систем

Почему это важно?

Ускорение индексации сайта в поисковых системах Яндекс и Google, кроется в соблюдении простых правил, таких как:

  • Грамотная настройка правил robots.txt
  • Анализ данных из панели веб-мастера

Поисковая система Яндекс за последний год, существенно улучшила инструментарий для российских веб-мастеров. Используйте данную возможность на полную катушку.

Яндекс.Вебмастер отдает в распоряжение владельцев сайтов, гораздо больше информации, чем в 2010-2012 годах. На основе статистики можно составить целую стратегию по увеличению скорости индексации.

Составление по-настоящему эффективных правил для поисковых машин базируется на запрете обхода ненужного контента, в который входят, такие вещи как: панель администратора, utm-метки, динамические данные и огромное количество других похожих страниц.

Именно в запрете индексации страниц дублей и ненужного контента, кроется скорость индексации, потому как из 5 ежедневных запросов от поисковика, все 5 из них уйдут на просмотр наиболее важных страниц.

При настройке robots.txt, учитывайте рекомендации и правила от поисковых систем. Закройте от индексации: удаленные разделы, динамические параметры навигации (например, www.site.ru/latest?start=8), корзину товаров, поиск по сайту, конфиденциальные данные страницы фильтров и сортировки, а так же другие нежелательные элементы, которые обычно отображаются в панели обхода страниц вашего сайта.

Директива Clean-Param

Динамическая директива Clean-Param является межсекционной, это означает, что ее можно использовать в любой строчке robots.txt и неограниченное число раз. Если на сайте используются динамические параметры страниц, которые никак не влияют на их содержимое, мы можем закрыть такие параметры с помощью данной директивы.

Как использовать Clean-Param?

Для начала с помощью инструментов для веб-мастера необходимо отыскать динамические параметры. Они выглядят примерно так:

Скриншот из панели Яндекс.Вебмастер

Как с помощью robots.txt запретить обход таких параметров? Если необходимо использовать запрет для конкретных директорий, пишем:

Clean-param: start https://site.ru/news

Clean-param: start https://site.ru/articles/featured

Если динамических параметров несколько, воспользуемся амперсандом:

Clean-param: format&type https://site.ru/evakuator-v-kaluge

Если требуется отрезать параметр от всех страниц на сайте, достаточно написать в robots.txt:

Clean-param: start

Это же правило отлично работает для utm-меток:

Clean-param: utm_source&utm_medium&utm_campaign

Таким образом, вы существенно сэкономите бюджет обхода, тем самым, повысите обход наиболее важных и новых страниц на своем сайте. Внедряйте!

Рейтинг
( 1 оценка, среднее 5 из 5 )
Николай Дубков/ автор статьи
Веб-разработчик, специалист по продвижению сайтов в поисковых системах.
Поделиться с друзьями:
Блог Николая Дубкова
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: