Медленно индексируется сайт в поисковых системах? У меня есть несколько рекомендаций по настройке правил для поисковых роботов robots.txt, которые в свою очередь помогут сохранить квоту краулинга для любых сайтов от блогов и интернет-магазинов до порталов под управлением популярных CMS.
Краулинговый бюджет
Как работает Crawler?
Crawler (веб-паук, краулер) — один из составляющих любой поисковой машины, краулер предназначен для поиска и внесения в собственную базу данных веб-страниц найденных на просторах всемирной паутины.
У каждого краулера есть квота для сайтов, которая ограничивается определенным количеством запросов в сутки для обхода новых и уже существующих страниц. Не каждому веб-мастеру это известно, хотя данная информация давно была предоставлена специалистами из поисковых систем.
Секрет, как я упоминал выше, кроется в том, что необходимо сохранить данную квоту и не тратить ее на переобход ненужных страниц. «Приручить» веб-паука и заставить играть по своим правилам, можно с помощью дополнительных инструкций и запрета индексации динамических параметров.
Снижение количества обращений к сайту от поисковых систем
Почему это важно?
Ускорение индексации сайта в поисковых системах Яндекс и Google, кроется в соблюдении простых правил, таких как:
- Настройка правил robots.txt,
- Анализ данных из панели Яндекс Вебмастер.
Поисковая система Яндекс за последний год, существенно улучшила инструментарий для российских веб-мастеров. Используйте данную возможность на полную катушку.
Яндекс.Вебмастер отдает в распоряжение владельцев сайтов, гораздо больше информации, чем в 2010-2012 годах. На основе статистики можно составить целую стратегию по увеличению скорости индексации.
Составление по-настоящему эффективных правил для поисковых машин базируется на запрете обхода ненужного контента, в который входят, такие вещи как: панель администратора, UTM-метки, динамические данные и огромное количество других похожих страниц.
Именно в запрете индексации страниц дублей и ненужного контента, кроется скорость индексации, потому как из 5 ежедневных запросов от поисковика, все 5 из них уйдут на просмотр наиболее важных страниц.
При настройке robots.txt, учитывайте рекомендации и правила от поисковых систем. Закройте от индексации: удаленные разделы, динамические параметры навигации (например, www.site.ru/latest?start=8), корзину товаров, поиск по сайту, конфиденциальные данные страницы фильтров и сортировки, а так же другие нежелательные элементы, которые обычно отображаются в панели обхода страниц вашего сайта.
Директива Clean-Param
Директива Clean-Param является межсекционной, это означает, что ее можно использовать в любой строчке robots.txt неограниченное число раз.
Если на сайте используются динамические параметры страниц, которые никак не влияют на их содержимое, мы можем закрыть такие параметры с помощью данной директивы.
Как использовать Clean-Param?
Для начала с помощью инструментов для веб-мастера необходимо отыскать динамические параметры.
Как с помощью robots.txt запретить обход таких параметров? Если необходимо использовать запрет для конкретных директорий, пишем:
Clean-param: start https://site.ru/news
Clean-param: start https://site.ru/articles/featured
Если динамических параметров несколько, воспользуемся амперсандом:
Clean-param: format&type https://site.ru/evakuator-v-kaluge
Если требуется отрезать параметр от всех страниц на сайте, достаточно написать в robots.txt:
Clean-param: start
Это правило отлично работает для UTM-меток:
Clean-param: utm_source&utm_medium&utm_campaign
Таким образом, вы сэкономите краулинговый бюджет и повысите частоту обхода наиболее важных страниц на вашем сайте. Внедряйте!
…и после этого предупреждение из Яндекс.Вебмастер уйдет?
Возможно, а какое именно у вас предупреждение?