Руководство для начинающих по веб-сканированию

Опубликовано: 2022-05-02

Независимо от того, являетесь ли вы владельцем веб-сайта или специалистом по поисковой оптимизации, важно понимать сканирование веб-сайтов, то, как поисковые системы сканируют веб-сайты и веб-страницы и как они ранжируют (или решают не ранжировать) страницу по определенному поисковому запросу.

Сканирование веб-сайта — это технический процесс, и, честно говоря, вам не нужно разбираться в его технических аспектах. Только понимание основной концепции и того, что вы можете сделать, чтобы облегчить сканирование веб-сайта для поисковых систем, таких как Google, может помочь вам сделать ваш веб-сайт более удобным для поисковых систем, следовать передовым методам SEO и занимать более высокие позиции на страницах результатов поисковых систем (SERP).

В этом посте мы обсудим:

Что такое сканирование сайта
Различные типы сканирования веб-сайтов
Как выглядит будущее сканирования веб-сайтов в 2022 году и далее
Как вы можете упростить сканирование веб-сайтов для Google

Возьмем сверху.

Что такое веб-сканирование?

Прежде чем мы углубимся в это, важно понять, что такое веб-сканирование.

Сканирование — это процесс, с помощью которого поисковые системы обнаруживают новый и обновленный контент в Интернете. Поисковые системы делают это, отправляя сканеры (также известные как роботы, боты или пауки).

Эти боты «сканируют» Интернет, чтобы увидеть, есть ли новая страница, которую они могут проиндексировать в поисковой выдаче. Точно так же эти боты также ищут страницы, которые недавно были обновлены новым контентом.

Тип «контента» может быть разным — от веб-страниц до изображений, видео и PDF-файлов.

Ограничения, с которыми сталкиваются поисковые роботы

Как вы понимаете, найти каждую веб-страницу в Интернете и просканировать ее в поисках нового контента — непростая задача. Это так из-за огромного объема веб-страниц в Интернете. Кроме того, в сети ежедневно появляются миллионы и миллионы новых страниц.

Это требует много вычислительных ресурсов, что может привести к проблемам устойчивости. Мы поговорим об этом подробнее позже в этой статье, о том, что это означает для будущего веб-сканирования, и о потенциальном влиянии этого ограничения на веб-мастеров и специалистов по поисковой оптимизации.

На данный момент вы должны понять, как эти сканеры или пауки пытаются решить эту проблему, становясь более эффективными, и как вы можете использовать это в своих интересах.

Ползающие пауки обычно выбирают несколько веб-страниц и сканируют их. Затем они переходят по ссылкам (внутренним и внешним) на этих веб-страницах, чтобы найти новые URL-адреса для сканирования и индексации. Это помогает поисковым роботам более эффективно создавать гигантскую базу данных URL-адресов.

И именно поэтому добавление ссылок на страницы на ваших веб-страницах, особенно контекстуально релевантных внутренних ссылок на другие страницы, является рекомендуемой практикой SEO.

Два типа веб-сканирования

По данным Google, существует два типа веб-сканирования:

Открытие
Обновить

«Когда дело доходит до сканирования, у нас есть два типа сканирования. Одним из них является поисковое сканирование, при котором мы пытаемся обнаружить новые страницы на вашем веб-сайте. А второй — сканирование с обновлением, когда мы обновляем существующие страницы, о которых нам известно», — говорит Джон Мюллер из Google.

Частота сканирования — помимо типа сканирования — также зависит от того, как часто обновляется контент на вашем веб-сайте или веб-странице. Например, если домашняя страница вашего веб-сайта обновляется чаще, чем другие страницы, вы, вероятно, увидите больше активности сканирования на этой странице.

И, как мы объясняли ранее, поисковые роботы также найдут ссылки на домашней странице и просканируют страницы, которые они найдут с этими ссылками.

Таким образом, сканирование с обновлением (для домашней страницы, чтобы проверить, есть ли какой-либо новый контент) также может привести к обходу для обнаружения, если там будет найдена ссылка на новую страницу.

И последнее, что нужно понять, это то, что Googlebot способен распознавать шаблоны, чтобы соответствующим образом корректировать сканирование обновления.

Джон Мюллер из Google объяснил это следующим примером:

«Например, если у вас есть новостной веб-сайт, и вы обновляете его ежечасно, то мы должны понять, что нам нужно сканировать его каждый час. Если же это новостной веб-сайт, который обновляется раз в месяц, то нам следует понять, что нам не нужно сканировать его каждый час.

И это не признак качества, или признак ранжирования, или что-то в этом роде. На самом деле, чисто с технической точки зрения мы узнали, что можем сканировать это раз в день, раз в неделю, и это нормально».

Google делает это для экономии ресурсов сканирования. Как мы упоминали ранее, сканирование — это тяжелая работа, которая может отнимать много вычислительных ресурсов изо дня в день. Это не очень устойчиво, тем более, что Интернет продолжает расти.

Это приводит к нашему следующему пункту.

Будущее веб-сканирования в 2022 году и далее

В недавнем выпуске подкаста Search Off the Records команда Google Search Relations намекнула, что Google может снизить скорость сканирования веб-страниц, чтобы сэкономить вычислительные ресурсы и обеспечить устойчивость.

«Вычисления в целом не очень устойчивы. Мы стали безуглеродными, я даже не знаю, с 2007 года или около того, но это не значит, что мы не можем еще больше уменьшить наше воздействие на окружающую среду. А ползание — это одна из тех вещей, которые на раннем этапе позволяют нам отрезать некоторые низко висящие плоды», — сказал Гэри Иллиес из Google.

Далее он рассказал, как Google может достичь этой цели устойчивого развития, уменьшив частоту обновления страницы.

«Одна вещь, которую мы делаем, и, возможно, нам не нужно делать так много, — это сканирование с обновлением. Это означает, что как только мы обнаруживаем документ, URL-адрес, мы идем, сканируем его, а затем, в конце концов, собираемся вернуться и снова посетить этот URL-адрес. Это сканирование с обновлением.

И затем каждый раз, когда мы возвращаемся к этому одному URL-адресу, это всегда будет сканирование с обновлением. Теперь, как часто нам нужно возвращаться к этому URL?»

Что означает снижение скорости сканирования для владельцев веб-сайтов и SEO-специалистов?

Уменьшение скорости сканирования для обновлений, вероятно, замедлит обновление индексации и ранжирования обновленных веб-страниц. Однако это не обязательно означает более низкий рейтинг в поисковых системах.

Гэри Иллиес подтвердил во время подкаста, что «было бы заблуждением» думать, что «чем больше сканируется страница, тем выше ее рейтинг».

7 советов, как улучшить сканирование вашего сайта

Теперь, когда вы знаете, что такое веб-сканирование и какое будущее у него может быть, давайте кратко рассмотрим несколько советов, которые вы можете использовать для улучшения сканирования вашего веб-сайта.

Чаще обновляйте свой контент. Если вы публикуете один пост в неделю — без других обновлений контента на вашем веб-сайте — Google распознает закономерность и замедлит сканирование обновлений для вашего веб-сайта, как мы узнали ранее.
Обновите Google после обновления вашего веб-сайта, отправив URL-адрес для переиндексации в Google Search Console.
Создавайте больше контекстно релевантных ссылок с регулярно просматриваемых веб-сайтов, а также регулярно просматриваемых веб-страниц на вашем сайте.
Потратьте время и усилия, чтобы улучшить скорость загрузки вашего сайта. Если веб-сайт загружается слишком медленно, поисковые роботы могут покинуть его.
Добавьте карту сайта и обновляйте ее, чтобы помочь Google в сканировании веб-страниц. Проверьте карту сайта вашего сайта здесь.
Сократите количество потерянных страниц на вашем сайте. Страницы-сироты — это те страницы, на которые нет ссылок, указывающих на них.
Сокращение цепочек редиректов

Мы надеемся, что это руководство для начинающих по веб-сканированию оказалось полезным для вас. Если у вас есть какие-либо вопросы или комментарии, сообщите нам об этом в разделе комментариев ниже.