웹 크롤링 초보자 가이드
게시 됨: 2022-05-02웹사이트 소유자이든 SEO 전문가이든 상관없이 웹사이트 크롤링, 검색 엔진이 웹사이트와 웹 페이지를 크롤링하는 방법, 특정 검색어에 대해 페이지의 순위를 매기는 방법(또는 순위를 지정하지 않기로 결정하는 방법)을 이해하는 것이 중요합니다.
웹사이트 크롤링은 기술적인 과정이며 솔직히 말해서 그 이면의 기술적인 측면을 이해할 필요는 없습니다. 주요 개념과 Google과 같은 검색 엔진의 웹사이트 크롤링을 용이하게 하기 위해 할 수 있는 일만 이해하면 웹사이트를 검색 엔진 친화적으로 만들고, 최고의 SEO 관행을 따르고, 검색 엔진 결과 페이지(SERP)에서 더 높은 순위를 얻는 데 도움이 됩니다.
이 게시물에서는 다음 사항에 대해 논의합니다.
- 웹사이트 크롤링이란
- 다양한 유형의 웹사이트 크롤링
- 2022년 이후 웹사이트 크롤링의 미래 모습
- Google의 웹사이트 크롤링을 용이하게 하는 방법
위에서부터 가져갑시다.
웹 크롤링이란 무엇입니까?

이에 대해 자세히 알아보기 전에 웹 크롤링이 무엇인지 이해하는 것이 중요합니다.
크롤링은 검색 엔진이 인터넷에서 새롭고 업데이트된 콘텐츠를 발견하는 프로세스를 나타냅니다. 검색 엔진은 크롤러(일반적으로 로봇, 봇 또는 스파이더라고도 함)를 전송하여 이를 수행합니다.
이 봇은 인터넷을 "크롤링"하여 SERP에서 색인을 생성할 수 있는 새 페이지가 있는지 확인합니다. 마찬가지로 이러한 봇은 최근에 새 콘텐츠로 업데이트된 페이지도 찾습니다.
"컨텐츠"의 유형은 웹 페이지에서 이미지, 비디오, PDF에 이르기까지 다양할 수 있습니다.
웹 크롤러가 직면한 한계
상상할 수 있듯이 인터넷에서 각 웹 페이지를 가져와서 새로운 콘텐츠를 찾아 크롤링하는 것은 힘든 일입니다. 그것은 인터넷에 있는 웹 페이지의 엄청난 양 때문입니다. 또한 매일 수백만 개의 새로운 페이지가 웹에 나타납니다.
이를 위해서는 많은 계산 자원이 필요하며, 이는 지속 가능성 문제로 이어질 수 있습니다. 이 기사 뒷부분에서 이것이 웹 크롤링의 미래에 의미하는 바, 이 제한이 웹마스터 및 SEO 전문가에게 미치는 잠재적 영향에 대해 자세히 설명합니다.
지금은 이러한 크롤러 또는 스파이더가 효율성을 높여 이 문제를 극복하려고 하는 방법과 이를 활용하여 이점을 얻을 수 있는 방법을 이해해야 합니다.
크롤링 스파이더는 일반적으로 몇 개의 웹 페이지를 가져와 크롤링합니다. 그런 다음 해당 웹 페이지의 링크(내부 링크 및 외부 링크)를 따라 크롤링하고 색인을 생성할 새 URL을 찾습니다. 이는 크롤러가 URL의 거대한 데이터베이스를 보다 효율적으로 구축하는 데 도움이 됩니다.
그렇기 때문에 웹 페이지의 페이지에 대한 링크를 추가하는 것, 특히 문맥적으로 다른 페이지에 대한 내부 링크를 추가하는 것은 권장되는 SEO 관행입니다.
두 가지 유형의 웹 크롤링
Google에 따르면 웹 크롤링에는 두 가지 유형이 있습니다.
- 발견
- 새로 고치다
“크롤링에 관해서는 두 가지 유형의 크롤링이 있습니다. 하나는 귀하의 웹사이트에서 새 페이지를 찾으려는 검색 크롤링입니다. 다른 하나는 우리가 알고 있는 기존 페이지를 업데이트하는 새로 고침 크롤링입니다.” 라고 Google의 John Mueller는 말합니다.
크롤링 유형과 별도로 크롤링 빈도는 웹 사이트 또는 웹 페이지에서 콘텐츠가 업데이트되는 빈도에 따라 달라집니다. 예를 들어 웹사이트 홈페이지가 다른 페이지보다 더 정기적으로 업데이트되는 경우 해당 페이지에서 더 많은 크롤링 활동을 볼 수 있습니다.
그리고 앞서 설명했듯이 크롤링 스파이더는 홈 페이지에서 링크를 찾고 해당 링크가 있는 페이지를 크롤링합니다.
따라서 새로 고침 크롤링(홈페이지에서 새 콘텐츠가 있는지 확인하기 위해)은 새 페이지에 대한 링크가 있는 경우 검색 크롤링으로 이어질 수도 있습니다.
이에 대해 이해해야 할 마지막 사항은 Googlebot이 패턴을 인식하여 그에 따라 새로 고침 크롤링을 조정할 수 있다는 것입니다.

Google의 John Mueller는 다음 예를 통해 이를 설명했습니다.
"예를 들어 뉴스 웹사이트가 있고 매시간 업데이트하는 경우 매시간 크롤링해야 한다는 사실을 알아야 합니다. 반면에 한 달에 한 번 업데이트되는 뉴스 웹사이트라면 매시간 크롤링할 필요가 없다는 것을 알아야 합니다.
그리고 그것은 품질의 표시나 순위의 표시 또는 이와 유사한 것이 아닙니다. 이것은 순전히 기술적인 관점에서 볼 때 하루에 한 번, 일주일에 한 번 크롤링할 수 있다는 것을 배웠습니다. 괜찮습니다.”
Google은 크롤링 리소스를 절약하기 위해 이 작업을 수행합니다. 앞서 언급했듯이 크롤링은 힘든 작업이며 매일 많은 계산 리소스가 필요할 수 있습니다. 특히 인터넷이 계속 성장함에 따라 지속 가능하지 않습니다.
이것은 우리의 다음 요점으로 이어집니다.
2022년 이후 웹 크롤링의 미래
Search Off Records 팟캐스트의 최근 에피소드에서 Google의 검색 관계 팀은 Google이 계산 리소스를 절약하고 지속 가능성을 촉진하기 위해 웹 크롤링 속도를 줄일 수 있다고 암시했습니다.
“일반적으로 컴퓨팅은 실제로 지속 가능하지 않습니다. 우리는 2007년 이후로 탄소가 없었습니다. 그리고 크롤링은 초기에 덜 매달린 과일을 잘라낼 수 있었던 것 중 하나입니다.” 라고 Google의 Gary Illyes가 말했습니다.
그는 Google이 새로 고침 크롤링 빈도를 줄여 이러한 지속 가능성 목표를 달성할 수 있는 방법을 자세히 설명했습니다.
“우리가 하는 한 가지는 크롤링 새로 고침입니다. 즉, 문서, URL을 발견하면 이동하여 크롤링하고 결국에는 해당 URL로 돌아가 다시 방문하게 됩니다. 새로 고침 크롤링입니다.
그런 다음 하나의 URL로 돌아갈 때마다 항상 새로 고침 크롤링이 됩니다. 이제 얼마나 자주 해당 URL로 돌아가야 합니까?”
감소된 크롤링 속도는 웹사이트 소유자와 SEO에게 무엇을 의미합니까?

새로 고침 크롤링에 대한 감소된 크롤링 속도는 업데이트된 웹 페이지에 대한 인덱싱 및 순위 업데이트를 느리게 할 수 있습니다. 그러나 이것이 반드시 더 낮은 검색 엔진 순위를 의미하는 것은 아닙니다.
Gary Illyes는 팟캐스트에서 "페이지가 더 많이 크롤링되면 순위가 높아진다"고 생각하는 것은 "오해"라고 확인했습니다.
웹사이트에서 크롤링을 개선하는 방법에 대한 7가지 팁
이제 웹 크롤링이 무엇이며 웹 크롤링의 미래가 무엇인지 알았으므로 웹사이트에서 크롤링을 개선하는 데 사용할 수 있는 몇 가지 팁을 간단히 살펴보겠습니다.
- 콘텐츠를 자주 업데이트하십시오. 웹사이트 전체에 다른 콘텐츠 업데이트 없이 일주일에 하나의 게시물을 게시하는 경우 Google은 앞에서 배운 대로 패턴을 인식하고 웹사이트의 새로 고침 크롤링 속도를 늦춥니다.
- 웹사이트가 업데이트되면 Google Search Console에서 색인을 다시 생성할 URL을 제출하여 Google을 업데이트하세요.
- 정기적으로 크롤링되는 웹 사이트와 사이트에서 정기적으로 크롤링되는 웹 페이지에서 문맥상 관련성이 높은 링크를 구축하십시오.
- 시간과 노력을 들여 웹사이트의 로딩 속도를 향상시키십시오. 웹사이트가 로드하기에 너무 느린 경우 웹사이트 크롤러가 사이트를 포기할 수 있습니다.
- Google의 웹 크롤링에 도움이 되도록 사이트맵을 추가하고 최신 상태로 유지하세요. 여기에서 웹사이트의 사이트맵을 확인하세요.
- 웹사이트에서 분리된 페이지의 수를 줄이십시오. 고아 페이지는 해당 페이지를 가리키는 링크가 없는 페이지입니다.
- 리디렉션 체인 줄이기
웹 크롤링에 대한 이 초보자 가이드가 유용했기를 바랍니다. 질문이나 의견이 있으면 아래 의견 섹션에 알려주십시오.
