사이트의 크롤링 및 색인 생성 가능성을 높이는 10단계

게시 됨: 2022-11-04

키워드와 콘텐츠는 대부분의 검색 엔진 최적화 전략이 구축되는 두 기둥일 수 있지만 중요한 유일한 것은 아닙니다.

덜 일반적으로 논의되지만 사용자뿐만 아니라 검색 봇에게도 똑같이 중요한 것은 웹사이트의 검색 가능성입니다.

인터넷에는 19억 3천만 개의 웹사이트에 약 500억 개의 웹페이지가 있습니다. 이것은 인간 팀이 탐색하기에는 너무 많기 때문에 스파이더라고도 하는 이 봇이 중요한 역할을 수행합니다.

이러한 봇은 웹사이트에서 웹사이트로, 페이지에서 페이지로의 링크를 따라 각 페이지의 콘텐츠를 결정합니다. 이 정보는 URL의 방대한 데이터베이스 또는 색인으로 컴파일된 다음 순위를 매기기 위해 검색 엔진의 알고리즘을 통과합니다.

사이트를 탐색하고 이해하는 이 2단계 프로세스를 크롤링 및 인덱싱이라고 합니다.

SEO 전문가로서 의심할 여지 없이 이전에 이러한 용어를 들어보았을 것입니다. 하지만 명확성을 위해 정의해 보겠습니다.

  • 크롤링 가능성 은 이러한 검색 엔진 봇이 웹페이지를 얼마나 잘 스캔하고 색인을 생성할 수 있는지를 나타냅니다.
  • 색인 생성 가능성은 웹페이지를 분석하고 색인에 추가하는 검색 엔진의 능력을 측정합니다.

상상할 수 있듯이, 이 두 가지는 모두 SEO의 필수 부분입니다.

사이트의 크롤링 능력이 좋지 않은 경우(예: 링크가 끊어지고 막다른 골목이 많은 경우) 검색 엔진 크롤러가 모든 콘텐츠에 액세스할 수 없어 색인에서 제외됩니다.

반면에 인덱싱되지 않은 페이지는 검색 결과에 나타나지 않기 때문에 인덱싱 가능성은 매우 중요합니다. Google은 데이터베이스에 포함되지 않은 페이지의 순위를 어떻게 매길 수 있습니까?

크롤링 및 인덱싱 프로세스는 여기에서 논의한 것보다 약간 더 복잡하지만 이것이 기본적인 개요입니다.

작동 방식에 대한 보다 심층적인 토론을 찾고 있다면 Dave Davies가 크롤링 및 인덱싱에 대한 훌륭한 자료를 제공합니다.

크롤링 및 인덱싱을 개선하는 방법

이제 이 두 프로세스가 얼마나 중요한지 살펴보았으므로 크롤링 및 인덱싱에 영향을 미치는 웹사이트의 일부 요소를 살펴보고 이를 위해 사이트를 최적화하는 방법에 대해 논의해 보겠습니다.

1. 페이지 로딩 속도 향상

수십억 개의 웹 페이지를 카탈로그로 만들기 때문에 웹 스파이더는 링크가 로드되기를 하루 종일 기다릴 필요가 없습니다. 이를 크롤링 예산이라고도 합니다.

사이트가 지정된 시간 내에 로드되지 않으면 사이트를 떠나게 되어 크롤링되지 않고 색인이 생성되지 않은 상태로 유지됩니다. 그리고 당신이 상상할 수 있듯이 이것은 SEO 목적에 좋지 않습니다.

따라서 페이지 속도를 정기적으로 평가하고 가능한 한 개선하는 것이 좋습니다.

Google Search Console 또는 Screaming Frog와 같은 도구를 사용하여 웹사이트의 속도를 확인할 수 있습니다.

사이트가 느리게 실행되는 경우 문제를 완화하기 위한 조치를 취하십시오. 여기에는 서버 또는 호스팅 플랫폼 업그레이드, 압축 활성화, CSS, JavaScript 및 HTML 축소, 리디렉션 제거 또는 감소가 포함될 수 있습니다.

핵심 성능 보고서를 확인하여 로드 시간을 늦추는 요인을 파악하십시오. 특히 사용자 중심의 관점에서 목표에 대한 보다 세련된 정보를 원하는 경우 Google Lighthouse가 매우 유용할 수 있는 오픈 소스 도구입니다.

2. 내부 링크 구조 강화

좋은 사이트 구조와 내부 연결은 성공적인 SEO 전략의 기본 요소입니다. 정리되지 않은 웹사이트는 검색 엔진이 크롤링하기 어렵기 때문에 내부 링크를 웹사이트가 할 수 있는 가장 중요한 일 중 하나로 만듭니다.

그러나 우리의 말을 그대로 받아들이지 마십시오. 다음은 Google의 검색 옹호자 John Mueller가 이에 대해 말한 내용입니다.

“내부 연결은 SEO에 매우 중요합니다. 웹사이트에서 Google을 안내하고 방문자를 중요하다고 생각하는 페이지로 안내하는 것이 웹사이트에서 할 수 있는 가장 큰 일 중 하나라고 생각합니다.”

내부 연결이 좋지 않으면 웹사이트의 다른 부분으로 연결되지 않는 페이지나 고아 페이지의 위험이 있습니다. 이 페이지로 연결되는 것이 없기 때문에 검색 엔진이 해당 페이지를 찾을 수 있는 유일한 방법은 사이트맵을 이용하는 것입니다.

이 문제와 잘못된 구조로 인한 다른 문제를 제거하려면 사이트에 대한 논리적 내부 구조를 만드십시오.

홈페이지는 피라미드 아래 페이지에서 지원하는 하위 페이지로 연결되어야 합니다. 그런 다음 이러한 하위 페이지에는 자연스럽게 느껴지는 컨텍스트 링크가 있어야 합니다.

주시해야 할 또 다른 사항은 URL에 오타가 있는 링크를 포함하여 끊어진 링크입니다. 물론 이것은 끊어진 링크로 이어지며 두려운 404 오류로 이어질 것입니다. 즉, 페이지를 찾을 수 없습니다.

이것의 문제는 깨진 링크가 도움이 되지 않고 크롤링 가능성에 해를 끼친다는 것입니다.

특히 최근에 사이트 이전, 일괄 삭제 또는 구조 변경을 겪은 경우 URL을 다시 확인하세요. 그리고 이전 URL이나 삭제된 URL에 연결하지 않았는지 확인하세요.

내부 연결을 위한 다른 모범 사례에는 연결 가능한 콘텐츠(콘텐츠가 항상 중요함), 연결된 이미지 대신 앵커 텍스트 사용, 페이지에서 "합리적인 수"의 링크 사용(그 의미가 무엇이든)이 포함됩니다.

아, 그리고 내부 링크에 대해 팔로우 링크를 사용하고 있는지 확인하십시오.

3. Google에 사이트맵 제출

충분한 시간이 주어지고 사용자가 하지 말라고 하지 않았다고 가정하면 Google이 사이트를 크롤링합니다. 그리고 그것은 훌륭하지만 기다리는 동안 검색 순위에 도움이 되지 않습니다.

최근에 콘텐츠를 변경했고 Google에 즉시 이를 알리고 싶다면 Google Search Console에 사이트맵을 제출하는 것이 좋습니다.

사이트맵은 루트 디렉토리에 있는 또 다른 파일입니다. 사이트의 모든 페이지에 대한 직접 링크가 있는 검색 엔진의 로드맵 역할을 합니다.

이는 Google이 여러 페이지에 대해 동시에 학습할 수 있도록 하므로 색인 생성에 유용합니다. 크롤러는 딥 페이지를 찾기 위해 5개의 내부 링크를 따라야 할 수 있지만 XML 사이트맵을 제출하면 사이트맵 파일을 한 번만 방문하여 모든 페이지를 찾을 수 있습니다.

사이트맵을 Google에 제출하는 것은 깊이 있는 웹사이트가 있거나, 새 페이지나 콘텐츠를 자주 추가하거나, 사이트에 내부 연결이 잘 되어 있지 않은 경우에 특히 유용합니다.

4. Robots.txt 파일 업데이트

웹사이트용 robots.txt 파일이 필요할 수 있습니다. 필수 사항은 아니지만 99%의 웹사이트에서 경험적으로 이를 사용합니다. 이것이 익숙하지 않다면 웹사이트의 루트 디렉토리에 있는 일반 텍스트 파일입니다.

검색 엔진 크롤러에게 사이트 크롤링 방법을 알려줍니다. 주요 용도는 봇 트래픽을 관리하고 사이트에 요청이 과부하되지 않도록 하는 것입니다.

크롤링 가능성 측면에서 이것이 유용한 경우 Google이 크롤링하고 색인을 생성하는 페이지를 제한합니다. 예를 들어 디렉토리, 장바구니 및 태그와 같은 페이지를 Google 디렉토리에 원하지 않을 수 있습니다.

물론 이 유용한 텍스트 파일도 크롤링 가능성에 부정적인 영향을 줄 수 있습니다. 귀하의 페이지에 대한 크롤러 액세스를 실수로 차단하고 있는지 확인하려면 robots.txt 파일을 살펴보는 것이 좋습니다.

robots.text 파일의 몇 가지 일반적인 실수는 다음과 같습니다.

  • Robots.txt는 루트 디렉토리에 없습니다.
  • 와일드카드 사용이 부적절합니다.
  • robots.txt의 NOINDEX.
  • 차단된 스크립트, 스타일시트 및 이미지.
  • 사이트맵 URL이 없습니다.

이러한 각 문제에 대한 심층적인 조사와 문제 해결을 위한 팁을 보려면 이 기사를 읽으십시오.

5. 정규화 확인

표준 태그는 여러 URL의 신호를 단일 표준 URL로 통합합니다. 이는 중복 및 오래된 버전을 건너뛰면서 원하는 페이지의 색인을 생성하도록 Google에 지시하는 데 도움이 될 수 있습니다.

그러나 이것은 불량 표준 태그의 문을 엽니다. 이들은 더 이상 존재하지 않는 페이지의 이전 버전을 참조하여 검색 엔진이 잘못된 페이지를 인덱싱하고 선호하는 페이지를 보이지 않게 합니다.

이 문제를 해결하려면 URL 검사 도구를 사용하여 불량 태그를 검색하고 제거하십시오.

웹사이트가 국제 트래픽에 맞춰져 있는 경우, 즉 다른 국가의 사용자를 다른 표준 페이지로 안내하는 경우 각 언어에 대한 표준 태그가 있어야 합니다. 이렇게 하면 사이트에서 사용하는 각 언어로 페이지의 색인이 생성됩니다.

6. 현장 감사 수행

다른 모든 단계를 수행했으므로 사이트가 크롤링 및 인덱싱에 최적화되었는지 확인하기 위해 마지막으로 해야 할 일이 남아 있습니다. 바로 사이트 감사입니다. 그리고 그것은 Google이 귀하의 사이트에 대해 색인을 생성한 페이지의 비율을 확인하는 것으로 시작됩니다.

색인 생성률 확인

색인 생성 가능 비율은 Google 색인의 페이지 수를 웹사이트의 페이지 수로 나눈 값입니다.

"페이지" 탭으로 이동하고 CMS 관리자 패널에서 웹사이트의 페이지 수를 확인하여 Google 검색 콘솔 색인에서 Google 색인에 몇 개의 페이지가 있는지 확인할 수 있습니다.

사이트에 색인 생성을 원하지 않는 페이지가 있을 가능성이 높으므로 이 수치는 100%가 아닐 수 있습니다. 그러나 인덱싱 가능성 비율이 90% 미만이면 조사해야 할 문제가 있습니다.

Search Console에서 색인이 생성되지 않은 URL을 가져와 감사를 실행할 수 있습니다. 이렇게 하면 문제의 원인을 이해하는 데 도움이 될 수 있습니다.

Google Search Console에 포함된 또 다른 유용한 사이트 감사 도구는 URL 검사 도구입니다. 이를 통해 Google 스파이더가 보는 것을 볼 수 있으며 실제 웹 페이지와 비교하여 Google이 렌더링할 수 없는 것을 이해할 수 있습니다.

새로 게시된 페이지 감사

웹사이트에 새 페이지를 게시하거나 가장 중요한 페이지를 업데이트할 때마다 해당 페이지의 색인이 생성되고 있는지 확인해야 합니다. Google Search Console로 이동하여 모두 표시되는지 확인합니다.

여전히 문제가 있는 경우 감사를 통해 SEO 전략의 다른 부분이 부족한 부분에 대한 통찰력을 얻을 수 있으므로 두 배의 이점이 있습니다. 다음과 같은 무료 도구를 사용하여 감사 프로세스를 확장하세요.

  1. 비명 개구리
  2. 셈러쉬
  3. 집티
  4. 온크롤
  5. 루마르

7. 저품질 또는 중복 콘텐츠 확인

Google에서 귀하의 콘텐츠를 검색자에게 가치 있는 것으로 간주하지 않으면 색인을 생성할 가치가 없다고 결정할 수 있습니다. 알려진 바와 같이 이 얇은 콘텐츠는 잘못 작성된 콘텐츠(예: 문법 오류 및 철자 오류로 가득 차 있음), 귀하의 사이트에 고유하지 않은 상용구 콘텐츠 또는 가치와 권위에 대한 외부 신호가 없는 콘텐츠일 수 있습니다.

이를 찾으려면 사이트에서 색인이 생성되지 않는 페이지를 확인한 다음 해당 페이지에 대한 대상 쿼리를 검토하십시오. 검색자의 질문에 고품질 답변을 제공하고 있습니까? 그렇지 않은 경우 교체하거나 새로 고칩니다.

중복 콘텐츠는 사이트를 크롤링하는 동안 봇이 중단될 수 있는 또 다른 이유입니다. 기본적으로 코딩 구조가 혼란스러워서 색인을 생성할 버전을 알지 못하는 경우가 발생합니다. 이는 세션 ID, 중복 콘텐츠 요소 및 페이지 매김 문제와 같은 문제로 인해 발생할 수 있습니다.

때때로 이렇게 하면 Google Search Console에 경고가 발생하여 Google이 예상보다 많은 URL을 발견했음을 알립니다. 받지 못한 경우 크롤링 결과에서 중복 또는 누락된 태그 또는 봇을 위한 추가 작업을 생성할 수 있는 추가 문자가 포함된 URL을 확인하십시오.

태그를 수정하거나 페이지를 제거하거나 Google의 액세스 권한을 조정하여 이러한 문제를 수정하세요.

8. 리디렉션 체인 및 내부 리디렉션 제거

웹사이트가 발전함에 따라 리디렉션은 자연스러운 부산물이 되어 방문자를 한 페이지에서 더 새롭고 관련성이 높은 페이지로 안내합니다. 그러나 대부분의 사이트에서 일반적이지만 잘못 취급하면 자신의 인덱싱을 무심코 방해할 수 있습니다.

리디렉션을 생성할 때 저지를 수 있는 몇 가지 실수가 있지만 가장 일반적인 것 중 하나는 리디렉션 체인입니다. 이는 클릭한 링크와 대상 사이에 둘 이상의 리디렉션이 있을 때 발생합니다. Google은 이를 긍정적인 신호로 보지 않습니다.

더 극단적인 경우 페이지가 다른 페이지로 리디렉션되고, 다른 페이지로 리디렉션되는 등의 방식으로 결국 첫 번째 페이지로 다시 링크될 때까지 리디렉션 루프를 시작할 수 있습니다. 즉, 아무데도 가지 않는 끝없는 루프를 만들었습니다.

Screaming Frog, Redirect-Checker.org 또는 이와 유사한 도구를 사용하여 사이트의 리디렉션을 확인하십시오.

9. 깨진 링크 수정

비슷한 맥락에서 깨진 링크는 사이트의 크롤링 가능성에 큰 피해를 줄 수 있습니다. 링크가 끊어지지 않았는지 정기적으로 사이트를 확인해야 합니다. 이렇게 하면 SEO 결과에 피해를 줄 뿐만 아니라 사용자를 좌절시킬 수 있습니다.

사이트의 모든 링크(헤더, 바닥글, 탐색, 텍스트 내 등)를 수동으로 평가하는 것을 포함하여 사이트에서 깨진 링크를 찾는 방법에는 여러 가지가 있습니다. 또는 Google Search Console, Analytics 또는 404 오류를 찾기 위해 개구리를 외치고 있습니다.

끊어진 링크를 찾으면 링크를 리디렉션하거나(위의 주의 사항 참조) 링크를 업데이트하거나 제거하는 세 가지 방법으로 링크를 수정할 수 있습니다.

10. 인덱스나우

IndexNow는 API를 통해 검색 엔진 간에 URL을 동시에 제출할 수 있는 비교적 새로운 프로토콜입니다. 새로운 URL 및 웹사이트 변경 사항에 대해 검색 엔진에 경고하여 XML 사이트맵 제출의 강력한 버전처럼 작동합니다.

기본적으로 크롤러에게 사이트에 대한 로드맵을 미리 제공하는 것입니다. 그들은 필요한 정보를 가지고 귀하의 사이트에 들어가므로 사이트맵을 지속적으로 다시 확인할 필요가 없습니다. 그리고 XML 사이트맵과 달리 200이 아닌 상태 코드 페이지에 대해 검색 엔진에 알릴 수 있습니다.

구현은 쉽고 API 키를 생성하고 디렉터리 또는 다른 위치에 호스팅하고 권장 형식으로 URL을 제출하기만 하면 됩니다.

마무리

지금쯤이면 웹사이트의 색인 생성 가능성과 크롤링 가능성에 대해 충분히 이해하고 있을 것입니다. 또한 이 두 가지 요소가 검색 순위에 얼마나 중요한지 이해해야 합니다.

Google의 스파이더가 사이트를 크롤링하고 색인을 생성할 수 있는 경우 사용하는 키워드, 백링크 및 태그의 수는 중요하지 않습니다. 검색 결과에 나타나지 않습니다.

그렇기 때문에 봇을 방해하거나 오도하거나 잘못 안내할 수 있는 모든 것이 있는지 사이트를 정기적으로 확인하는 것이 중요합니다.

따라서 좋은 도구 세트를 확보하고 시작하십시오. 부지런하고 세부 사항을 염두에 두십시오. 그러면 곧 Google 거미가 거미처럼 귀하의 사이트에 몰려들게 될 것입니다.

추가 리소스:

  • 검색 인덱싱을 개선하기 위한 11가지 SEO 팁 및 요령
  • 검색 엔진 크롤링 및 색인 생성 방법: 알아야 할 모든 것
  • SEO 감사를 수행하는 방법: 궁극적인 체크리스트

주요 이미지: Roman Samborskyi/Shutterstock