Google이 robots.txt에 NOINDEX 지원을 추가해야 합니까? 투표 결과
게시 됨: 2021-10-059월에 저는 여기 Search Engine Land에서 설문조사를 실시하여 독자들이 robots.txt에서 페이지를 색인 생성 없음으로 표시하는 지침을 원하는지 알아보았습니다. 오늘은 주요 문제가 무엇인지(그리고 Google에서 이에 대한 지원을 추가하지 않는 이유)에 대한 검토와 함께 결과를 제시하겠습니다.
- 이것이 왜 관심이 될까요?
- 이 아이디어의 단점은 무엇입니까?
- 전체 robots.txt 설문조사 결과
이것이 왜 관심이 될까요?
현재 환경에서 robots.txt는 웹 크롤링 동작을 안내하는 데만 사용됩니다. 또한 페이지를 "NoIndex"로 표시하는 현재 접근 방식은 페이지 자체에 태그를 배치하는 것입니다. 불행히도 robots.txt에서 차단하면 Google은 태그를 절대 볼 수 없으며 사용자가 원하지 않더라도 잠재적으로 페이지의 색인을 생성할 수 있습니다.
대규모 사이트에서 크롤링을 차단하고 Google 색인에서 제외하려는 다양한 페이지 클래스가 있는 경우 몇 가지 문제가 발생합니다. 이것이 발생할 수 있는 한 가지 방법은 사용자에게 상당한 가치가 있지만 결국 Google에 너무 많은 페이지를 제공하는 페이지가 있는 복잡한 패싯 탐색 구현에서입니다. 예를 들어, 한 신발 소매업체 웹사이트에서 "남성 나이키 신발"과 관련된 페이지가 70,000개가 넘는 것을 발견했습니다. 여기에는 다양한 크기, 너비, 색상 등이 포함됩니다.
위에서 공유한 예와 같이 복잡한 패싯 탐색이 있는 사이트에 참여한 일부 테스트에서 이 많은 양의 페이지가 심각한 문제라는 것을 발견했습니다. 이러한 테스트 중 하나에서 우리는 AJAX에서 대부분의 패싯 탐색을 구현하기 위해 클라이언트와 협력하여 패싯 탐색 페이지의 대부분이 Google에 보이지 않지만 사용자는 여전히 쉽게 액세스할 수 있도록 했습니다. 이 사이트의 페이지 수는 2억 페이지에서 20만 페이지로 1,000에서 1로 감소했습니다. 다음 해에 사이트 트래픽이 3배로 증가하여 놀라울 정도로 좋은 결과를 얻었습니다. 그러나 트래픽은 초기에 DOWN이 되었고 이전 수준으로 돌아오는 데 약 4개월이 걸렸다가 다시 증가했습니다.
다른 시나리오에서는 사이트에서 새로운 전자 상거래 플랫폼을 구현하고 페이지 수가 약 5,000페이지에서 1백만 이상으로 급증하는 것을 보았습니다. 그들의 교통량이 급감했고 우리는 그들의 회복을 돕기 위해 투입되었습니다. 수정? 인덱싱 가능한 페이지 카운트를 다시 이전 위치로 되돌리려면. 불행히도 이것은 NoIndex 및 Canonical 태그와 같은 도구로 수행되었기 때문에 복구 속도는 Google이 사이트의 상당한 수의 페이지를 다시 방문하는 데 걸리는 시간에 의해 크게 영향을 받았습니다.
두 경우 모두 관련 회사의 결과는 Google의 크롤링 예산과 사이트의 새로운 구조를 완전히 이해하기에 충분한 크롤링을 수행하는 데 걸린 시간에 따라 결정되었습니다. Robots.txt에 지침이 있으면 이러한 유형의 프로세스 속도를 빠르게 높일 수 있습니다.
이 아이디어의 단점은 무엇입니까?
나는 Ahrefs의 제품 고문이자 브랜드 대사인 Patrick Stox와 이에 대해 논의할 기회가 있었습니다. 그의 짧은 설명은 다음과 같습니다. Google은 크롤링 제어용으로만 robots.txt를 원한다는 점을 분명히 했습니다. 가장 큰 단점은 실수로 전체 사이트를 색인에서 제외하는 모든 사람들일 것입니다.”
그리고 물론 전체 사이트(또는 사이트의 핵심 부분)가 색인에서 제외되는 이 문제는 큰 문제입니다. 웹의 전체 범위에서 우리는 이것이 일어날지 아닐지에 대해 질문할 필요가 없습니다. 슬프게도 일부 중요한 사이트에서 발생할 가능성이 높으며 불행히도 많이 발생할 것입니다.
20년 동안의 SEO 경험에서 다양한 SEO 태그를 사용하는 방법에 대한 오해가 만연한 것을 발견했습니다. 예를 들어, Google Authorship이 중요하고 rel=author 태그가 있던 시절에 사이트에서 태그를 얼마나 잘 구현했는지 조사한 결과 72%의 사이트에서 태그를 잘못 사용했다는 사실을 발견했습니다. 여기에는 우리 업계에서 정말 잘 알려진 사이트가 포함되어 있습니다!
Stox와의 토론에서 그는 추가로 다음과 같이 말했습니다. 이전에 NOINDEX로 표시된 페이지를 갑자기 인덱싱하기 시작합니까?”
나는 또한 논평을 위해 Google에 연락했고 2014년에 robots.txt에서 noindex에 대한 지원을 중단했을 때 블로그 게시물을 지적했습니다. 게시물은 이 문제에 대해 다음과 같이 말했습니다.
“파서 라이브러리를 공개하는 동안 robots.txt 규칙의 사용을 분석했습니다. 특히 크롤링 지연, nofollow 및 noindex와 같이 인터넷 초안에 의해 지원되지 않는 규칙에 중점을 두었습니다. 이러한 규칙은 Google에서 문서화한 적이 없기 때문에 당연히 Googlebot과 관련하여 사용 빈도가 매우 낮습니다. 더 파고들면 인터넷에 있는 모든 robots.txt 파일의 0.001%를 제외하고는 모두 다른 규칙과 모순되는 사용법을 발견했습니다. 이러한 실수는 웹마스터가 의도하지 않은 방식으로 Google 검색결과에서 웹사이트의 존재를 손상시킵니다. "
* 강조를 위해 제가 마지막 문장을 굵게 처리했습니다.

이것이 여기의 원동력이라고 생각합니다. Google은 색인의 품질을 보호하기 위해 노력하며 좋은 아이디어처럼 보이는 것이 의도하지 않은 많은 결과를 초래할 수 있습니다. 개인적으로 NoCrawl과 NoIndex 모두에 대해 명확하고 쉬운 방법으로 페이지를 표시하는 기능을 갖고 싶지만 문제의 진실은 그것이 일어날 것이라고 생각하지 않는다는 것입니다.
전체 robots.txt 설문조사 결과
먼저, 필수 질문인 해당 질문 2의 설문조사에서 귀하가 질문 1에 "예"라고 대답했다고 가정한 결함을 인정하고 싶습니다. 고맙게도 질문 1에서 "아니오"라고 답한 대부분의 사람들은 질문 2에서 "기타"를 클릭한 다음 이 기능을 원하지 않는 이유를 입력했습니다. 그 응답 중 하나는 이 결함을 지적하고 "당신의 설문조사는 오해의 소지가 있습니다."라고 말했습니다. 결함에 대해 사과드립니다.
전체 결과는 다음과 같았습니다.

총 87명의 응답자 중 84%가 이 기능을 원한다고 "예"라고 말했습니다. 이 기능을 원하는 몇 가지 이유는 다음과 같습니다.
- 크롤링을 차단하고 싶지만 페이지가 인덱싱되는 상황은 없습니다.
- 많은 수의 페이지를 Noindexing하는 것은 noindex를 보기 위해 Google이 페이지를 크롤링해야 하기 때문에 많은 시간이 걸립니다. noindex 지시문을 사용했을 때 과도 색인 문제가 있는 클라이언트에 대해 더 빠른 결과를 얻을 수 있었습니다.
- 매우 큰 문제가 있습니다...매우 오래된 콘텐츠...수백 개의 오래된 디렉터리와 하위 디렉터리를 삭제하고 404 작업을 수행하면 인덱스를 해제하는 데 몇 년이 아니라 몇 개월이 걸리는 것 같습니다. robots.txt 파일에 NoIndex 규칙을 추가하면 시간이 지남에 따라 모든 이전 URL을 크롤링하는 것보다 Google이 훨씬 더 빠르게 이 지침을 준수할 수 있을 것 같습니다. 반복적으로… , 도메인을 정리하는 것이 도움이 되는 한 가지 방법입니다.
- 개발 노력을 절약하고 변경으로 인해 문제가 발생하는 경우 쉽게 조정할 수 있습니다.
- 항상 "NOINDEX"를 사용할 수 없으며 인덱싱되지 않아야 하는 인덱싱된 페이지가 너무 많습니다. 스파이더에 대한 표준 차단은 최소한 페이지를 "NOINDEX"해야 합니다. 검색 엔진이 URL/폴더를 크롤링하지 않도록 하려면 왜 이러한 "빈" 페이지의 색인을 생성해야 합니까?
- .txt 파일에 새 지침을 추가하는 것이 개발자 리소스를 얻는 것보다 훨씬 빠릅니다.
- 예, 엔터프라이즈 CRM의 헤드에서 메타를 변경하는 것은 어렵기 때문에 robots.txt의 개별 NOINDEX 기능으로 그 문제를 해결할 수 있습니다.
- 더 빠르고 덜 문제가 되는 사이트 인덱싱 차단 :)
포함되지 않는다고 말한 다른 이유:
- NOINDEX 태그면 충분합니다.
- robots.txt 파일의 새 지시문은 필요하지 않습니다.
- 나는 그것을 필요로하지 않으며 작동하지 않습니다
- 귀찮게 하지마
- 바뀌지 않는다
요약
당신은 그것을 가지고 있습니다. 이 설문조사에 응답한 대부분의 사람들은 이 기능을 추가하는 데 찬성했습니다. 그러나 SEL의 독자층은 일반 웹마스터보다 훨씬 더 많은 이해와 전문 지식을 갖춘 지식이 풍부한 청중으로 구성되어 있다는 점을 명심하십시오. 또한 설문조사에서 받은 예 응답 중 4번 질문(“이 기능이 SEO에 도움이 될까요? 그렇다면 어떻게 됩니까?”)에 대해 현재 시스템이 작동하는 방식에 대한 오해를 나타내는 응답이 일부 있었습니다.
궁극적으로 개인적으로 이 기능을 갖고 싶지만 일어날 가능성은 거의 없습니다.
이 기사에 표현된 의견은 게스트 작성자의 의견이며 반드시 Search Engine Land는 아닙니다. 직원 저자가 여기에 나열됩니다.
