SEO용 Robots.txt(SEO 기본 사항)

게시 됨: 2022-04-09

Robots.txt 파일은 웹사이트에서 버리고 싶지 않은 요소입니다. 웹 사이트 콘텐츠를 "스누핑"하려는 원치 않는 봇 방문자의 진입을 허용 및 차단합니다.

이것은 robots.txt 파일을 정의하는 다소간 간단한 방법입니다.

이 게시물에서는 SEO 기초를 위한 robots.txt에 대해 알아 보겠습니다.

당신은 배울 것입니다:

당신이 그들을 사용해야 할 때
구현 방법
피해야 할 실수

검색 엔진에서 사용하는 봇은 웹을 크롤링하여 인터넷 전체의 웹사이트 콘텐츠를 색인화하는 스파이더입니다. 이 정보를 통해 검색 엔진은 웹 페이지의 콘텐츠에 대해 학습하여 필요할 때 검색할 수 있습니다.

웹 크롤링 프로세스를 이해하면 robots.txt 파일이 웹사이트에 유익한 이유도 이해할 수 있습니다. 그들은 주변을 기웃거리는 방문자로부터 당신을 보호하기 위해 여기에 있습니다. 그들은 당신이 당신의 사이트에 대해 보여주고 싶은 정보만을 제공할 것입니다.

robots.txt 파일을 더 잘 이해하기 위해 파일이 무엇이고 어떻게 함께 혼합되는지 자세히 살펴보겠습니다.

Robots.txt 파일이란 무엇입니까?

로봇.txt. 로봇 제외 프로토콜이라고도 하는 파일은 웹사이트의 전체 또는 특정 부분에 대한 액세스를 허용하거나 거부하는 규칙이 포함된 검색 엔진에서 읽는 파일입니다. Google 또는 Bing과 같은 검색 엔진은 웹 크롤러를 보내 웹 사이트에 액세스하고 콘텐츠가 검색 결과에 나타날 수 있도록 사용할 수 있는 정보를 수집합니다.

robots.txt 파일이 작동하는 방식을 이해하려면 정보를 검색하기 위해 웹사이트를 기어다니는 봇이나 작은 거미를 상상해 보십시오. 백만 로봇 거미가 그 장소를 기어 다니고 사기꾼의 존재에 대한 가장 작은 가능한 증거라도 찾기 위해 주위를 기웃거릴 때 그 공상 과학 영화를 생각해보십시오.

지피를 통해

이 간단한 텍스트 파일은 페이지를 크롤링하거나 크롤링하지 않을 수 있는 봇을 인덱싱하는 검색 엔진에 명령을 실행하여 SEO에 사용됩니다. Robots.txt 파일은 주로 웹 크롤러의 예산을 관리하는 데 사용되며 이러한 크롤러가 사이트의 일부에 액세스하는 것을 원하지 않을 때 유용합니다.

로봇.txt. 파일은 검색 엔진에 크롤링이 허용된 위치를 알려주기 때문에 매우 중요합니다. 기본적으로 그들이하는 일은 웹 사이트를 부분적으로 또는 완전히 차단하거나 웹 사이트를 색인화하는 것입니다. 즉, 검색 엔진이 귀하의 웹사이트를 검색할 수 있도록 하는 방법입니다.

직장에서의 크롤링 프로세스

콘텐츠에 대한 웹사이트 크롤링 프로세스를 스파이더링이라고 합니다. 검색 엔진의 주요 임무는 웹을 크롤링하여 수백만 개의 링크를 따라 콘텐츠를 발견하고 색인을 생성하는 것입니다. 로봇이 사이트에 액세스하면 가장 먼저 robots.txt 파일을 찾아 얼마나 많은 "스누핑"을 할 수 있는지에 대한 정보를 얻습니다.

검색 엔진은 robots.txt 파일에 설정된 규칙을 준수합니다. robots.txt 파일이 없거나 웹사이트에 금지된 활동이 없는 경우 봇은 모든 정보를 크롤링합니다. 그러나 Google과 같은 일부 검색 엔진은 제공된 모든 지시문을 지원하지 않으며 이에 대해서는 아래에서 자세히 설명하겠습니다.

Robots.txt 파일을 사용하는 이유는 무엇입니까?

Robots.txt 파일을 사용하면 웹사이트에서 다음과 같은 여러 작업을 수행할 수 있습니다.

전체 사이트에 대한 액세스 차단
사이트의 일부에 대한 액세스 차단
하나의 URL 또는 특정 URL 매개변수에 대한 액세스 차단
전체 디렉토리에 대한 액세스 차단
와일드카드 설정 허용

Robots.txt 파일은 특정 영역에 대한 액세스를 허용하여 사이트에서 크롤러의 활동을 제어합니다. 웹사이트의 특정 부분에 대한 액세스 권한을 Google 또는 기타 검색 엔진에 부여하지 않는 데에는 항상 이유가 있습니다. 하나는 아직 웹사이트를 개발 중이거나 기밀 정보를 보호하려는 경우일 수 있습니다.

robots.txt 파일이 없어도 웹사이트가 작동할 수 있지만 이를 사용할 때의 몇 가지 이점을 기억하는 것이 중요합니다.

검색 엔진이 개인 폴더 또는 하위 도메인을 크롤링하지 못하도록 방지
중복 콘텐츠 크롤링 및 중요하지 않은 페이지 방문 방지
사이트의 일부 이미지 색인 생성 방지
서버 과부하 방지 및 관리
웹사이트 속도 저하 방지

봇에게 페이지를 크롤링하지 말라고 지시한다고 해서 색인이 생성되지 않는 것은 아닙니다. URL은 검색 엔진에 표시되지만 메타 설명 없이 표시됩니다.

Robots.txt 파일을 찾고 생성하고 테스트하는 방법은 무엇입니까?

robots.txt는 항상 웹사이트의 루트 도메인에 있습니다. 예를 들어 https://www.example.com/robots.txt로 찾을 수 있습니다. 편집하려면 호스트의 CPanel에서 파일 관리자에 액세스할 수 있습니다.

웹사이트에 robots.txt 파일이 없는 경우 텍스트 편집기에서 생성되는 기본 텍스트 파일이기 때문에 생성하는 것은 다소 간단합니다. 빈 .txt 문서를 열고 지시문을 삽입하기만 하면 됩니다. 완료되면 파일을 "robots.txt''로 저장하면 됩니다.

일반적으로 입력 실수가 많은 경우 robots.txt 생성기를 사용하여 SEO 재해를 피하고 구문 오류를 최소화하는 것이 현명할 수 있습니다. 문자나 숫자를 누락하거나 추가하는 작은 실수라도 문제를 일으킬 수 있음을 기억하십시오.

robots.txt 파일이 생성되면 적절한 도메인 루트 디렉토리에 넣습니다. 파일이 유효한지 확인하기 위해 라이브로 전환하기 전에 파일을 테스트해야 합니다. 이렇게 하려면 Google 지원 페이지로 이동하여 "robots.txt 테스터 열기" 버튼을 클릭해야 합니다. 불행히도 이 테스트 옵션은 Google Search Console의 이전 버전에서만 사용할 수 있습니다.

테스트하려는 속성을 선택하고 상자에 있을 수 있는 모든 것을 제거한 다음 robots.txt 파일을 붙여넣습니다. 파일이 OK를 받으면 완전히 작동하는 robots.txt 파일이 있는 것입니다. 그렇지 않은 경우 돌아가서 실수를 찾아야 합니다.

크롤링 지시문 구현

각 robots.txt 파일은 검색 엔진이 정보에 액세스할 수 있도록 하는 지시문으로 구성됩니다. 각 지시문은 사용자 에이전트를 지정한 다음 해당 사용자 에이전트에 대한 규칙을 설정하는 것으로 시작됩니다. 아래에 두 가지 목록을 작성했습니다. 하나는 지원되는 지시문을 포함하고 다른 하나는 사용자 에이전트가 지원하지 않는 지시문을 포함합니다.

지원되는 지시문

사용자 에이전트 - 특정 봇을 대상으로 하는 데 사용되는 지시문입니다. 검색 엔진은 사용자 에이전트와 그에 적용되는 차단을 찾습니다. 모든 검색 엔진에는 사용자 에이전트 표시가 있습니다. 대소문자를 구분하므로 사용자 에이전트의 올바른 형식을 입력해야 합니다.

예를 들어:
사용자 에이전트: Googlebot
사용자 에이전트: Bingbot

허용 안 함 - 검색 엔진이 웹사이트의 특정 영역을 크롤링하지 못하도록 하려면 이 지시문을 사용하십시오. 다음을 수행할 수 있습니다.

모든 사용자 에이전트에 대한 전체 디렉토리 액세스 차단:
사용자 에이전트: *
허용하지 않음: /
특히 모든 사용자 에이전트에 대해 특정 디렉토리 차단
사용자 에이전트: *
허용하지 않음: /portfolio
모든 사용자 에이전트에 대해 PDF 또는 기타 파일에 대한 액세스를 차단합니다. 적절한 파일 확장자를 사용하십시오.
사용자 에이전트: *
허용하지 않음: *.pdf$

허용 - 이 지시문을 사용하면 검색 엔진이 페이지 또는 디렉토리를 크롤링할 수 있습니다. 기억해야 할 좋은 점은 허용되지 않는 지시문을 재정의할 수 있다는 것입니다. 검색 엔진이 포트폴리오 디렉토리를 크롤링하는 것을 원하지 않지만 특정 디렉토리에 액세스하도록 허용한다고 가정해 보겠습니다.

사용자 에이전트: *
허용하지 않음: /portfolio
허용: /portfolio/allowed-portfolio

사이트맵 - 검색 엔진에 사이트맵 위치를 제공하면 사이트맵을 더 쉽게 크롤링할 수 있습니다.

지원되지 않는 지시문

크롤링 지연 - 봇이 서버를 압도하지 않도록 크롤링 사이의 속도를 늦추고 지연시키려는 경우에 사용하는 좋은 지시문입니다. 이 지시문은 큰 웹사이트보다는 작은 웹사이트에 매우 유용합니다. 크롤링 지연 지시문은 더 이상 Google과 Baidu에서 지원되지 않지만 Yandex와 Bing은 여전히 지원합니다.
Noindex - 검색 엔진에서 웹사이트나 파일을 제외하는 데 사용되는 지시문입니다. 이 명령은 Google에서 지원한 적이 없습니다. 따라서 검색 엔진을 피하려면 x-robots HTTP 헤더 또는 메타 태그 로봇을 사용해야 합니다.
Nofollow - Google에서 지원하지 않는 또 다른 지시문으로 검색 엔진이 페이지의 링크를 따르지 않도록 명령하는 데 사용됩니다. 모든 링크에서 nofollow 지시문을 사용하려면 x-robots 헤더 또는 메타 태그 로봇을 사용하십시오.
호스트 지시문 - www를 표시할지 여부를 결정하는 데 사용됩니다. URL 앞( example.com 또는 www.example.com ). 이 지시문은 현재 Yandex에서만 지원되므로 의존하지 않는 것이 좋습니다.

와일드카드 사용

와일드카드는 robots.txt 지침을 단순화하는 데 사용되는 문자입니다. 와일드카드는 모든 사용자 에이전트에 지시문을 지정하고 적용하거나 특정 사용자 에이전트를 개별적으로 지정하는 데 사용할 수 있습니다. 다음은 일반적으로 사용되는 와일드카드입니다.

별표(*) - 지시문에서 "모든 사용자 에이전트에 적용"에 해당합니다. "일치 URL 패턴 또는 임의의 문자 시퀀스"에 해당하는 데 사용할 수도 있습니다. 동일한 패턴을 따르는 URL이 있다면 이것은 당신의 삶을 훨씬 더 쉽게 만들어 줄 것입니다.
달러 기호($) - URL의 끝을 표시하는 데 사용됩니다.

예제에서 이것이 어떻게 보이는지 봅시다. 모든 검색 엔진이 PDF 파일에 액세스할 수 없다고 결정한 경우 robots.txt는 다음과 같아야 합니다.
사용자 에이전트: *
허용하지 않음: /*.pdf$

따라서 .pdf로 끝나는 URL은 액세스할 수 없습니다. 그러나 URL에 .pdf 끝자락 뒤에 추가 텍스트가 있는 경우 해당 URL에 액세스할 수 있습니다. 따라서 robots.txt 파일을 작성할 때 모든 측면을 고려했는지 확인하십시오.

피해야 할 실수

robots.txt 파일을 사용하는 것은 유용하며 이를 조작하는 방법은 여러 가지가 있습니다. 하지만 robots.txt 파일을 사용할 때 피해야 하는 실수를 자세히 살펴보고 살펴보겠습니다.

이점은 엄청나지만, robots.txt 파일이 올바른 방식으로 활용되지 않을 경우 발생할 수 있는 많은 피해도 있습니다.

새 줄 - 검색 엔진을 혼동하지 않도록 각 지시문에 새 줄을 사용합니다.
대소문자 구분에 주의 하십시오. robots.txt 파일은 대소문자를 구분하므로 적절하게 생성하십시오. 이것에 세심한주의를 기울이지 않으면 작동하지 않습니다.
콘텐츠 차단 방지 - SEO 결과에 피해를 줄 수 있으므로 허용하지 않음 및 noindex 태그를 여러 번 검토해야 합니다. 공개해야 할 좋은 콘텐츠를 차단하지 않도록 주의하세요.
개인 데이터 보호 - 개인 정보를 보호하려면 방문자에게 로그인하도록 요청하는 것이 좋습니다. 이렇게 하면 PDF 또는 기타 파일이 안전하게 보호됩니다.
크롤링 지연의 남용 - 지시문, 특히 크롤링 지연을 남용하지 않는 것이 좋습니다. 대규모 웹사이트를 운영하는 경우 이 지시문을 사용하면 비생산적일 수 있습니다. 봇의 크롤링을 하루 최대 URL 수로 제한하게 되며 이는 바람직하지 않습니다.

중복 콘텐츠

사이트에 중복 콘텐츠가 포함될 수 있는 데에는 여러 가지 이유가 있습니다. 프린터 친화적 버전, 여러 URL에서 액세스할 수 있는 페이지 또는 유사한 콘텐츠가 있는 다른 페이지일 수 있습니다. 검색 엔진은 중복 버전인지 여부를 인식할 수 없습니다.

이러한 경우 사용자는 URL을 표준으로 표시해야 합니다. 이 태그는 검색 엔진에 복제본의 원래 위치를 알리는 데 사용됩니다. 사용자가 이 작업을 수행하지 않으면 사용자 에이전트는 어느 것이 정식인지 선택하거나 더 나쁜 경우 두 콘텐츠를 모두 정식으로 레이블을 지정할 수 있습니다. 이를 피하는 또 다른 방법은 내용을 다시 작성하는 것입니다.

크롤링 아이즈 인덱스

검색 엔진이 웹사이트를 크롤링하거나 스파이더링할 때 웹사이트의 모든 콘텐츠를 검색하여 색인을 생성합니다. 이 프로세스를 통해 크롤링된 웹사이트가 검색 엔진의 결과 섹션에 나타날 수 있습니다.

robots.txt를 사용하여 검색 엔진에 액세스 권한이 있거나 없는 위치를 알려줍니다. 기본적으로 적절한 규칙을 설정하여 제한하고 있습니다. robots.txt의 사용은 다소 간단하고 유용합니다. 지시어를 할당하는 규칙을 배우면 웹사이트에서 할 수 있는 일이 많이 있습니다.

robots.txt 파일이 올바르게 설정되고 코딩된 대로 작동하는지 계속 주시하는 것이 좋습니다. 오작동을 발견하면 신속하게 대응하여 재난을 피하십시오.

robots.txt 파일을 웹사이트의 인덱싱을 성공적으로 제어하기 위한 필수 도구로 생각하십시오.