SEOのためのRobots.txt(SEOの基本)

公開: 2022-04-09
SEOのためのRobots.txt


Robots.txtファイルは、破棄したくないWebサイト上の要素です。 これらは、Webサイトのコンテンツを「スヌープ」しようとする不要なボット訪問者の侵入を許可およびブロックします。

これは、robots.txtファイルを定義するための多かれ少なかれ簡単な方法です。

この投稿では、SEOの基本についてrobots.txtについて説明します。

あなたは学びます:
  • いつ使うべきか
  • それらを実装する方法
  • 避けるべき間違い

検索エンジンで使用されるボットは、インターネット全体からWebサイトのコンテンツにインデックスを付けるためにWebをクロールするスパイダーです。 この情報により、検索エンジンはWebページのコンテンツについて学習し、必要なときに取得できるようになります。

Webクロールのプロセスを理解すると、robots.txtファイルがWebサイトに役立つ理由も理解できます。 彼らは、周りを詮索する訪問者からあなたを守るためにここにいます。 彼らはあなたがあなたのサイトについて見せたい情報だけを与えるでしょう。

robots.txtファイルをよりよく理解するために、それらが何であるか、およびそれらがすべてどのように融合するかを詳しく見てみましょう。





Robots.txtファイルとは何ですか?



Robots.txt。 Robots Exclusion Protocolとも呼ばれるファイルは、検索エンジンによって読み取られるファイルであり、Webサイトのすべてまたは特定の部分へのアクセスを許可または拒否するためのルールが含まれています。 GoogleやBingなどの検索エンジンはWebクローラーを送信して、Webサイトにアクセスし、使用できる情報を収集して、コンテンツを検索結果に表示できるようにします。

robot.txtファイルがどのように機能するかを想像するには、情報を検索するためにWebサイトをクロールするボットや小さなスパイダーを想像してみてください。 百万のロボットスパイダーがその場所を這い回り、詮索して、詐欺師の存在のほんのわずかな証拠さえも見つけるとき、それらのSF映画を振り返ってください。

GIPHY経由

これらの単純なテキストファイルは、ページがクロールされる場合とされない場合があるボットにインデックスを付ける検索エンジンにコマンドを発行することにより、SEOに使用されます。 Robots.txtファイルは、主にWebクローラーの予算を管理するために使用され、これらのクローラーがサイトの一部にアクセスすることを望まない場合に役立ちます。

Robots.txt。 ファイルは、検索エンジンにクロールが許可されている場所を知らせるため、非常に重要です。 基本的に、彼らはあなたのウェブサイトを部分的または完全にブロックするか、あなたのウェブサイトにインデックスを付けます。 言い換えれば、それはあなたのウェブサイトが検索エンジンによって発見されることを可能にする方法です。





作業中のクロールプロセス



コンテンツを求めてWebサイトをクロールするプロセスは、スパイダリングと呼ばれます。 検索エンジンの主なタスクは、何百万ものリンクをたどることによってコンテンツを検出してインデックスを作成するためにWebをクロールすることです。 ロボットがサイトにアクセスするとき、最初に行うことは、robots.txtファイルを探して、ロボットが実行できる「スヌーピング」の量に関する情報を取得することです。

検索エンジンは、robots.txtファイルに設定されているルールを順守します。 robot.txtファイルがない場合、またはWebサイトに禁止されているアクティビティがない場合、ボットはすべての情報をクロールします。 ただし、Googleなどの一部の検索エンジンは、指定されたすべてのディレクティブをサポートしているわけではないため、これについてはさらに詳しく説明します。





Robots.txtファイルを使用する理由



Robots.txtファイルを使用すると、Webサイトで次のようなことができます。
  • サイト全体へのアクセスをブロックする
  • サイトの一部へのアクセスをブロックする
  • 1つのURLまたは特定のURLパラメータへのアクセスをブロックする
  • ディレクトリ全体へのアクセスをブロックする
  • ワイルドカードの設定を許可します

Robots.txtファイルは、特定の領域へのアクセスを許可することにより、サイトでのクローラーのアクティビティを制御します。 Googleや他の検索エンジンにウェブサイトの特定の部分へのアクセスを許可しない理由は常にあります。 1つは、まだWebサイトを開発中であるか、機密情報を保護したいということです。

ウェブサイトはrobots.txtファイルがなくても機能しますが、それらを使用することのいくつかの利点を覚えておくことが重要です。
  • 検索エンジンがプライベートフォルダまたはサブドメインをクロールするのを防ぎます
  • 重複するコンテンツのクロールや、重要でないと思われるページへのアクセスを防止します
  • サイト上の一部の画像のインデックス作成を防止する
  • サーバーの過負荷を防止および管理する
  • ウェブサイトの速度低下を防ぐ


ボットにページをクロールしないように指示しても、ページがインデックスに登録されないという意味ではないことに注意してください。 URLは検索エンジンに表示されますが、メタディスクリプションなしで表示されます。





Robots.txtファイルを検索、作成、テストする方法は?



robots.txtは、常にWebサイトのルートドメインにあります。 たとえば、https://www.example.com/robots.txtとして見つけることができます。 編集したい場合は、ホストのCPanelでファイルマネージャーにアクセスできます。

ウェブサイトにrobots.txtファイルがない場合は、テキストエディタで作成される基本的なテキストファイルであるため、作成はかなり簡単です。 空白の.txtドキュメントを開き、ディレクティブを挿入するだけです。 終了したら、ファイルを「robots.txt」として保存するだけで、ファイルが完成します。

一般的に入力ミスが多い場合は、robots.txtジェネレーターを使用して、SEOの災害を回避し、構文エラーを最小限に抑えることをお勧めします。 1つの文字または数字を欠落または追加するというわずかな間違いでも、問題が発生する可能性があることを忘れないでください。

robots.txtファイルが作成されたら、適切なドメインルートディレクトリに配置します。 ライブに移行する前にファイルをテストして、ファイルが有効であることを確認してください。 これを行うには、Googleサポートページに移動し、[robots.txtテスターを開く]ボタンをクリックする必要があります。残念ながら、このテストオプションは、古いバージョンのGoogle検索コンソールでのみ使用できます。

テストするプロパティを選択し、ボックス内にある可能性のあるものをすべて削除して、robots.txtファイルを貼り付けます。 ファイルがOKを受け取った場合は、完全に機能するrobots.txtファイルがあります。 そうでない場合は、戻って間違いを探す必要があります。





クロールディレクティブの実装



各robots.txtファイルはディレクティブで構成されており、検索エンジンが情報にアクセスできるようにします。 各ディレクティブは、ユーザーエージェントを指定してから、そのユーザーエージェントのルールを設定することから始まります。 以下に2つのリストをまとめました。 1つにはサポートされているディレクティブが含まれ、もう1つにはユーザーエージェントによるサポートされていないディレクティブが含まれています。



サポートされているディレクティブ



  • User- agent-特定のボットをターゲットにするために使用されるディレクティブ。 検索エンジンは、それらに適用されるユーザーエージェントとブロックを探します。 すべての検索エンジンにはユーザーエージェントマークがあります。 大文字と小文字が区別されるため、ユーザーエージェントの正しい形式を入力してください。
    例えば:
    ユーザーエージェント:Googlebot
    ユーザーエージェント:Bingbot

    • 禁止-検索エンジンがWebサイトの特定の領域をクロールしないようにする場合は、このディレクティブを使用します。 次のことができます。
    すべてのユーザーエージェントのディレクトリ全体へのアクセスをブロックします。
    ユーザーエージェント: *
    禁止:/
    特にすべてのユーザーエージェントに対して特定のディレクトリをブロックする
    ユーザーエージェント: *
    禁止:/ポートフォリオ
    すべてのユーザーエージェントのPDFまたはその他のファイルへのアクセスをブロックします。 適切なファイル拡張子を使用してください。
    ユーザーエージェント: *
    禁止:*。pdf $

    • 許可-このディレクティブは、検索エンジンがページまたはディレクトリをクロールできるようにします。 覚えておくとよいのは、許可されていないディレクティブをオーバーライドできることです。 検索エンジンがポートフォリオディレクトリをクロールすることを望まないが、特定のディレクトリへのアクセスを許可するとします。
    ユーザーエージェント: *
    禁止:/ポートフォリオ
    許可:/ポートフォリオ/許可-ポートフォリオ

    • サイトマップ-検索エンジンにサイトマップの場所を指定すると、検索エンジンがサイトマップを簡単にクロールできるようになります。



    サポートされていないディレクティブ



    • クロール遅延-これは、サーバーを圧倒しないようにボットの速度を落とし、クロール間で遅延させる場合に使用するのに適したディレクティブです。 このディレクティブは、大きなWebサイトではなく小さなWebサイトに非常に役立ちます。 クロール遅延ディレクティブはGoogleとBaiduでサポートされなくなりましたが、YandexとBingは引き続きサポートしていることに注意してください。
    • Noindex-検索エンジンからWebサイトまたはファイルを除外するために使用されるディレクティブ。 このコマンドはGoogleによってサポートされていませんでした。 したがって、検索エンジンを避けたい場合は、x-robotsHTTPヘッダーまたはメタタグロボットを使用する必要があります。
    • Nofollow -Googleでサポートされておらず、ページ上のリンクをたどらないように検索エンジンに命令するために使用される別のディレクティブ。 x-robotsヘッダーまたはメタタグロボットを使用して、すべてのリンクでnofollowディレクティブを使用します。
    • ホストディレクティブ-wwwを表示するかどうかを決定するために使用されます。 URLの前( example.comまたはwww.example.com )。 このディレクティブは現在Yandexでのみサポートされているため、これに依存しないことをお勧めします。



    ワイルドカードの使用



    ワイルドカードは、robots.txtの指示を簡略化するために使用される文字です。 ワイルドカードを使用して、ディレクティブをアドレス指定してすべてのユーザーエージェントに適用したり、特定のユーザーエージェントを個別にアドレス指定したりできます。 一般的に使用されるワイルドカードは次のとおりです。

    • アステリックス(*)-ディレクティブでは、「すべてのユーザーエージェントに適用」に対応します。「URLパターンまたは任意の文字シーケンスに一致」に対応するために使用することもできます。 同じパターンに従うURLがある場合、これはあなたの生活をはるかに楽にします。
    • ドル記号($)-URLの終わりを示すために使用されます。

    例でこれがどのように見えるか見てみましょう。 すべての検索エンジンがPDFファイルにアクセスできないようにする場合、robots.txtは次のようになります。
    ユーザーエージェント: *
    禁止:/*.pdf$

    そのため、.pdfで終わるURLにはアクセスできません。 ただし、.pdfの末尾の後にURLに追加のテキストがある場合は、そのURLにアクセスできることに注意してください。 したがって、robots.txtファイルを作成するときは、すべての側面を考慮していることを確認してください。





    避けるべき間違い



    robot.txtファイルを使用すると便利であり、それらを操作する方法はたくさんあります。 しかし、さらに深く掘り下げて、robots.txtファイルを使用するときに回避する必要のある間違いを調べてみましょう。

    メリットは計り知れませんが、robot.txtファイルが適切に使用されていない場合に発生する可能性のある多くの損害もあります。

    • 改行-検索エンジンを混乱させないために、ディレクティブごとに改行を使用します
    • 大文字と小文字の区別に注意してください-大文字と小文字が区別されるため、robots.txtファイルを適切に作成してください。 これに細心の注意を払ってください。そうしないと機能しません。
    • コンテンツのブロックを避ける-SEOの結果を損なう可能性があるため、disallowタグとnoindexタグを何度か確認してください。 公開する必要のある優れたコンテンツをブロックしないように注意してください
    • 個人データを保護する-個人情報を保護するには、訪問者にログインを依頼するのが賢明です。こうすることで、PDFやその他のファイルが安全になります。
    • クロール遅延の乱用-ディレクティブ、特にクロール遅延を乱用しないようにすることをお勧めします。 大規模なWebサイトを運営している場合、このディレクティブの使用は逆効果になる可能性があります。 ボットのクロールを1日あたりの最大URL数に制限することになりますが、これはお勧めできません。



    重複コンテンツ



    サイトに重複コンテンツが含まれている理由はいくつかあります。 プリンタ対応バージョン、複数のURLからアクセス可能なページ、または同様のコンテンツを持つ異なるページの場合があります。 検索エンジンは、それが重複バージョンであるかどうかを認識できません。

    このような場合、ユーザーはURLを正規としてマークする必要があります。 このタグは、複製の元の場所が何であるかを検索エンジンに通知するために使用されます。 ユーザーがこれを行わない場合、ユーザーエージェントはどちらが正規であるかを選択します。さらに悪いことに、両方のコンテンツに正規のラベルを付ける可能性があります。 これを回避する別の方法は、コンテンツを書き直すことです。





    クロールアイズインデックスをしましょう



    検索エンジンがWebサイトのWebクロールまたはスパイダリングを行う場合、検索エンジンはWebサイト上のすべてのコンテンツを調べてインデックスを作成します。 このプロセスにより、クロールされたWebサイトを検索エンジンの結果セクションに表示できます。

    robots.txtを使用して、アクセスできる場所とアクセスできない場所を検索エンジンに通知します。 基本的に、適切なルールを設定することによってそれらを制限しています。 robots.txtの使用はかなりシンプルで便利です。 ディレクティブを割り当てるルールを学んだら、Webサイトでできることがたくさんあります。

    robots.txtファイルを監視して、正しく設定され、コード化されたとおりに機能していることを確認することをお勧めします。 誤動作に気付いた場合は、災害を避けるために迅速に対応してください。

    robots.txtファイルは、Webサイトのインデックス作成を正常に制御するための不可欠なツールであると考えてください。