Robots.txt für SEO (SEO-Grundlagen)

Veröffentlicht: 2022-04-09

Robots.txt-Dateien sind Elemente auf Ihren Websites, die Sie nicht wegwerfen möchten. Sie erlauben und blockieren den Zugang für unerwünschte Bot-Besucher, die versuchen, durch Ihre Website-Inhalte zu „schnüffeln“.

Dies ist mehr oder weniger eine einfache Möglichkeit, robots.txt-Dateien zu definieren.

In diesem Beitrag gehe ich auf die robots.txt für SEO- Grundlagen ein.

Du wirst lernen:

Wann Sie sie verwenden sollten
Wie man sie umsetzt
Fehler zu vermeiden

Bots, die von Suchmaschinen verwendet werden, sind Spinnen, die das Web durchsuchen, um Website-Inhalte aus dem gesamten Internet zu indizieren. Anhand dieser Informationen erfahren Suchmaschinen mehr über den Inhalt von Webseiten, sodass er bei Bedarf abgerufen werden kann.

Sobald Sie den Prozess des Web-Crawlings verstanden haben, werden Sie auch verstehen, warum robots.txt-Dateien für Ihre Website von Vorteil sind. Sie sind hier, um Sie vor herumschnüffelnden Besuchern zu schützen. Sie geben nur die Informationen heraus, die Sie über Ihre Website zeigen möchten.

Um robots.txt-Dateien besser zu verstehen, werfen wir einen genaueren Blick darauf, was sie sind und wie sie alle miteinander verschmelzen.

Was sind Robots.txt-Dateien?

Robots.txt. Dateien, auch als Robots Exclusion Protocol bekannt, sind Dateien, die von Suchmaschinen gelesen werden und Regeln enthalten, um den Zugriff auf alle oder bestimmte Teile Ihrer Website zu gewähren oder zu verweigern. Suchmaschinen wie Google oder Bing senden Webcrawler, um auf Ihre Website zuzugreifen und Informationen zu sammeln, die sie verwenden können, damit Ihre Inhalte in den Suchergebnissen erscheinen können.

Um sich vorzustellen, wie robot.txt-Dateien funktionieren, stellen Sie sich Bots oder kleine Spinnen vor, die auf der Suche nach Informationen durch Ihre Website kriechen. Denken Sie an diese Sci-Fi-Filme, wenn eine Million Roboterspinnen durch den Ort kriechen und herumschnüffeln, um auch nur den geringsten Hinweis auf die Anwesenheit des Betrügers zu finden.

über GIPHY

Diese einfachen Textdateien werden für SEO verwendet, indem Befehle an Suchmaschinen ausgegeben werden, die Bots indizieren, dass eine Seite gecrawlt werden kann oder nicht. Robots.txt-Dateien werden hauptsächlich zur Verwaltung des Budgets von Web-Crawlern verwendet und sind praktisch, wenn Sie nicht möchten, dass diese Crawler auf einen Teil Ihrer Website zugreifen.

Robots.txt. Dateien sind sehr wichtig, weil sie Suchmaschinen mitteilen, wo sie crawlen dürfen. Im Grunde blockieren sie Ihre Website teilweise oder vollständig oder indizieren Ihre Website. Mit anderen Worten, es ist eine Möglichkeit, Ihre Website von Suchmaschinen entdecken zu lassen.

Der Krabbelprozess bei der Arbeit

Das Durchsuchen von Websites nach Inhalten wird als Spidering bezeichnet. Die Hauptaufgabe von Suchmaschinen besteht darin, das Web zu crawlen, um Inhalte zu entdecken und zu indizieren, indem sie Millionen von Links folgen. Wenn ein Roboter auf eine Website zugreift, sucht er als Erstes nach den robots.txt-Dateien, um Informationen darüber zu erhalten, wie viel „Schnüffeln“ er tun kann.

Suchmaschinen halten sich an die Regeln, die in Ihren robots.txt-Dateien festgelegt sind. Wenn es keine robot.txt-Datei gibt oder die Website keine verbotenen Aktivitäten aufweist, werden die Bots alle Informationen durchsuchen. Einige Suchmaschinen wie Google unterstützen jedoch nicht alle angegebenen Anweisungen, und wir werden dies weiter unten näher erläutern.

Warum Robots.txt-Dateien verwenden?

Robots.txt-Dateien ermöglichen Websites verschiedene Dinge wie:

Sperren Sie den Zugriff auf die gesamte Website
Blockieren Sie den Zugriff auf einen Teil der Website
Blockieren Sie den Zugriff auf eine URL oder bestimmte URL-Parameter
Sperren Sie den Zugriff auf ein ganzes Verzeichnis
Ermöglicht die Einrichtung von Platzhaltern

Robots.txt-Dateien steuern die Aktivität des Crawlers auf Ihrer Website, indem sie ihm Zugriff auf bestimmte Bereiche gewähren. Es gibt immer Gründe, warum Sie Google oder anderen Suchmaschinen keinen Zugriff auf bestimmte Teile Ihrer Website gewähren würden. Einer davon könnte sein, dass Sie Ihre Website noch entwickeln oder vertrauliche Informationen schützen möchten.

Obwohl Websites ohne eine robots.txt-Datei funktionieren können, ist es wichtig, sich an einige Vorteile ihrer Verwendung zu erinnern:

Verhindern Sie, dass Suchmaschinen private Ordner oder Subdomains durchsuchen
Verhindern Sie das Crawlen von doppelten Inhalten und den Besuch von Seiten, die Sie für unbedeutend halten
Verhindern Sie die Indizierung einiger Bilder auf Ihrer Website
Serverüberlastung verhindern und verwalten
Verhindern Sie eine Verlangsamung der Website

Beachten Sie, dass die Anweisung an Bots, eine Seite nicht zu crawlen, nicht bedeutet, dass sie nicht indiziert wird. Die URL wird in der Suchmaschine angezeigt, jedoch ohne Meta-Beschreibung.

Wie finde, erstelle und teste ich Robots.txt-Dateien?

Die robots.txt befindet sich immer in der Root-Domain der Website. Sie finden es beispielsweise unter https://www.example.com/robots.txt. Wenn Sie es bearbeiten möchten, können Sie auf den Dateimanager im CPanel des Hosts zugreifen.

Wenn Ihre Website keine robots.txt-Datei hat, ist das Erstellen einer solchen ziemlich einfach, da es sich um eine einfache Textdatei handelt, die in einem Texteditor erstellt wird. Öffnen Sie einfach ein leeres .txt-Dokument und fügen Sie Ihre Anweisungen ein. Wenn Sie fertig sind, speichern Sie die Datei einfach als „robots.txt“ und schon haben Sie sie.

Wenn Sie im Allgemeinen viele Tippfehler machen, ist es vielleicht ratsam, einen robots.txt-Generator zu verwenden, um SEO-Desaster zu vermeiden und Syntaxfehler zu minimieren. Denken Sie daran, dass selbst der kleinste Fehler, einen Buchstaben oder eine Zahl zu vergessen oder hinzuzufügen, zu Problemen führen kann.

Nachdem die robots.txt-Datei erstellt wurde, legen Sie sie im entsprechenden Domain-Root-Verzeichnis ab. Stellen Sie sicher, dass Sie die Datei testen, bevor Sie live gehen, um sicherzustellen, dass sie gültig ist. Dazu müssen Sie auf die Google Support-Seite gehen und auf die Schaltfläche „robots.txt-Tester öffnen“ klicken. Leider ist diese Testoption nur in der alten Version der Google Search Console verfügbar.

Wählen Sie die Eigenschaft aus, die Sie testen möchten, entfernen Sie alles, was sich möglicherweise im Feld befindet, und fügen Sie Ihre robots.txt-Datei ein. Wenn Ihre Datei das OK erhält, haben Sie eine voll funktionsfähige robots.txt-Datei. Wenn nicht, müssen Sie zurückgehen und nach dem Fehler suchen.

Implementieren von Crawl-Richtlinien

Jede robots.txt-Datei besteht aus Anweisungen, die den Suchmaschinen Zugriff auf Informationen geben. Jede Anweisung beginnt mit der Angabe des Benutzeragenten und dem Festlegen der Regeln für diesen Benutzeragenten. Nachfolgend haben wir zwei Listen zusammengestellt; eine enthält unterstützte Anweisungen und die andere nicht unterstützte Anweisungen von Benutzeragenten.

Unterstützte Direktiven

User-Agent – eine Anweisung, die verwendet wird, um auf bestimmte Bots abzuzielen. Suchmaschinen suchen nach Benutzeragenten und Blöcken, die für sie gelten. Jede Suchmaschine hat eine User-Agent-Marke. Stellen Sie aus Gründen der Groß- und Kleinschreibung sicher, dass Sie die richtige Form der Benutzeragenten eingeben.

Zum Beispiel:
User-Agent: Googlebot
Benutzeragent: Bingbot

Disallow – Verwenden Sie diese Anweisung, wenn Sie verhindern möchten, dass Suchmaschinen bestimmte Bereiche der Website crawlen. Sie können Folgendes tun:

den Zugriff auf ein Verzeichnis als Ganzes für alle User-Agents sperren:
User-Agent: *
Nicht zulassen: /
Sperren Sie ein bestimmtes Verzeichnis insbesondere für alle User-Agents
User-Agent: *
Nicht zulassen: /portfolio
Blockieren Sie den Zugriff auf PDF- oder andere Dateien für alle Benutzeragenten. Verwenden Sie einfach die entsprechende Dateierweiterung.
User-Agent: *
Nicht zulassen: *.pdf$

Zulassen – Diese Anweisung erlaubt Suchmaschinen, die Seite oder das Verzeichnis zu crawlen. Denken Sie daran, dass Sie eine unzulässige Direktive überschreiben können. Angenommen, Sie möchten nicht, dass Suchmaschinen ein Portfolio-Verzeichnis crawlen, aber Sie erlauben ihnen, auf ein bestimmtes Verzeichnis zuzugreifen.

User-Agent: *
Nicht zulassen: /portfolio
Zulassen: /portfolio/allowed-portfolio

Sitemap - Suchmaschinen den Standort der Sitemap zu geben, erleichtert ihnen das Crawlen.

Nicht unterstützte Direktiven

Crawl-Verzögerung – Dies ist eine gute Anweisung, wenn Sie möchten, dass Bots langsamer werden und zwischen Crawls verzögern, um Ihre Server nicht zu überlasten. Diese Direktive ist eher für kleine Websites als für große hilfreich. Nur eine Anmerkung, dass die Crawl-Verzögerungsrichtlinie nicht mehr von Google und Baidu unterstützt wird, aber Yandex und Bing unterstützen sie immer noch.
Noindex – eine Anweisung, die verwendet wird, um eine Website oder eine Datei von Suchmaschinen auszuschließen. Dieser Befehl wurde von Google nie unterstützt. Wenn Sie also Suchmaschinen vermeiden möchten, müssen Sie x-robots HTTP-Header oder Meta-Tag-Roboter verwenden.
Nofollow – eine weitere Anweisung, die nie von Google unterstützt wurde und verwendet wurde, um Suchmaschinen zu befehlen, Links auf Seiten nicht zu folgen. Verwenden Sie x-robots-Header oder Meta-Tag-Roboter, um die nofollow-Anweisung für alle Links zu verwenden.
Hostdirektive - sie wird verwendet, um zu entscheiden, ob Sie www. vor einer URL ( example.com oder www.example.com ). Diese Richtlinie wird derzeit nur von Yandex unterstützt, daher wird empfohlen, sich nicht darauf zu verlassen.

Verwendung von Platzhaltern

Platzhalter sind Zeichen, die verwendet werden, um robots.txt-Anweisungen zu vereinfachen. Die Platzhalter können verwendet werden, um Anweisungen an alle Benutzeragenten zu adressieren und anzuwenden oder um bestimmte Benutzeragenten einzeln anzusprechen. Hier sind die häufig verwendeten Platzhalter:

Asterix (*) - in Direktiven entspricht es "auf alle Benutzeragenten anwenden". Es kann auch verwendet werden, um "URL-Mustern oder einer beliebigen Zeichenfolge entsprechen" zu entsprechen. Wenn Sie URLs haben, die demselben Muster folgen, dann wird Ihnen das das Leben viel einfacher machen.
Ein Dollarzeichen ($) - wird verwendet, um das Ende einer URL zu markieren.

Mal sehen, wie das in einem Beispiel aussehen wird. Wenn Sie entscheiden, dass nicht alle Suchmaschinen Zugriff auf Ihre PDF-Dateien haben sollen, dann sollte die robots.txt so aussehen:
User-Agent: *
Nicht zulassen: /*.pdf$

Daher sind URLs, die auf .pdf enden, nicht zugänglich. Beachten Sie jedoch, dass diese URL zugänglich ist, wenn Ihre URL nach der .pdf-Endung zusätzlichen Text enthält. Stellen Sie daher beim Schreiben Ihrer robots.txt-Dateien sicher, dass Sie alle Aspekte berücksichtigt haben.

Zu vermeidende Fehler

Die Verwendung von robot.txt-Dateien ist nützlich und es gibt viele Möglichkeiten, sie zu verwenden. Aber lassen Sie uns tiefer eintauchen und die Fehler durchgehen, die bei der Verwendung der robots.txt-Datei vermieden werden müssen.

Die Vorteile sind immens, aber es kann auch viel Schaden angerichtet werden, wenn robot.txt-Dateien nicht richtig verwendet werden.

Neue Zeile - Verwenden Sie für jede Anweisung eine neue Zeile, um Suchmaschinen nicht zu verwirren
Achten Sie auf Groß- und Kleinschreibung – erstellen Sie die robots.txt-Dateien richtig, da sie zwischen Groß- und Kleinschreibung unterscheiden. Achten Sie genau darauf, sonst funktionieren sie nicht
Vermeiden Sie das Blockieren von Inhalten – Stellen Sie sicher, dass Sie Disallow- und Noindex-Tags mehrmals durchgehen, da sie die SEO-Ergebnisse beeinträchtigen könnten. Achten Sie darauf, gute Inhalte, die öffentlich präsentiert werden sollen, nicht zu blockieren
Schützen Sie private Daten - Um private Informationen zu schützen, ist es ratsam, Besucher aufzufordern, sich anzumelden. Auf diese Weise können Sie sicher sein, dass PDFs oder andere Dateien sicher sind
Überbeanspruchung der Crawl-Verzögerung - Ein guter Ratschlag ist, keine Direktive zu überbeanspruchen, insbesondere nicht die Crawl-Verzögerung. Wenn Sie eine große Website betreiben, kann die Verwendung dieser Richtlinie kontraproduktiv sein. Sie begrenzen das Crawling der Bots auf die maximale Anzahl von URLs pro Tag, was nicht ratsam ist.

Doppelter Inhalt

Es gibt mehrere Gründe, warum Ihre Website Duplicate Content enthalten kann. Es kann sich um eine druckerfreundliche Version handeln, um eine Seite, auf die über mehrere URLs zugegriffen werden kann, oder um verschiedene Seiten mit ähnlichem Inhalt. Suchmaschinen können nicht erkennen, ob es sich um eine doppelte Version handelt oder nicht.

In solchen Fällen muss der Benutzer die URL als kanonisch markieren. Dieses Tag wird verwendet, um die Suchmaschine darüber zu informieren, wo sich das Duplikat ursprünglich befindet. Wenn der Benutzer dies nicht tut, wählt der Benutzeragent aus, welcher Inhalt kanonisch ist, oder was noch schlimmer ist, er kennzeichnet möglicherweise beide Inhalte als kanonisch. Eine andere Möglichkeit, dies zu vermeiden, besteht darin, den Inhalt neu zu schreiben.

Lassen Sie Crawling Eyes Index

Wenn Suchmaschinen Web-Crawling oder Spidering Ihrer Website durchführen, durchsuchen sie den gesamten Inhalt der Website, um sie zu indizieren. Durch diesen Vorgang können gecrawlte Websites im Ergebnisbereich der Suchmaschinen angezeigt werden.

Durch die Verwendung von robots.txt teilen Sie Suchmaschinen mit, wo sie Zugriff haben oder nicht. Sie schränken sie im Grunde ein, indem Sie geeignete Regeln festlegen. Die Verwendung von robots.txt ist ziemlich einfach und nützlich. Sobald Sie die Regeln für die Zuweisung der Richtlinien gelernt haben, können Sie mit Ihrer Website viele Dinge tun.

Es wird empfohlen, dass Sie Ihre robots.txt-Dateien im Auge behalten, um sicherzustellen, dass sie korrekt eingerichtet sind und wie codiert funktionieren. Wenn Sie eine Fehlfunktion bemerken, reagieren Sie schnell, um Katastrophen zu vermeiden.

Betrachten Sie robots.txt-Dateien als ein wesentliches Werkzeug, um die Indizierung Ihrer Website erfolgreich zu steuern.