Robots.txt: Was ist das?

Die robots.txt ist eine Textdatei, die auf einem Webserver oder Webhosting-Paket gespeichert wird. Die Datei ist im Wurzelverzeichnis (Root Verzeichnis) der Website gespeichert und wird immer zuerst von einem Suchmaschinen-Bot gecrawlt.

Mit Hilfe dieser Datei lässt sich festlegen, ob und welche Unterseiten oder Verzeichnisse einer Website von einem Suchmaschinen-Crawler besucht und ob diese in den Index der Suchmaschinen wie Google aufgenommen werden dürfen.

Ebenfalls können mit Hilfe der Robots Textdatei bestimmte Unterseiten vom Suchergebnis ausgeschlossen werden. Allerdings wird diese Datei von einigen Bots gern ignoriert. Daher sollte man Unterseiten, die nicht im Index erscheinen sollen, mit einem Passwort schützen. In der Suchmaschinenoptimierung wird eine Noindex-Anweisung in der robots.txt nicht empfohlen. Eine deutlich bessere Methode wäre eine Lösung über einen Meta-Robots Tag im -Bereich der Website.

Beispiel:

<meta name='robots' content='noindex, nofollow,' />

Deine Wettbewerber werden bei Google besser gefunden als Du?

Mit unserer laufenden SEO Betreuung wirst Du schnell bessere Rankings in Googles Suchergebnissen erreichen und so mehr Kunden gewinnen und mehr Umsatz erzielen.

Kostenlose Erstberatung vereinbaren

Ein weiterer Vorteil der Datei robots.txt ist die Möglichkeit, Crawl Budget zu sparen, da unwichtige Verzeichnisse nicht indexiert werden müssen.

Kann ich mich auf die Robots TXT verlassen?

Die robots.txt Datei ist eine Unterstützung für Crawler, jedoch ist ein Crawlen nicht garantiert ausgeschlossen. Weiterhin bietet diese Datei keinen Schutz vor unerlaubten Zugriffen, hier sollte stattdessen ein Passwortschutz des Webservers verwendet werden. Obwohl Google und Bing beide angeben, dass sie die robots.txt Datei beachten, sind sie nicht dazu verpflichtet.

Kann ich die robots.txt Datei aufrufen?

Du kannst die Datei ganz einfach aufrufen. Du gibst in die Adresszeile Deines Bowsers Deine Domain ein und hängt dort ein /robots.txt an. Wichtig: Es funktioniert nur mit der Startseite Deiner Homepage. Aus einem Verzeichnis oder einer Unterseite heraus entsteht ein 404 Fehler.

https://deine-website.de/robots.txt

Solltest Du WordPress und das beliebte SEO-Plugin Yoast SEO verwenden, dann legt Yoast eine (virtuelle) Datei für Dich an. Folgenden Inhalt hat diese Datei:

# START YOAST BLOCK
# ---------------------------
User-agent: *
Disallow:

Sitemap: https://neu.korn-healthcare-law.de/sitemap_index.xml
# ---------------------------
# END YOAST BLOCK