robots.txt ist ungültig.

Die Datei robots.txt teilt Suchmaschinen mit, welche Seiten deiner Website sie crawlen können. Eine ungültige robots.txt-Konfiguration kann zwei Arten von Problemen verursachen:

  • Sie kann Suchmaschinen daran hindern, öffentliche Seiten zu crawlen, sodass Ihre Inhalte seltener in den Suchergebnissen angezeigt werden.
  • Dies kann dazu führen, dass Suchmaschinen Seiten crawlen, die nicht in den Suchergebnissen erscheinen sollen.

So schlägt die robots.txt-Prüfung von Lighthouse fehl

Lighthouse kennzeichnet ungültige robots.txt-Dateien:

Lighthouse-Prüfung zeigt ungültige robots.txt-Datei

Maximieren Sie die Prüfung robots.txt ist ungültig im Bericht, um das Problem mit dem robots.txt zu ermitteln.

Häufige Fehler:

  • No user-agent specified
  • Pattern should either be empty, start with "/" or "*"
  • Unknown directive
  • Invalid sitemap URL
  • $ should only be used at the end of the pattern

Lighthouse überprüft nicht, ob sich die Datei robots.txt am richtigen Speicherort befindet. Damit die Datei korrekt funktioniert, muss sie sich im Stammverzeichnis Ihrer Domain oder Subdomain befinden.

Probleme mit robots.txt beheben

robots.txt darf keinen HTTP-Statuscode 5XX zurückgeben

Wenn Ihr Server einen Serverfehler (einen HTTP-Statuscode in den 500er-Schritten) für robots.txt zurückgibt, wissen Suchmaschinen nicht, welche Seiten gecrawlt werden sollten. Unter Umständen wird deine gesamte Website nicht mehr gecrawlt, sodass neue Inhalte nicht indexiert werden.

Öffnen Sie zum Prüfen des HTTP-Statuscodes robots.txt in Chrome und prüfen Sie die Anfrage in den Chrome-Entwicklertools.

robots.txt muss kleiner als 500 KiB sein

Suchmaschinen können die Verarbeitung von robots.txt während der Laufzeit beenden, wenn die Datei größer als 500 KiB ist. Das kann die Suchmaschine verwirren und dazu führen, dass Ihre Website nicht richtig gecrawlt wird.

Damit robots.txt klein bleibt, konzentrieren Sie sich weniger auf einzeln ausgeschlossene Seiten, sondern mehr auf allgemeine Muster. Wenn du beispielsweise das Crawling von PDF-Dateien blockieren möchtest, solltest du nicht jede einzelne Datei verbieten. Schließen Sie stattdessen alle URLs mit .pdf aus, indem Sie disallow: /*.pdf verwenden.

Formatfehler beheben

  • In robots.txt sind nur leere Zeilen, Kommentare und Anweisungen zulässig, die mit dem Format „name: value“ übereinstimmen.
  • Die Werte für allow und disallow müssen entweder leer sein oder mit / oder * beginnen.
  • Verwenden Sie $ nicht in der Mitte eines Werts (z. B. allow: /file$html).

Für user-agent muss ein Wert festgelegt sein

User-Agent-Namen, um Suchmaschinen-Crawlern mitzuteilen, welche Anweisungen zu befolgen sind. Sie müssen für jede Instanz von user-agent einen Wert angeben, damit Suchmaschinen wissen, ob die zugehörigen Anweisungen befolgt werden sollen.

Wenn Sie einen bestimmten Suchmaschinen-Crawler angeben möchten, verwenden Sie einen User-Agent-Namen aus der veröffentlichten Liste. Hier finden Sie beispielsweise die Liste der User-Agents, die für das Crawling verwendet werden.

Verwende *, um eine Übereinstimmung mit allen anderen Crawlern abzugleichen.

Don'ts
user-agent:
disallow: /downloads/

Kein User-Agent definiert.

Das sollten Sie tun:
user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

Es sind ein allgemeiner User-Agent und ein magicsearchbot-User-Agent definiert.

Es dürfen keine allow- oder disallow-Anweisungen vor user-agent vorhanden sein

Die Namen der User-Agents definieren die Abschnitte der Datei robots.txt. Suchmaschinen-Crawler verwenden diese Abschnitte, um zu bestimmen, welche Anweisungen zu befolgen sind. Wenn du eine Anweisung vor dem ersten User-Agent-Namen platzierst, wird ihr kein Crawler folgen.

Don'ts
# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

Kein Suchmaschinen-Crawler liest die Anweisung disallow: /downloads.

Das sollten Sie tun:
# start of file
user-agent: *
disallow: /downloads/

Alle Suchmaschinen dürfen den Ordner /downloads nicht crawlen.

Suchmaschinen-Crawler folgen nur den Anweisungen in dem Abschnitt mit dem spezifischsten User-Agent-Namen. Wenn du beispielsweise Anweisungen für user-agent: * und user-agent: Googlebot-Image hast, folgt der Googlebot-Images nur den Anweisungen im Abschnitt user-agent: Googlebot-Image.

Geben Sie eine absolute URL für sitemap an

Mit Sitemap-Dateien können Sie Suchmaschinen hervorragend über Seiten Ihrer Website informieren. Eine Sitemap-Datei enthält in der Regel eine Liste der URLs auf deiner Website sowie Informationen zum Zeitpunkt der letzten Änderung.

Wenn du eine Sitemap-Datei in robots.txt einreichen möchtest, verwende eine absolute URL.

Don'ts
sitemap: /sitemap-file.xml
Das sollten Sie tun:
sitemap: https://example.com/sitemap-file.xml

Ressourcen