Die Fehlercodes 403 und 404 nicht für die Ratenbegrenzung verwenden

Freitag, 17. Februar 2022

In den letzten Monaten haben wir festgestellt, dass Websiteinhaber und Content Delivery Networks (CDNs) vermehrt versuchen, 404- und andere 4xx-Clientfehler (aber nicht 429) zu verwenden, um die Crawling-Frequenz des Googlebots zu verringern.

Die Kernaussage dieses Blogposts lautet: Bitte tut das nicht. Es gibt eine Dokumentation zur Reduzierung der Crawling-Frequenz des Googlebots. Lest stattdessen diesen Artikel, um zu erfahren, wie ihr die Crawling-Frequenz des Googlebots effektiv steuern könnt.

Zurück zu den Grundlagen: 4xx-Fehlercodes sind für Clientfehler vorgesehen

Die 4xx-Fehler, die Server an Clients zurückgeben, sind ein Signal vom Server, dass die Anfrage des Clients in irgendeiner Weise falsch war. Die meisten Fehler in dieser Kategorie sind eher harmlos: Fehlertypen wie „Nicht gefunden“, „Verboten“ oder „Ich bin eine Teekanne“ (ja, den gibt es tatsächlich). Sie deuten keine Probleme mit dem Server an.

Die einzige Ausnahme ist 429, was für „zu viele Anfragen“ steht. Dieser Fehler weist deutlich darauf hin, dass der Robot, also auch der Googlebot, langsamer ausgeführt werden muss, weil er den Server überlastet.

Warum sind 4xx-Fehler schlecht für die Ratenbegrenzung in Bezug auf den Googlebot (außer 429)?

Clientfehler sind ganz einfach das: Clientfehler. Sie deuten im Allgemeinen nicht auf einen Serverfehler hin: nicht, dass er überlastet ist, nicht, dass ein kritischer Fehler aufgetreten ist, und nicht, dass er nicht auf die Anfrage antworten kann. Sie bedeuten einfach, dass die Anfrage des Clients in irgendeiner Weise nicht in Ordnung war. Es gibt keinen guten Grund, beispielsweise aus einem 404-Fehler zu schließen, dass der Server überlastet ist. Stellt euch vor, das wäre der Fall: Ihr erhaltet eine Reihe von 404-Fehlern, weil ein Freund versehentlich auf die falschen Seiten eurer Website verlinkt hat, und der Googlebot wiederum macht eure Website durch das Crawling langsamer. Das wäre ziemlich schlecht. Dasselbe gilt für 403, 410 und 418.

Die große Ausnahme ist wie gesagt der Statuscode 429, der „zu viele Anfragen“ bedeutet.

Wie wirkt sich die Ratenbegrenzung mit 4xx auf den Googlebot aus?

Alle 4xx-HTTP-Statuscodes (außer 429 wie gesagt) führen dazu, dass eure Inhalte aus der Google Suche entfernt werden. Wenn ihr gar eure robots.txt-Datei mit einem 4xx-HTTP-Statuscode bereitstellt, wird sie so behandelt, als wäre sie nicht vorhanden. Wenn ihr eine Regel hättet, nach der das Crawlen eurer schmutzigen Wäsche verboten ist, weiß der Googlebot jetzt davon, was für beide Seiten nicht gut ist.

So reduziert ihr die Crawling-Frequenz des Googlebots richtig

Wir bieten eine umfassende Dokumentation zur Reduzierung der Googlebot-Crawling-Frequenz und zur Verarbeitung der verschiedenen HTTP-Statuscodes durch den Googlebot (und die Suchindexierung). Kurz gesagt, solltet ihr eines von Folgendem tun:

Weitere Tipps oder Erläuterungen erhaltet ihr auf Twitter oder in den Hilfeforen.