Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Googlebot

Googlebot ist der allgemeine Name für den Web-Crawler von Google. Genauer gesagt handelt es sich dabei um zwei verschiedene Arten von Crawlern: einen Computer-Crawler, der einen Nutzer auf einem Computer simuliert, und einen mobilen Crawler, der einen Nutzer auf einem Mobilgerät simuliert.

Deine Website wird wahrscheinlich sowohl vom Googlebot für Computer als auch vom Googlebot-Mobile gecrawlt. In der Anfrage im User-Agent-String siehst du, um welchen der beiden es sich handelt. Allerdings gilt für beide Crawler-Typen das gleiche Produkt-Token (User-Agent-Token) in der Datei „robots.txt“ und es ist nicht möglich, gezielt den Googlebot für Computer oder den Googlebot für Smartphones auszuwählen.

So greift der Googlebot auf deine Website zu

In den meisten Fällen greift der Googlebot im Durchschnitt nur einmal alle paar Sekunden auf deine Website zu. Aufgrund von Verzögerungen kann die Frequenz über kurze Zeiträume gesehen jedoch höher erscheinen.

Der Googlebot wurde so entwickelt, dass er gleichzeitig über Tausende Computer ausgeführt werden kann, um so analog zum Wachstum des Webs seine Leistung und Abdeckung zu erhöhen. Damit nicht unnötig Bandbreite beansprucht wird, führen wir viele Crawler auf Computern aus, die sich in der Nähe der Websites befinden, die sie crawlen. Aus diesem Grund weisen deine Protokolle bei google.com eventuell Aufrufe verschiedener Computer mit dem User-Agent „Googlebot“ auf. Wir bemühen uns, bei jedem Besuch möglichst viele Seiten deiner Website zu crawlen, ohne dass die Bandbreite deines Servers zu sehr beansprucht wird. Wenn deine Website nicht mit den Crawling-Anfragen von Google mithalten kann, kannst du eine Änderung der Crawling-Frequenz beantragen.

Im Allgemeinen crawlt der Googlebot über HTTP/1.1. Seit November 2020 crawlt der Googlebot jedoch Websites, für die das von Vorteil ist, möglicherweise über HTTP/2, sofern dies von der Website unterstützt wird. Dadurch lassen sich eventuell Rechenressourcen wie CPU oder RAM für die Website und den Googlebot einsparen. Das hat jedoch keine Auswirkungen auf die Indexierung oder das Ranking deiner Website.

Wenn du das Crawling über HTTP/2 deaktivieren möchtest, weise den Server, der deine Website hostet, an, mit einem HTTP-Statuscode 421 zu antworten, wenn der Googlebot versucht, deine Website über HTTP/2 zu crawlen. Falls dies nicht möglich ist, kannst du eine Nachricht an das Googlebot-Team senden. Das ist allerdings nur eine temporäre Lösung.

Der Googlebot kann die ersten 15 MB in einer HTML-Datei oder in einer unterstützten textbasierten Datei crawlen. Alle in der HTML-Datei referenzierten Ressourcen wie Bilder, Videos, CSS und JavaScript werden separat abgerufen. Nach den ersten 15 MB der Datei beendet der Googlebot das Crawling und berücksichtigt nur die ersten 15 MB der Datei für die Indexierung. Die Beschränkung der Dateigröße gilt für die unkomprimierten Daten. Bei anderen Crawlern gelten möglicherweise andere Beschränkungen.

Googlebot für das Crawlen deiner Website blockieren

Es ist praktisch unmöglich, einen Webserver geheim zu halten, indem du keine Links zu ihm veröffentlichst. Sobald beispielsweise jemand einem Link von deinem „geheimen“ Server zu einem anderen Server folgt, kommt deine „geheime“ URL im Verweis-Tag vor und kann von dem anderen Webserver in dessen Verweisprotokoll gespeichert und veröffentlicht werden. Außerdem gibt es im Web zahlreiche veraltete und fehlerhafte Links. Sollte jemand einen falschen Link zu deiner Website veröffentlichen oder die Links nicht aktualisieren, wenn sich auf deinem Server etwas ändert, versucht der Googlebot, einen falschen Link von deiner Website aus zu crawlen.

Wenn du nicht möchtest, dass der Googlebot Inhalte auf deiner Website crawlt, hast du verschiedene Möglichkeiten. Du kannst entweder verhindern, dass der Googlebot eine Seite crawlt, dass er sie indexiert oder dass sowohl Crawler als auch Nutzer überhaupt auf die Seite zugreifen können.

Googlebot prüfen

Bevor du dich dazu entscheidest, den Googlebot zu blockieren, solltest du wissen, dass der vom Googlebot verwendete User-Agent-String oftmals von anderen Crawlern gefälscht wird. Es ist wichtig, zu prüfen, ob eine problematische Anfrage tatsächlich vom Googlebot stammt. Die beste Möglichkeit, das zu prüfen, besteht darin, einen umgekehrten DNS-Lookup für die Quell-IP der Anfrage zu verwenden oder die Quell-IP mit den IP-Bereichen des Googlebots zu vergleichen.