Googlebot

Googlebot ist der allgemeine Name für den Web-Crawler von Google. Genauer gesagt handelt es sich dabei um zwei verschiedene Arten von Crawlern: einen Computer-Crawler, der einen Nutzer auf einem Computer simuliert, und einen mobilen Crawler, der einen Nutzer auf einem Mobilgerät simuliert.

Deine Website wird wahrscheinlich sowohl vom Googlebot für Computer als auch vom Googlebot-Mobile gecrawlt. In der Anfrage im User-Agent-String siehst du, um welchen der beiden es sich handelt. Allerdings gilt für beide Crawler-Typen das gleiche Produkt-Token (User-Agent-Token) in der Datei „robots.txt“ und es ist nicht möglich, gezielt den Googlebot für Computer oder den Googlebot für Smartphones auszuwählen.

Wenn deine Website bei Google auf Mobile First umgestellt wurde, kommen die meisten Googlebot-Anfragen über den mobilen Crawler und ein kleiner Teil über den Computer-Crawler. Bei Websites, die noch nicht umgestellt wurden, wird meistens über den Computer-Crawler gecrawlt. Derjenige der Crawler, der seltener genutzt wird, crawlt in beiden Fällen nur URLs, die bereits vom Haupt-Crawler gecrawlt wurden.

So greift der Googlebot auf Ihre Website zu

In den meisten Fällen greift der Googlebot im Durchschnitt nur einmal alle paar Sekunden auf Ihre Website zu. Aufgrund von Verzögerungen kann die Frequenz über kurze Zeiträume gesehen jedoch höher erscheinen.

Der Googlebot wurde so entwickelt, dass er gleichzeitig über Tausende Computer ausgeführt werden kann, um so analog zum Wachstum des Webs seine Leistung und Abdeckung zu erhöhen. Damit nicht unnötig Bandbreite beansprucht wird, führen wir viele Crawler auf Computern aus, die sich in der Nähe der Websites befinden, die sie crawlen. Aus diesem Grund weisen deine Protokolle bei google.com eventuell Aufrufe verschiedener Computer mit dem User-Agent „Googlebot“ auf. Wir bemühen uns, bei jedem Besuch möglichst viele Seiten deiner Website zu crawlen, ohne dass die Bandbreite deines Servers zu sehr beansprucht wird. Wenn deine Website nicht mit den Crawling-Anfragen von Google mithalten kann, kannst du eine Änderung der Crawling-Frequenz beantragen.

Im Allgemeinen crawlt der Googlebot über HTTP/1.1. Seit November 2020 crawlt der Googlebot jedoch Websites, für die das von Vorteil ist, möglicherweise über HTTP/2, sofern dies von der Website unterstützt wird. Dadurch lassen sich eventuell Rechenressourcen wie CPU oder RAM für die Website und den Googlebot einsparen. Das hat jedoch keine Auswirkungen auf die Indexierung oder das Ranking deiner Website.

Wenn du das Crawling über HTTP/2 deaktivieren möchtest, weise den Server, der deine Website hostet, an, mit einem HTTP-Statuscode 421 zu antworten, wenn der Googlebot versucht, deine Website über HTTP/2 zu crawlen. Falls dies nicht möglich ist, können Sie eine Nachricht an das Googlebot-Team senden. Das ist allerdings nur eine temporäre Lösung.

Googlebot für das Crawlen Ihrer Website blockieren

Es ist praktisch unmöglich, einen Webserver geheim zu halten, indem Sie keine Links zu ihm veröffentlichen. Sobald beispielsweise jemand einem Link von Ihrem „geheimen“ Server zu einem anderen Server folgt, kommt Ihre „geheime“ URL im Verweis-Tag vor und kann von dem anderen Webserver in dessen Verweisprotokoll gespeichert und veröffentlicht werden. Außerdem gibt es im Web zahlreiche veraltete und fehlerhafte Links. Sollte jemand einen falschen Link zu deiner Website veröffentlichen oder die Links nicht aktualisieren, wenn sich auf deinem Server etwas ändert, versucht der Googlebot, einen falschen Link von deiner Website aus zu crawlen.

Wenn du nicht möchtest, dass der Googlebot Inhalte auf deiner Website crawlt, hast du verschiedene Möglichkeiten. Dabei können Sie entweder verhindern, dass der Googlebot eine Seite crawlt, dass er sie indexiert oder dass sowohl Crawler als auch Nutzer überhaupt auf die Seite zugreifen können.

Googlebot überprüfen

Bevor du dich dazu entscheidest, den Googlebot zu blockieren, solltest du wissen, dass der vom Googlebot verwendete User-Agent-String oftmals von anderen Crawlern gefälscht wird. Es ist wichtig, zu prüfen, ob eine problematische Anfrage tatsächlich vom Googlebot stammt. Die beste Möglichkeit, das zu prüfen, besteht darin, einen umgekehrten DNS-Lookup für die Quell-IP der Anfrage zu verwenden.

Der Googlebot und alle seriösen Suchmaschinen-Bots berücksichtigen die Anweisungen von robots.txt, einige unseriöse Suchmaschinen und Spammer jedoch nicht. Google bekämpft Spammer aktiv. Wenn Sie Spamseiten oder -websites in den Google-Suchergebnissen entdecken, können Sie Google diesen Spam melden.