Übersicht über Google-Crawler und -Fetcher (User-Agents)
Google verwendet Crawler und Fetcher, um Aktionen für seine Produkte auszuführen, entweder automatisch oder durch Nutzeranfrage ausgelöst.
„Crawler“ (manchmal auch als „Robots“ oder „Spider“ bezeichnet) ist ein Überbegriff für Programme, die Websites automatisch finden und scannen. Dazu folgen sie Links von einer Webseite zur nächsten. Der Haupt-Crawler von Google, der für die Google Suche verwendet wird, ist der Googlebot.
„Fetcher“ sind, wie ein Browser, Tools, die eine einzelne URL anfordern, wenn ein Nutzer dazu auffordert.
Die folgenden Tabellen zeigen die von verschiedenen Produkten und Diensten verwendeten Google-Crawler und -Fetcher, wie sie in deinen Verweisprotokollen angezeigt werden können und wie sie in der robots.txt-Datei angegeben werden. Die Listen sind nicht vollständig. Sie decken nur die häufigsten Antragsteller ab, die in Protokolldateien angezeigt werden können.
-
Das User-Agent-Token wird in robots.txt in der Zeile
User-agent:
verwendet und gibt an, für welchen Crawlertyp die Crawling-Regeln deiner Website gelten. Wie du in der Tabelle siehst, haben manche Crawler mehrere Tokens. Damit eine Regel angewendet wird, muss jedoch nur ein Crawler-Token übereinstimmen. Diese Liste ist nicht vollständig, umfasst jedoch die meisten Crawler, denen du auf deiner Website begegnen dürftest. - Der vollständige User-Agent-String ist eine komplette Beschreibung des Crawlers und wird in der HTTP-Anfrage und in deinen Webprotokollen angezeigt.
Gängige Crawler
Die gängigen Crawler von Google werden verwendet, um Informationen zum Erstellen von Google-Suchindexen zu finden, andere produktspezifische Crawlings durchzuführen und Analysen vorzunehmen. Sie beachten immer die robots.txt-Regeln und crawlen im Allgemeinen die IP-Bereiche, die im googlebot.json-Objekt veröffentlicht werden.
Gängige Crawler | |||||
---|---|---|---|---|---|
Googlebot (Smartphone) |
|
||||
Googlebot (Computer) |
|
||||
Googlebot-Image |
Wird zum Crawlen von Bild-URLs für Google Bilder und für Produkte verwendet, die von Bildern abhängen.
|
||||
Googlebot-News |
Der Googlebot-News verwendet den Googlebot zum Crawlen von Nachrichtenartikeln, respektiert aber das bisherige User-Agent-Token
|
||||
Googlebot-Video |
Wird beim Crawlen von Video-URLs für Google Videos und für Produkte verwendet, die von Videos abhängen.
|
||||
Google StoreBot |
Der Google StoreBot crawlt unter anderem Seiten mit Produktdetails und Einkaufswagen sowie Zahlungsseiten.
|
||||
Google-InspectionTool |
Google-InspectionTool ist der Crawler, der von Search-Testtools wie dem Test für Rich-Suchergebnisse und der URL-Prüfung in der Search Console verwendet wird. Abgesehen vom User-Agent und dem User-Agent-Token wird der Googlebot nachgeahmt.
|
||||
GoogleOther |
GoogleOther ist der allgemeine Crawler, der von verschiedenen Produktteams zum Abrufen von öffentlich zugänglichen Inhalten von Websites verwendet werden kann. Er kann beispielsweise für einmaliges Crawling für die interne Forschung und Entwicklung verwendet werden.
|
||||
GoogleOther-Image |
GoogleOther-Image ist die Version von GoogleOther, die für das Abrufen öffentlich zugänglicher Bild-URLs optimiert ist.
|
||||
GoogleOther-Video |
GoogleOther-Video ist die Version von GoogleOther, die für das Abrufen öffentlich zugänglicher Video-URLs optimiert ist.
|
||||
Google-Extended |
|
Sonderfall-Crawler
Die Sonderfall-Crawler werden von bestimmten Produkten verwendet, wenn es eine Vereinbarung zwischen der gecrawlten Website und dem Produkt über den Crawling-Prozess gibt. Beispielsweise ignoriert AdsBot
den globalen robots.txt-User-Agent (*
) mit der Berechtigung des Anzeigen-Publishers. Die Sonderfall-Crawler können robots.txt-Regeln ignorieren, sodass sie von einem anderen IP-Bereich als die gängigen Crawlern arbeiten. Die IP-Bereiche werden im Objekt special-crawlers.json veröffentlicht.
Sonderfall-Crawler | |||||
---|---|---|---|---|---|
APIs-Google |
Wird von Google APIs verwendet, um Push-Benachrichtigungen zu senden. Ignoriert den globalen User-Agent (
|
||||
AdsBot Mobile Web |
Prüft die Anzeigenqualität auf Webseiten, die für Mobilgeräte optimiert sind.
Ignoriert den globalen User-Agent (
|
||||
AdsBot |
Prüft die Anzeigenqualität auf Webseiten, die für Computer optimiert sind.
Ignoriert den globalen User-Agent (
|
||||
AdSense |
Mit dem AdSense-Crawler wird der Content Ihrer Website ermittelt, sodass relevante Anzeigen ausgeliefert werden können. Ignoriert den globalen User-Agent (
|
||||
Mobile AdSense |
Der Mobile AdSense-Crawler greift zum Ermitteln des Contents auf deine Website zu, damit relevante Anzeigen ausgeliefert werden können. Ignoriert den globalen User-Agent (
|
||||
Google-Sicherheit |
Der Google-Sicherheits-User-Agent kümmert sich um missbrauchsspezifisches Crawling, z. B. die Erkennung von Malware für öffentlich gepostete Links in Google-Produkten. Dieser User-Agent ignoriert robots.txt-Regeln.
|
Vom Nutzer ausgelöste Fetcher
Vom Nutzer ausgelöste Fetcher werden von Nutzern initiiert, um eine produktspezifische Abruffunktion auszuführen. Google Site Verifier reagiert beispielsweise auf die Anfrage eines Nutzers und eine Website, die in Google Cloud (GCP) gehostete wird, hat eine Funktion, mit der Nutzer einen externen RSS-Feed abrufen können. Da der Abruf von einem Nutzer angefordert wurde, ignorieren diese Fetcher meist robots.txt-Regeln. Die IP-Bereiche, die von Fetchern verwendet werden, die vom Nutzer ausgelöst wurden, werden in den Objekten user-triggered-fetchers.json und user-triggered-fetchers-google.json veröffentlicht.
Vom Nutzer ausgelöste Fetcher | |||||
---|---|---|---|---|---|
Feedfetcher |
Der Feedfetcher wird zum Crawlen von RSS- oder Atom-Feeds für Google Podcasts, Google News und PubSubHubbub verwendet.
|
||||
Google Publisher Center |
Ruft Feeds ab, die Publisher explizit über das Google Publisher Center bereitgestellt haben, und verarbeitet sie für die Verwendung auf Google News-Landingpages.
|
||||
Google Read Aloud |
Auf Anfrage des Nutzers ruft Google Read Aloud Webseiten ab und liest sie über die Sprachausgabe vor.
|
||||
Google Site Verifier |
Google Site Verifier ruft Search Console-Bestätigungstokens ab, wenn der Nutzer dies anfordert.
|
Hinweis zu Chrome/W.X.Y.Z in User-Agents
Überall, wo in den User-Agent-Strings in der Tabelle der String Chrome/W.X.Y.Z erscheint, ist W.X.Y.Z ein Platzhalter für die vom jeweiligen User-Agent verwendete Version des Chrome-Browsers, z. B. 41.0.2272.96
. Diese Versionsnummer wird im Laufe der Zeit hochgezählt, weil sie jeweils der neuesten vom Googlebot verwendeten Chromium-Release-Version entspricht.
Wenn du in deinen Protokollen oder auf deinem Server nach einem User-Agent mit diesem Muster suchst, solltest du für die Versionsnummer am besten einen Platzhalter verwenden.
User-Agents in robots.txt
Wenn mehrere User-Agents in der robots.txt-Datei erkannt werden, folgt Google dem spezifischsten. Sollen deine Seiten von allen Crawlern von Google gecrawlt werden, benötigst du keine robots.txt-Datei. Wenn du einen Teil deiner Inhalte für alle Google-Crawler sperren oder zulassen möchtest, gib den Googlebot als User-Agent an. Beispiel: Wenn alle deine Seiten in der Google Suche erscheinen und AdSense-Anzeigen auf deinen Seiten präsentiert werden sollen, brauchst du keine robots.txt-Datei. Falls du einige Seiten komplett für Google sperren möchtest, kannst du einfach den User-Agent Googlebot
blockieren. Dadurch werden nämlich auch alle anderen User-Agents von Google blockiert.
Natürlich kannst du auch spezifischere Einstellungen vornehmen. Angenommen, du möchtest, dass alle deine Seiten in der Google Suche erscheinen, Bilder in deinem persönlichen Verzeichnis jedoch nicht gecrawlt werden. In diesem Fall kannst du über die robots.txt-Datei verhindern, dass der User-Agent Googlebot-Image
die Dateien in deinem persönlichen Verzeichnis crawlt. Der Googlebot hat aber weiter Zugriff auf alle Dateien. Das sieht dann so aus:
User-agent: Googlebot Disallow: User-agent: Googlebot-Image Disallow: /personal
Ein weiteres Beispiel: Angenommen, du möchtest, dass auf allen deinen Seiten Werbung erscheint, die entsprechenden Seiten sollen aber nicht in der Google Suche erscheinen. In diesem Fall blockierst du den Googlebot, lässt aber den User-Agent Mediapartners-Google
zu. Das sieht dann so aus:
User-agent: Googlebot Disallow: / User-agent: Mediapartners-Google Disallow:
Crawling-Geschwindigkeit steuern
Jeder Google-Crawler greift zu einem bestimmten Zweck und mit unterschiedlicher Häufigkeit auf Websites zu. Google verwendet Algorithmen, um die optimale Crawling-Frequenz für einzelne Websites zu ermitteln. Wenn ein Google-Crawler deine Website zu oft crawlt, kannst du die Crawling-Frequenz verringern.
Eingestellte Google-Crawler
Die folgenden Google-Crawler werden nicht mehr verwendet und sind hier nur zu Referenzzwecken aufgeführt.
Eingestellte Google-Crawler | |||||
---|---|---|---|---|---|
Google Duplex im Web |
Hat den Dienst „Duplex im Web“ unterstützt.
|
||||
Web Light |
Es wurde immer dann geprüft, ob der Header
|
||||
AdsBot Mobile Web |
Prüft die Anzeigenqualität auf Webseiten, die für iPhones optimiert sind.
Ignoriert den globalen User-Agent (
|
||||
Mobile Apps Android |
Prüft die Anzeigenqualität auf Seiten, die für Android-Apps optimiert sind.
Beachtet die
|
||||
Google Favicon |
|