„Crawler“ ist ein Überbegriff für Programme wie Robots oder Spider, die Websites automatisch scannen, indem sie Links von einer Webseite zur nächsten folgen. Der meistverwendete Crawler von Google ist der Googlebot. Die Tabelle unten enthält Informationen zu den gängigen Google-Crawlern, die in den Verweisprotokollen aufgeführt werden können, und dazu, wie Crawler in der Datei robots.txt, den Robots-Meta-Tags und den HTTP-Direktiven für das X-Robots-Tag angegeben werden.
In der folgenden Tabelle sind Crawler aufgeführt, die von verschiedenen Produkten und Diensten bei Google verwendet werden:
Das User-Agent-Token wird in robots.txt in der Zeile User-agent: verwendet und gibt an, für welchen Crawlertyp die Crawling-Regeln deiner Website gelten. Wie du in der Tabelle siehst, haben manche Crawler mehrere Tokens. Damit eine Regel angewendet wird, muss jedoch nur ein Crawler-Token übereinstimmen. Diese Liste ist nicht vollständig, umfasst jedoch die meisten Crawler, denen du auf deiner Website begegnen dürftest.
Der vollständige User-Agent-String ist eine komplette Beschreibung des Crawlers und wird in der HTTP-Anfrage und in deinen Webprotokollen angezeigt.
Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)
Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19
Google StoreBot
Token des User-Agents
Storebot-Google
Vollständige User-Agent-Strings
Computer-Agent:
Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36
Mobilgeräte-Agent:
Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Mobile Safari/537.36
User-Agents in robots.txt
Wenn mehrere User-Agents in der robots.txt-Datei erkannt werden, folgt Google dem spezifischsten. Sollen deine Seiten von allen Crawlern von Google gecrawlt werden, benötigst du keine robots.txt-Datei. Wenn du einen Teil deiner Inhalte für alle Google-Crawler sperren oder zulassen möchtest, gib den Googlebot als User-Agent an. Beispiel: Wenn alle deine Seiten in der Google Suche erscheinen und AdSense-Anzeigen auf deinen Seiten präsentiert werden sollen, brauchst du keine robots.txt-Datei. Falls du einige Seiten komplett für Google sperren möchtest, kannst du einfach den User-Agent Googlebot blockieren. Dadurch werden nämlich auch alle anderen User-Agents von Google blockiert.
Natürlich kannst du auch spezifischere Einstellungen vornehmen. Angenommen, du möchtest, dass alle deine Seiten in der Google Suche erscheinen, Bilder in deinem persönlichen Verzeichnis jedoch nicht gecrawlt werden. In diesem Fall kannst du über die robots.txt-Datei verhindern, dass der User-Agent Googlebot-Image die Dateien in deinem persönlichen Verzeichnis crawlt. Der Googlebot hat aber weiter Zugriff auf alle Dateien. Das sieht dann so aus:
Ein weiteres Beispiel: Angenommen, du möchtest, dass auf allen deinen Seiten Werbung erscheint, die entsprechenden Seiten sollen aber nicht in der Google Suche erscheinen. In diesem Fall blockierst du den Googlebot, lässt aber den User-Agent Mediapartners-Google zu. Das sieht dann so aus:
Jeder Google-Crawler greift zu einem bestimmten Zweck und mit unterschiedlicher Häufigkeit auf Websites zu. Google verwendet Algorithmen, um die optimale Crawling-Frequenz für einzelne Websites zu ermitteln. Wenn ein Google-Crawler deine Website zu oft crawlt, kannst du die Crawling-Frequenz verringern.