Wissenswertes zum Web-Crawling von Google

Google durchsucht das offene Web seit über 30 Jahren. Wir erhalten regelmäßig Fragen dazu, wie unsere Web-Crawler funktionieren. Hier sind einige Fakten zu den Crawlern von Google und dazu, wie sie uns helfen, die Informationen der Welt zu organisieren und Menschen mit Inhalten aus dem gesamten Web zu verbinden.

Was ist Crawling? Kurz gesagt: Crawling ist die Art und Weise, wie Google das Web „sieht“

Beim Crawling werden mit automatisierter Software neue Webseiten gefunden und analysiert. Wenn du dann auf Google nach einer Webseite suchst, wissen wir, dass sie existiert, und können sie in deine Suchergebnisse aufnehmen. Alle Suchmaschinen sind auf das Crawling angewiesen, um zu wissen, welche Seiten und Informationen es gibt. In diesem Video erfährst du mehr darüber, wie die Google Suche Seiten crawlt.

Wir haben viele Crawler, die jeweils wichtige Aufgaben haben

Der Googlebot ist unser bekanntester Crawler. Er wird verwendet, um die Ergebnisse in der Google Suche aktuell zu halten. Außerdem haben wir Crawler, die speziell für unsere anderen Plattformen wie Google Bilder und Google Shopping entwickelt wurden. Wir stellen eine vollständige Dokumentation unserer am häufigsten verwendeten Crawler und ihrer Verwendungszwecke bereit. Unsere Crawler verwenden leicht identifizierbare User-Agent-Namen und bekannte Internetadressen. So können sich Websiteinhaber sicher sein, dass die Google-Crawler, die sie sehen, legitim sind.

Wir führen wiederholte Crawlings durch, um die neuesten Aktualisierungen zu finden und aktuelle Suchergebnisse zu liefern.

Um Eilmeldungen zu erfassen, crawlen wir Nachrichten-Startseiten möglicherweise alle paar Minuten neu. In anderen Fällen hat sich möglicherweise seit Jahren nichts geändert. Dann warten wir vielleicht einen Monat, bevor wir die Website noch einmal crawlen. Websiteinhaber können mithilfe von Sitemap-Dateien, die uns über neue und aktualisierte Seiten informieren, beeinflussen, wie oft die Website neu gecrawlt wird.

Häufiges Crawling ist ein gutes Zeichen

Wenn wir deine Website häufig crawlen, ist das ein Zeichen dafür, dass deine Seiten aktuelle oder sehr relevante Inhalte enthalten, nach denen Nutzer suchen, und dass unsere Systeme diese Nachfrage erkennen. Ein gutes Beispiel ist der Onlinehandel: Wir crawlen E-Commerce-Websites häufig, damit in unseren Ergebnissen die aktuellsten Preise, Angebote und Lagerbestände von Einzelhändlern angezeigt werden.

Das Crawling von Google hat im Laufe der Zeit zugenommen, da Seiten immer komplexer geworden sind

Ein weiterer Grund für das häufige Crawlen ist, dass wir so die Inhalte einer Webseite und das, was sie bietet, besser erfassen können. Unsere Crawler verwenden eine Technik namens Rendering, bei der eine Website vollständig geladen wird, um eine Seite so zu „sehen“ wie eine echte Person sie sieht. Im Laufe der Jahre sind Webseiten immer komplexer geworden. Mobile Seiten sind im Median von je 816 Kilobyte auf 2,3 Megabyte angewachsen und es müssen jetzt mehr als 60 verschiedene Dateien geladen werden, von Bildern bis hin zu interaktiven Komponenten. Um eine repräsentative Momentaufnahme einer Webseite in ihrer ganzen Pracht zu erhalten, müssen wir sie möglicherweise mehrmals crawlen – oder öfter, da ständig neue Elemente hinzugefügt werden.

Wir optimieren das Crawling automatisch

Unsere Crawler sind auf Effizienz ausgelegt und passen sich an, um die Auswirkungen auf Websiteinhaber zu minimieren. Wenn eine Website beispielsweise langsamer wird oder Fehler zurückgibt, ändert sich die Crawling-Frequenz automatisch, um eine Überlastung der Server der Website zu vermeiden. Wir versuchen, unnötiges Crawling zu vermeiden, indem wir gecrawlte Inhalte im Cache speichern. Wenn unsere Crawler mehr von einer Website entdecken, können sie auch Bereiche erkennen, die weniger gecrawlt werden müssen. Kalender, die bis zum Jahr 9999 reichen, müssen beispielsweise wahrscheinlich nicht vollständig gecrawlt werden. Websiteinhaber können helfen, indem sie angeben, welche Inhalte nicht gecrawlt werden müssen. So können sie die Infrastrukturkosten ihrer Websites senken und das Internet insgesamt effizienter machen.

Google-Crawler greifen niemals ohne Genehmigung auf Paywall- oder Aboinhalte zu

Wenn eine Seite im offenen Web nicht zugänglich ist, z. B. weil die Inhalte hinter einer Anmeldeseite liegen, können unsere Crawler standardmäßig auch nicht darauf zugreifen. Wir haben spezifische Richtlinien für Websiteinhaber, die Google die ausdrückliche Erlaubnis erteilen möchten, auf Aboseiten zuzugreifen (z. B. damit Google Nutzer auf diese Inhalte verweisen kann). Wenn du unseren Crawlern Zugriff auf Abos gewährst, kannst du strukturierte Daten verwenden, um menschlichen Besuchern weiterhin einen Anmeldebildschirm zu präsentieren, ohne dass unsere Spamregeln ausgelöst werden. Mit Vorschaueinstellungen kannst du außerdem verhindern, dass Aboinhalte in Seitenvorschauen angezeigt werden.

Websiteinhaber können festlegen, was wie gecrawlt wird

Wir halten uns an offene Webstandards wie robots.txt, eine einfache Textdatei, mit der Websiteinhaber festlegen können, wie Crawler wie der unsere mit ihren Seiten interagieren sollen. Mit robots.txt-Dateien und Robots-Meta-Tags können Websites Google und anderen Diensten auf einfache Weise mitteilen, wie auf ihre Inhalte zugegriffen werden soll. Sie können verhindern, dass Seiten in der Google Suche angezeigt werden. Sie können uns über Sitemaps mitteilen, welche neuen Inhalte gecrawlt werden sollen. Außerdem können sie über ihr Crawling-Budget festlegen, wie oft wir ihre Websites crawlen.

Unsere Standard-Crawler berücksichtigen immer die Entscheidungen von Websites darüber, wie auf ihre Inhalte zugegriffen wird und wie sie verwendet werden

Nach einem Crawling können wir die gecrawlten Daten mehrmals verwenden, um unnötige Wiederholungsanfragen auf Websites zu vermeiden. Auch wenn wir diese Daten wiederverwenden, respektieren wir weiterhin die Entscheidungen, die Websites mit robots.txt treffen, und die Einstellungen, die wir über dieses offene Webprotokoll anbieten. So können Websites beispielsweise Google-Extended in robots.txt verwenden, um unter anderem zu steuern, ob ihre Inhalte zum Trainieren zukünftiger Versionen von Gemini-Modellen beitragen. Die Verwendung von Google-Extended hat keinen Einfluss auf die Aufnahme einer Website in die Google Suche und wird auch nicht als Ranking-Signal in der Google Suche verwendet.

Wir bieten Websiteinhabern viele Tools, mit denen sie das Crawling durch Google verwalten können, darunter die Google Search Console, die Websiteinhabern kostenlos zur Verfügung steht. Sie bietet Informationen dazu, wie viel wir gecrawlt haben und warum. Außerdem können Websiteinhaber damit Probleme wie Serverausfälle oder Geschwindigkeitsprobleme diagnostizieren. Außerdem bietet die Search Console umfassende Informationen dazu, wie die Seiten einer Website in der Google Suche sichtbar sind und wie Nutzer mit ihnen interagieren.

Unsere Crawler helfen, Menschen mit den besten Inhalten im Web zu verbinden. Wir suchen immer nach Möglichkeiten, sie leistungsfähiger und effizienter zu machen.