Duplizierte URLs zusammenfassen

Wenn es eine einzelne Seite gibt, die über mehrere URLs aufgerufen werden kann, oder wenn verschiedene Seiten mit ähnlichem Inhalt existieren, z. B. eine mobile Version und eine Desktopversion, sieht Google diese als duplizierte Versionen derselben Seite an. In diesem Fall wählt Google eine URL als kanonische Version aus und crawlt diese. Alle anderen URLs werden als duplizierte URLs betrachtet und seltener gecrawlt.

Wenn du Google nicht ausdrücklich mitteilst, welche URL kanonisch ist, trifft Google die Wahl für dich oder betrachtet beide als gleichwertig, was zu unerwünschtem Verhalten führen kann, wie unter Warum sollte ich eine kanonische URL auswählen? erklärt wird.

Wie indexiert der Googlebot und wie wird die kanonische URL ausgewählt?

Wenn der Googlebot eine Website indexiert, versucht er, auf den einzelnen Seiten die Hauptinhalte zu ermitteln. Findet er mehrere, dem Anschein nach identische Seiten auf derselben Website, wählt er die Seite aus, die die umfangreichste und nützlichste zu sein scheint, und kennzeichnet sie als kanonisch. Die kanonische Seite wird am häufigsten gecrawlt, die Duplikate dagegen seltener, um die Crawling-Last auf deiner Website zu reduzieren.

Google wählt eine kanonische Seite anhand verschiedener Signale aus, z. B. danach, ob die Seite über HTTP oder HTTPS verfügbar ist, welche Qualität die Seite hat, ob die URL in einer Sitemap aufgeführt ist und ob es rel=canonical-Kennzeichnungen gibt. Mithilfe dieser Signale kannst du auf deine bevorzugte Seite hinweisen. Unter Umständen trifft Google jedoch aus verschiedenen Gründen eine andere Wahl als du selbst.

Verschiedene Sprachversionen einer einzelnen Seite gelten auch dann als Duplikate, wenn nur der Hauptinhalt in derselben Sprache verfasst ist. Wenn zum Beispiel nur die Kopf- und Fußzeile sowie andere nicht kritische Textabschnitte in andere Sprachen übersetzt wurden, der Haupttext aber identisch geblieben ist, gelten die Seiten trotzdem als duplizierte Seiten.

Google hält sich hauptsächlich an die kanonischen Seiten, wenn es die Inhalte und Qualität deiner Website beurteilt. Auch das Ergebnis der Google Suche verweist normalerweise auf die kanonische Seite, es sei denn, eine der duplizierten Seiten passt deutlich besser zur Suchanfrage eines Nutzers. Zum Beispiel wird ein Nutzer, der ein Mobilgerät verwendet, vom Suchergebnis wahrscheinlich auf die mobile Seite verwiesen – auch wenn die Desktopseite als kanonisch gekennzeichnet ist.

Warum sollten ähnliche/duplizierte Seiten beibehalten werden?

Es gibt gute Gründe, weshalb deine Website verschiedene URLs haben kann, die auf dieselbe Seite verweisen, oder warum duplizierte bzw. sehr ähnliche Seiten mit unterschiedlichen URLs existieren:

  • Um mehrere Gerätetypen zu unterstützen:
    https://example.com/news/koala-rampage
    https://m.example.com/news/koala-rampage
    https://amp.example.com/news/koala-rampage
  • Um dynamische URLs für Suchparameter oder Sitzungs-IDs zu ermöglichen:
    https://www.example.com/products?category=dresses&color=green
    https://example.com/dresses/cocktail?gclid=ABCD
    https://www.example.com/dresses/green/greendress.html
  • Mehrere URLs entstehen auch, wenn dein Blogsystem sie automatisch mehrfach speichert, sobald du denselben Beitrag unter mehreren Bereichen einordnest:
    https://blog.example.com/dresses/green-dresses-are-awesome/
    https://blog.example.com/green-things/green-dresses-are-awesome/
  • Sie entstehen, wenn dein Server so konfiguriert ist, dass unter HTTP/HTTPS-Varianten mit und ohne „www“ die gleichen Inhalte angezeigt werden:
    http://example.com/green-dresses
    https://example.com/green-dresses
    http://www.example.com/green-dresses
    
  • Oder dann, wenn Inhalte, die du in einem Blog zur Syndikation für andere Websites veröffentlichst, unter diesen Domains teilweise oder vollständig repliziert werden:
    https://news.example.com/green-dresses-for-every-day-155672.html (syndizierter Beitrag) https://blog.example.com/dresses/green-dresses-are-awesome/3245/ (ursprünglicher Beitrag)

Warum sollte ich eine kanonische URL auswählen?

Es gibt zahlreiche Gründe, weshalb du explizit eine kanonische Seite aus mehreren duplizierten/ähnlichen Seiten auswählen solltest:

  • Um festzulegen, welche URL in den Suchergebnissen angezeigt werden soll. Möglicherweise hättest du lieber, dass die Nutzer deine Produktseite mit den grünen Kleidern über den Link https://www.example.com/dresses/green/greendress.html statt über https://example.com/dresses/cocktail?gclid=ABCD aufrufen.
  • Um Linksignale für ähnliche oder duplizierte Seiten zusammenzufassen. Es ist hilfreich für Suchmaschinen, wenn sie die verfügbaren Informationen zu den einzelnen URLs, etwa zugehörige Links, zu einer einzigen, bevorzugten URL konsolidieren können. Das heißt, Links von anderen Websites zu http://example.com/dresses/cocktail?gclid=ABCD werden mit Links zu https://www.example.com/dresses/green/greendress.html konsolidiert.
  • Um Messwerte für ein einzelnes Produkt oder Thema leichter erfassen zu können. Wenn mehrere URLs vorhanden sind, ist es schwieriger, konsolidierte Messwerte für einen bestimmten Inhalt zu generieren.
  • Um syndizierte Inhalte zu verwalten. Wenn du deine Inhalte zur Veröffentlichung unter anderen Domains syndizierst, solltest du sicherstellen, dass deine bevorzugte URL in den Suchergebnissen erscheint.
  • Um Crawling-Zeit auf duplizierten Seiten zu sparen. Du möchtest, dass der Googlebot das Optimale aus deiner Website herausholt. Insofern ist es besser, wenn er statt der Desktop- und der Mobilversion derselben Seiten neue (oder aktualisierte) Seiten auf deiner Website crawlt.

Welche Seiten betrachtet Google als kanonisch?

Mit dem URL-Prüftool kannst du herausfinden, welche Seite Google als kanonisch betrachtet.

Kanonische Seite angeben

Um eine kanonische URL für duplizierte URLs oder ähnliche Seiten anzugeben, wähle eine der folgenden Methoden aus. Beachte die allgemeinen Richtlinien.

Methode und Beschreibung
rel=canonical <link>-Tag

Hier fügst du für alle duplizierten Seiten ein <link>-Tag im Code hinzu, das auf die kanonische Seite verweist.

Vorteile:
  • Ermöglicht das Zuordnen einer unendlichen Anzahl duplizierter Seiten

Nachteile:

  • Kann zu einer Vergrößerung des Seitenumfangs führen
  • Kann das Pflegen der Zuordnungen auf größeren Websites oder auf Websites erschweren, auf denen sich die URLs häufig ändern
  • Funktioniert nur bei HTML-Seiten, nicht bei Dateien wie PDFs. In solchen Fällen kannst du den HTTP-Header rel=canonical verwenden.
HTTP-Header rel=canonical

Hierbei versendest du in deiner Seitenantwort einen rel=canonical-Header.

Vorteile:

  • Vergrößert die Seite nicht
  • Ermöglicht das Zuordnen einer unendlichen Anzahl duplizierter Seiten

Nachteile:

  • Kann das Pflegen der Zuordnungen auf größeren Websites oder auf Websites erschweren, auf denen sich die URLs häufig ändern
Sitemap

Hier gibst du deine kanonischen Seiten in einer Sitemap an.

Vorteile:

  • Einfache Umsetzung und Pflege, besonders auf großen Websites

Nachteile:

  • Der Googlebot muss trotzdem für alle kanonischen Seiten, die du in der Sitemap angibst, das zugehörige Duplikat bestimmen
  • Es ist ein weniger starkes Signal für den Googlebot als bei der rel=canonical-Zuordnungsmethode
301-Weiterleitung Du verwendest 301-Weiterleitungen, um dem Googlebot zu signalisieren, dass die umgeleitete URL eine bessere Version als die gegebene ist. Nutze dies nur, wenn du eine duplizierte Seite außer Betrieb nimmst.
AMP-Variante Wenn eine deiner Varianten eine AMP-Seite ist, orientiere dich beim Angeben der kanonischen Seite und der AMP-Variante an den AMP-Richtlinien.

Allgemeine Richtlinien

Beachte bei allen Kanonisierungsmethoden die folgenden allgemeinen Richtlinien:

  • Verwende für die Kanonisierung nicht die Datei robots.txt.
  • Verwende für die Kanonisierung nicht das Tool zum Entfernen von URLs, denn damit werden alle Versionen einer URL aus der Suche entfernt.
  • Gib nicht verschiedene kanonische URLs für dieselbe Seite an. Dabei spielt es keine Rolle, ob du die gleiche oder unterschiedliche Kanonisierungsmethoden anwendest – zum Beispiel eine URL in einer Sitemap und eine andere URL für dieselbe Seite über rel="canonical".
  • Verwende nicht noindex, um die Auswahl einer kanonischen Seite zu verhindern. Diese Anweisung dient dazu, Seiten aus dem Index auszuschließen, nicht die Auswahl einer kanonischen Seite zu verwalten.
  • Gib eine kanonische Seite an, wenn du hreflang-Tags verwendest. Gib eine solche Seite in derselben Sprache bzw. in der bestmöglichen Ersatzsprache an, wenn für dieselbe Sprache keine kanonische Seite existiert.

  • Verlinke bei Verknüpfungen innerhalb deiner Website die kanonische URL, keine duplizierte. Durch eine einheitliche Verknüpfung der URL, die du als kanonische URL bestimmst, mit deiner Website kann Google deine Präferenzen besser erkennen.

HTTPS als Präferenz gegenüber HTTP bei kanonischen URLs

Google bevorzugt HTTPS-Seiten gegenüber gleichwertigen HTTP-Seiten als kanonische URLs, es sei denn, es gibt mit der HTTPS-Seite Probleme oder Konflikte zwischen den Signalen, z. B. folgende:

  • Die HTTPS-Seite hat ein ungültiges SSL-Zertifikat.
  • Die HTTPS-Seite enthält unsichere Abhängigkeiten (außer Bildern).
  • Die HTTPS-Seite leitet die Nutzer auf oder über eine HTTP-Seite weiter.
  • Die HTTPS-Seite enthält einen rel="canonical"-Link zur HTTP-Seite.

HTTPS-Seiten werden von unseren Systemen zwar standardmäßig gegenüber HTTP-Seiten bevorzugt, du kannst die Bevorzugung jedoch auch selbst festlegen, indem du Folgendes machst:

  • Weiterleitungen von der HTTP- auf die HTTPS-Seite hinzufügen.
  • Einen rel="canonical"-Link von der HTTP-Seite zur HTTPS-Seite hinzufügen.
  • HSTS implementieren.

Um zu verhindern, dass Google die HTTP-Seite fälschlich als kanonische URL verwendet, solltest du Folgendes vermeiden:

  • Ungültige SSL-Zertifikate und Weiterleitungen von HTTPS zu HTTP. Diese führen dazu, dass HTTP von unseren Systemen stark bevorzugt wird. Dies kann selbst durch die Implementierung von HSTS nicht umgangen werden.
  • Einbinden der HTTP-Seite in deine Sitemap oder Verwenden von hreflang-Einträgen anstelle der HTTPS-Version.
  • Implementieren deines SSL/TLS-Zertifikats für die falsche Hostvariante, z. B. Verwendung von beispiel.de zum Ausliefern des Zertifikats für www.beispiel.de. Das Zertifikat muss der vollständigen Website-URL entsprechen oder ein Platzhalterzertifikat sein, das für mehrere Subdomains einer Domain verwendet werden kann.

Nur für fortgeschrittene Nutzer: Google anweisen, dynamische Parameter zu ignorieren

Durch Angaben zur Parameterbehandlung kannst du den Googlebot über Parameter informieren, die beim Crawling ignoriert werden sollen. Durch Ignorieren bestimmter Parameter können duplizierte Inhalte im Google-Index vermieden und deine Seite kann besser gecrawlt werden. Wenn du zum Beispiel angibst, dass der Parameter sessionid ignoriert werden soll, betrachtet der Googlebot die folgenden beiden URLs als Duplikate:

  • https://www.example.com/dresses/green.php?sessionid=273749
  • https://www.example.com/dresses/green.php

Wenn du angeben möchtest, dass eine Seite ein Duplikat ist, kannst du ein <link>-Tag im head-Abschnitt deines HTML-Codes verwenden.

Angenommen, du möchtest https://example.com/dresses/green-dresses als deine kanonische URL verwenden, derselbe Inhalt kann jedoch auch über mehrere andere URLs abgerufen werden. Gib diese URL wie folgt als kanonisch an:

  1. Kennzeichne alle duplizierten Seiten mit einem rel="canonical"-Link-Element.

    Füge dem <head>-Abschnitt duplizierter Seiten ein <link>-Element mit dem Attribut rel="canonical" hinzu, das auf die kanonische Seite verweist. Beispiel:

    <link rel="canonical" href="https://example.com/dresses/green-dresses" />
  2. Wenn die kanonische Seite eine mobile Version hat, füge ihr einen rel="alternate"-Link hinzu, der auf die mobile Version der Seite verweist:
    <link rel="alternate" media="only screen and (max-width: 640px)"  href="http://m.example.com/dresses/green-dresses">
  3. Füge etwaige hreflang-Tags oder andere Weiterleitungen hinzu, die für die Seite geeignet sind.

HTTP-Header rel="canonical" verwenden

Wenn du deinen Server konfigurieren kannst, besteht die Möglichkeit, einen rel="canonical"-HTTP-Header anstelle eines HTML-Tags zu verwenden, um die kanonische URL für das von der Google Suche unterstützte Dokument anzugeben. Das gilt auch für Dokumente ohne HTML-Tags wie PDF-Dateien.

Wenn du eine PDF-Datei über mehrere URLs zugänglich machst, kannst du einen rel="canonical"-HTTP-Header für die duplizierten URLs ausgeben, um dem Googlebot mitzuteilen, welche die kanonische URL für die PDF-Datei ist. Zum Beispiel so:

Link: <http://www.example.com/downloads/white-paper.pdf>; rel="canonical"

Google unterstützt diese Methode derzeit nur für Websuchergebnisse.

Sitemap verwenden

Wähle für jede deiner Seiten eine kanonische URL aus und reiche sie in einer Sitemap ein. Alle Seiten, die in einer Sitemap aufgeführt sind, werden als kanonisch vorgeschlagen. Der Googlebot entscheidet dann je nach Ähnlichkeit der Inhalte, welche Seiten (gegebenenfalls) duplizierte Seiten sind.

Wir garantieren nicht, dass wir die Sitemap-URLs als kanonisch einstufen, aber Sitemaps erleichtern die Festlegung kanonischer Seiten für eine große Website. Außerdem sind sie nützlich, um Google mitzuteilen, welche Seiten deiner Website aus deiner Sicht am wichtigsten sind.

Füge einer Sitemap keine Seiten hinzu, die nicht kanonisch sind. Wenn du eine Sitemap verwendest, gib darin nur kanonische URLs an.

301-Weiterleitungen für deaktivierte URLs verwenden

Nutze diese Methode, wenn du vorhandene duplizierte Seiten entfernen möchtest, aber einen reibungslosen Übergang garantieren musst, bevor du die alten URLs deaktivierst.

Angenommen, deine Seite kann über folgende URLs erreicht werden:

  • https://example.com/home
  • https://home.example.com
  • https://www.example.com

Wähle in diesem Fall eine dieser URLs als kanonische URL aus und verwende 301-Weiterleitungen, um Traffic von den anderen URLs an deine bevorzugte URL umzuleiten. Durch eine serverseitige 301-Weiterleitung kannst du am besten erreichen, dass Nutzer und Suchmaschinen zur richtigen Seite weitergeleitet werden. Der 301-Statuscode besagt, dass eine Seite dauerhaft an einen neuen Speicherort verschoben wurde.

Wenn du einen Website-Hostingdienst nutzt, recherchiere die entsprechende Dokumentation für die Einrichtung von 301-Weiterleitungen.

Fehlerbehebung

Wenn sich eine kanonische URL in einer Property befindet, die dir nicht gehört, kannst du keinen Traffic für deine duplizierte Seite sehen. Im Folgenden sind einige häufige Gründe dafür aufgeführt, warum eine kanonische URL in einer separaten Property vorhanden sein kann:

  • Falsch markierte Sprachvarianten: Wenn du mehrere Websites hast, auf denen weitgehend derselbe Content für unterschiedliche Nutzer in verschiedenen Ländern angeboten wird, findest du Hinweise zur Fehlerbehebung in unseren Richtlinien für lokalisierte Websites.
  • Falsche kanonische Tags: Einige Content-Management-Systeme (CMS) oder CMS-Plug-ins wenden möglicherweise Techniken zur Kanonisierung, mit denen auf URLs externer Websites verwiesen wird, nicht richtig an. Prüfe, ob dies auf deinen Content zutrifft. Falls deine Website eine unerwartete kanonische URL-Einstellung anzeigt, die eventuell durch die falsche Verwendung von rel="canonical" oder einer 301-Weiterleitung entstanden ist, solltest du dieses Problem direkt beheben.
  • Falsch konfigurierte Server: Manche Hosting-Fehlkonfigurationen können zu einer unerwarteten domainübergreifenden URL-Auswahl führen. Beispiel:
    • Ein Server ist möglicherweise falsch konfiguriert und gibt Inhalte aus a.com zurück, obwohl die Anfrage für eine URL auf b.com gesendet wurde.
    • Zwei Webserver, zwischen denen kein weiterer Zusammenhang besteht, geben möglicherweise identische Soft-404-Fehlerseiten aus, die Google nicht als Fehlerseiten erkennt.
  • Hacking: Bei manchen Angriffen auf Websites wird Code eingeschleust, der eine HTTP-301-Weiterleitung zurückgibt oder ein domainübergreifendes rel="canonical"-Link-Element in den HTML-Abschnitt <head> oder in einen HTTP-Header einfügt. Dieser Code verweist typischerweise auf eine URL, unter der schädliche Inhalte oder Spam gehostet werden. In diesem Fall wird von unseren Algorithmen möglicherweise die schädliche URL bzw. die Spam-URL statt der URL auf der manipulierten Website ausgewählt.
  • Eine Nachahmer-Website: In seltenen Fällen kann es passieren, dass unser Algorithmus eine URL von einer externen Website auswählt, auf der deine Inhalte ohne deine Erlaubnis gehostet werden. Wenn du denkst, dass eine andere Website deine Inhalte kopiert und dabei gegen das Urheberrechtsgesetz verstößt, kannst du vom Host der Website verlangen, dass deine Inhalte entfernt werden. Außerdem kannst du beantragen, dass Google die Seite mit rechtswidrig verwendeten Inhalten aus den Suchergebnissen entfernt. Fülle dazu einen Antrag gemäß dem US-amerikanischen Urheberrechtsgesetz (Digital Millennium Copyright Act) aus.