Optimiert das Crawling und die Indexierung eurer Website

Donnerstag, 13. August 2009

Viele Fragen zur Architektur von Websites, dem Crawling und der Indexierung und sogar zum Ranking hängen mit einer zentralen Frage zusammen: Wie leicht fällt es Suchmaschinen, eure Site zu crawlen? Wir haben uns zu diesem Thema schon häufiger geäußert und hier findet ihr unsere Präsentation mit einigen wichtigen Aussagen dazu.



Das Internet ist riesig : Ständig wird neuer Content erstellt. Google verfügt nur über endliche Ressourcen - wenn wir also einer nahezu unendlichen Menge an Content, der online verfügbar ist, gegenüberstehen, dann kann Googlebot naturgemäß nur einen Anteil davon finden und crawlen. Von all dem Content, den wir gecrawlt haben, können wir ebenfalls nur einen Teil indexieren.

URLs sind wie die Brücken zwischen eurer Site und den Suchmaschinen-Crawlern: Die Crawler müssen diese Brücken finden und überqueren können (d. h. eure URLs finden und crawlen) um zum Content eurer Site zu gelangen. Wenn eure URLs kompliziert oder redundant sind, werden die Crawler viel Zeit damit verbringen, den Weg hin und zurück zu finden. Wenn eure URLs hingegen gut organisiert sind und direkt zum passenden Content führen, dann können die Crawler ihre Zeit damit verbringen, euren Content zu erfassen anstatt durch leere Seiten zu navigieren oder den gleichen Content wieder und wieder über verschiedene URLs zu crawlen.

In der obigen Präsentation könnt ihr einige Beispiele sehen, was ihr eher nicht tun solltet - es sind reale Beispiele (auch wenn die Namen im Rahmen unseres Schutzprogramms geändert sind ;) von selbstgebastelten URL-Hacks und Codierungen, Parameter-Verschleierung als Teil des URL-Pfades, "endlose Weiten" und mehr. Ihr findet auch einige Empfehlungen dazu, wie ihr dieses Labyrinth aus URLs glätten könnt und so den Crawlern dabei helft, mehr eures Contents noch schneller zu finden.
Dazu gehört:
  • Entfernt User-spezifische Details aus den URLs.
    URL-Parameter, die keinen Einfluß auf den Seiteninhalt haben, wie z. B. Session-IDs oder Sortierungsparameter, können aus einer URL entfernt werden und beispielsweise in einem Cookie platziert werden. Indem diese Informationen in ein Cookie geschrieben werden und per 301-Weiterleitung auf eine "saubere" URL verwiesen wird, behaltet ihr einerseits die Besucherrelevanten Informationen und reduziert andererseits die Zahl der URLs die auf den gleichen Content zeigen.
  • Haltet eure "endlosen Weiten" im Zaum.
    Habt ihr einen Kalender, der auf eine unendliche Zahl vergangener und zukünftiger Daten verweist (jedes mit einer eigenen, einzigartigen URL)? Oder habt ihr Daten über mehrere Seiten verteilt, die einen Statuscode "200" liefern, wenn ihr z. B. &seite=3563 an die URL anhängt - selbst, wenn es gar nicht so viele Seiten gibt? Falls ja, dann habt ihr in Bezug auf das Crawling " endlose Weiten " auf eurer Website und die Crawler verschwenden möglicherweise ihre (und eure!) Bandbreite beim Versuch, das alles zu crawlen. Beachtet einfach diese Tipps um eure endlosen Weiten im Zaum zu halten.
  • Verhindert Aktionen, die Googlebot gar nicht ausführen kann.
    Indem ihr eine robots.txt-Datei verwendet, könnt ihr das Crawling von Login-Seiten, Kontakt-Formularen, Warenkörben oder anderen Seiten verhindern, deren einzige Funktionalität von einem Crawler nicht ausgeführt werden kann. (Crawler sind notorisch geizig und zurückhaltend - in der Regel werden sie nichts "in den Warenkorb legen" und kein Kontakt-Formular ausfüllen). Dies lässt den Crawlern mehr Zeit, den Content zu crawlen, mit dem sie tatsächlich etwas anfangen können ;)
  • Eine URL, ein bestimmter Content
    In einer perfekten Welt gibt es eine 1:1-Beziehung zwischen URL und Content: Jede URL führt zu einzigartigem Content, und jeder Teil des Contents kann nur mittels einer URL erreicht werden. Je näher ihr diesem Ideal kommen könnt, desto besser ist eure Site für das Crawling und die Indexierung geeignet. Falls euer CMS oder das aktuelle Setup eurer Site dies erschweren, könnt ihr das rel=canonical Element verwenden um die bevorzugte URL für einen bestimmten Content zu definieren.
Falls ihr weitere Fragen zur Optimierung eurer Site hinsichtlich Crawling und Indexierung habt, könnt ihr einige unserer älteren Artikel (Englisch) dazu lesen oder auch in unserem Forum für Webmaster vorbeischauen.

Optimize your crawling & indexing (English version)

Post von Susan Moskwa, Webmaster Trends Analyst (Übersetzung von Sven, Search Quality)