Das Crawling neuer URLs über Feeds

Montag, 2. November 2009

Google verwendet unzählige Quellen, um neue Seiten im Netz ausfindig zu machen. Dazu gehören etwa Links, auf die wir im Netz stoßen, oder Seiten, die wir über das Tool zum Hinzufügen von URLs entdecken. Unser Ziel ist es, neue Seiten schnell zu entdecken, damit User diesen Content möglichst schnell in den Google-Suchergebnissen finden können. Vor kurzem haben wir ein Feature gelauncht, das RSS- und Atom-Feeds nutzt, um neue Seiten zu entdecken.

RSS/Atom-Feeds haben sich in den letzten Jahren als sehr beliebt erwiesen, wenn es darum ging, neuen Content anzubieten. Sie bieten Lesern die Möglichkeit, sich über neuen Content verschiedener Websites zu informieren. Die Verwendung von Feeds erlaubt es uns, neue Seiten schneller in den Index aufzunehmen als über traditionelles Crawling. Wir können viele potentielle Quellen nutzen, um auf Updates aus Feeds zuzugreifen. Dazu gehören Reader, Benachrichtigungsdienste oder das direkte Crawling der Feeds. In Zukunft könnten wir auch Protokolle wie PubSubHubbub verwenden, um Updates von Seiten zu registrieren.

Damit wir eure RSS/Atom-Feeds benutzen können, ist es wichtig, dass ihr das Crawling dieser Dateien nicht über robots.txt verbietet. Um herauszufinden, ob der Googlebot eure Feeds crawlen kann und so eure Seiten so schnell wie möglich entdeckt, verwendet für eure Feed-URLs. Mithilfe des robots.txt-Testers in den Google Webmaster-Tools könnt ihr feststellen, ob der Googlebot eure Feeds crawlen und so eure Seiten so schnell wie möglich entdecken kann.

Using RSS/Atom feeds to discover new URLs (English version)

Post von Raymond Lo, Guhan Viswanathan, und Dave Weissman, Crawl and Indexing Team (Übersetzung von Jörg, Search Quality Team)