Wie man unerwünschte Inhalte loswird, Teil II: Vertraulichen Text von einer Seite entfernen

Freitag, 6. August 2010

Nichts ist vor Änderungen gefeit. Wie wir in unserem letzten Post zum Entfernen von Inhalten gesehen haben, könnt ihr eine Seite eurer Website komplett blockieren oder entfernen. Vielleicht möchtet ihr aber auch nur Teile einer Seite oder bestimmte Textabschnitte ändern. Je nachdem, wie oft eine Seite gecrawlt wird, kann es eine Weile dauern, bis sich diese Änderungen in den Suchergebnissen widerspiegeln. In diesem Blogpost wird erläutert, wie ihr vorgehen könnt, falls die Suchergebnisse immer noch alten, entfernten Content enthalten. Das kann in Form eines „Snippets“ der Fall sein oder auf der Seite im Cache, die mit dem Suchergebnis verlinkt ist. Es ist sinnvoll, diese Maßnahme zu ergreifen, falls der alte Content vertrauliche Informationen enthält, die umgehend entfernt werden müssen. Wenn ihr nur ganz normal eine Website aktualisiert, braucht ihr sie nicht durchzuführen.

Sehen wir uns einmal das folgende fiktive Beispiel für ein Suchergebnis an:

Walter E. Coyote < Titel

Chief Development Officer bei Acme Corp (1948–2003): arbeitete an dem streng
geheimen Erfassungsgerät Velocitus Incalculii, das Möglichkeiten zu bieten schien

< Snippet
www.example.com/about/waltercoyote – Im Cache < URL + Link zur im Cache gespeicherten Seite

Um den im Snippet (oder auf der verlinkten, im Cache gespeicherten Seite) angezeigten Content zu ändern, müsst ihr zuerst den Content auf der aktuellen Onlineversion der Seite bearbeiten. Die Suchergebnisse enthalten aufgrund der automatischen Prozesse von Google so lange Teile des ursprünglichen Contents, bis der öffentlich sichtbare Content der Seite geändert wird.

Sobald dies erledigt ist, habt ihr mehrere Möglichkeiten, um diese Änderungen auf unsere Suchergebnisse zu übertragen:

  1. Ihr wartet, bis der Googlebot die Seite noch einmal crawlt und indexiert. Das ist die normale Methode, mit der ein Großteil des Contents auf Google aktualisiert wird. Je nachdem, wie oft der Googlebot die betreffende Seite crawlt, kann das recht lange dauern. Nachdem die Seite noch einmal gecrawlt und indexiert wurde, sollte der alte Content nicht mehr angezeigt werden, da er durch den aktuellen Content ersetzt wurde. Sofern das Crawling der betreffenden Seite durch den Googlebot nicht blockiert ist (entweder durch „robots.txt“ oder weil kein ordnungsgemäßer Zugriff auf den Server möglich ist), erfolgt dieser Vorgang automatisch, d. h., ihr müsst nichts unternehmen. Das Crawling und die Indexierung können im Allgemeinen nicht beschleunigt werden, da diese Prozesse vollautomatisch erfolgen und von zahlreichen externen Faktoren abhängig sind.

  2. Ihr fordert mit dem Google-Tool zur Entfernung von öffentlichen URLs die Entfernung von Content an, der von der Webseite einer anderen Person entfernt wurde. Bei Verwendung dieses Tools müsst ihr unbedingt die genaue URL der geänderten Seite eingeben. Dann gebt ihr an, dass der Content von der Seite entfernt wurde, und gebt ein oder mehrere Wörter ein, die vollständig von der betreffenden Seite entfernt wurden.

    Google-Tool für Cache-Entfernungen

    Keines der eingegebenen Wörter darf auf der Seite vorkommen. Sollte ein Wort an einer anderen Stelle auf der Seite vorkommen, wird eure Anforderung auch dann abgelehnt, wenn es von einem Teil der Seite entfernt wurde. Vergewissert euch also, dass die Wörter, die ihr eingebt, nirgendwo auf der Seite mehr vorkommen. Angenommen, ihr hättet im obigen Beispiel „top secret velocitus incalculii capturing device“ entfernt. In diesem Fall solltet ihr diese Wörter angeben und nicht etwas wie „mein Projekt“. Sollte jedoch das Wort „top“ oder „device“ noch an anderer Stelle auf der Seite vorkommen, wird die Anfrage abgelehnt. Am sichersten ist es, nur ein einziges Wort einzugeben, wenn ihr euch sicher seid, dass es nirgends auf der Seite mehr vorkommt.

    Sobald eure Anfrage bearbeitet und festgestellt wurde, dass die übermittelten Wörter nicht mehr auf der Seite vorkommen, enthält das Suchergebnis kein Snippet mehr und die Seite im Cache ist nicht mehr verfügbar. Der Titel und die URL der Seite sind nach wie vor sichtbar und der Eintrag kann weiterhin in Suchergebnissen für Suchvorgänge enthalten sein, die mit dem entfernten Inhalt zusammenhängen. Dies kann beispielsweise bei einer Suche nach velocitus incalculii der Fall sein, obwohl diese Wörter nicht mehr im Snippet enthalten sind. Nachdem die Seite jedoch noch einmal gecrawlt und indexiert wurde, enthalten unsere Suchergebnisse das neue Snippet und die neue im Cache gespeicherte Seite.

    Wichtig ist, dass wir die Entfernung des Worts bzw. der Wörter durch Anzeigen der Seite überprüfen müssen. Falls die Seite nicht mehr vorhanden ist und der Server ordnungsgemäß den HTTP-Ergebniscode 404 oder 410 zurückgibt, sodass wir nicht auf die Seite zugreifen können, ist es unter Umständen sinnvoller, eine gänzliche Entfernung der Seite anzufordern.

  3. Ihr fordert über das Tool zur Entfernung von URLs von Google Webmaster-Tools die Entfernung von Informationen auf einer Seite eurer eigenen Website an. Wenn ihr Zugriff auf die betreffende Website habt und die Inhaberschaft in der Google Webmaster-Tools bestätigt habt, könnt ihr dort über das Tool zum Entfernen von URLs (unter Websitekonfiguration > Crawler-Zugriff) anfordern, dass das Snippet und die im Cache gespeicherte Seite entfernt werden, bis die Seite noch einmal gecrawlt wurde. Zur Verwendung dieses Tools müsst ihr nur die genaue URL der Seite einreichen. Entfernte Wörter müsst ihr hier nicht angeben. Sobald eure Anforderung verarbeitet wurde, werden das Snippet und die im Cache gespeicherte Seite aus den Suchergebnissen entfernt. Der Titel und die URL der Seite werden nach wie vor angezeigt; außerdem kann die Seite auch weiterhin im Ranking von Suchergebnissen für Abfragen in Bezug auf entfernten Content vorkommen. Nachdem die Seite noch einmal gecrawlt und indexiert wurde, kann das Suchergebnis mit einem gemäß dem neuen Content aktualisierten Snippet und einer aktualisierten im Cache gespeicherten Seite angezeigt werden.

Google führt die Indexierung und das Ranking von Elementen nicht nur auf Grundlage des Contents einer Seite durch, sondern auch auf Grundlage anderer externer Faktoren, beispielsweise der eingehenden Links zu der URL. Aus diesem Grund ist es möglich, dass eine URL auch noch dann in Suchergebnissen für nicht mehr auf der Seite vorhandenen Content vorkommt, wenn die Seite bereits noch einmal gecrawlt und indexiert wurde. Mit dem Tool zur Entfernung von URLs können das Snippet und die im Cache gespeicherte Seite aus einem Suchergebnis entfernt werden, der Titel des Suchergebnisses wird jedoch weder geändert noch entfernt. Auch die angezeigte URL wird nicht geändert und es wird nicht verhindert, dass die Seite für Suchanfragen in Bezug auf aktuellen oder vorherigen Content angezeigt wird. Falls dies für euch wichtig ist, solltet ihr dafür sorgen, dass die URL die Voraussetzungen für eine vollständige Entfernung aus unseren Suchergebnissen erfüllt.

Entfernen von Content, der nicht im HTML-Format vorliegt

Hat der geänderte Content kein (X)HTML-Format, was beispielsweise der Fall ist, wenn ein Bild, eine Flash-Datei oder eine PDF geändert wurde, könnt ihr das Tool zur Entfernung von im Cache gespeichertem Content nicht verwenden. Sollte es also wichtig sein, dass der alte Content in den Suchergebnissen nicht mehr sichtbar ist, erreicht ihr dies am schnellsten, indem ihr die URL der Datei ändert, sodass die alte URL den HTTP-Ergebniscode 404 zurückgibt, und die alte URL mit dem Tool zur Entfernung von URLs löscht. Bei einer normalen Aktualisierung eurer Informationen durch Google kann die Aktualisierung der Vorschau von Inhalten, die kein HTML-Format enthalten (beispielsweise Schnellansicht-Links für PDF-Dateien), nach dem nochmaligen Crawlen länger dauern, als dies bei normalen HTML-Dateien der Fall ist.

Proaktives Verhindern der Anzeige von Snippets oder im Cache gespeicherten Versionen

Als Webmaster habt ihr die Möglichkeit, mithilfe von robots-meta-Tags die Anzeige von Snippets oder im Cache gespeicherten Versionen proaktiv zu verhindern. Unsere Tools zum Entfernen benötigt ihr dazu nicht. Stattdessen könnt ihr mit dem robots-meta-Tag „nosnippet“ die Anzeige von Snippets unterbinden und mit dem robots-meta-Tag „noarchive“ die Speicherung von Seiten im Cache deaktivieren. Allerdings empfehlen wir diese Vorgehensweise nur für Ausnahmefälle, denn mithilfe der Snippets können Nutzer schneller erkennen, ob ein Suchergebnis für sie relevant ist. Im Cache gespeicherte Seiten wiederum ermöglichen es den Nutzern, euren Content auch dann zu sehen, wenn euer Server unerwarteterweise nicht verfügbar ist. Wenn ihr die genannten Tags auf vorhandenen und bereits bekannten Seiten setzt, muss der Googlebot diese Seiten zuerst noch einmal crawlen und indexieren, damit die Änderungen in den Suchergebnissen widergespiegelt werden.

Dieser Blogpost verdeutlicht hoffentlich einige der Prozesse, die dem Tool zur Entfernung von URLs zugrunde liegen. In unserem nächsten Blogpost beschäftigen wir uns mit Möglichkeiten, die ihr habt, falls ihr die Entfernung von Content anfordern möchtet, der euch nicht gehört. Bleibt dran!

Feedback und Fragen im Webmaster-Hilfeforum sind wie immer willkommen.

Außerdem könnt ihr euch darüber informieren, wie ihr festlegt, welche Informationen über euch online verfügbar sind.