Verbesserte Indexierung von Flash-Content

Mittwoch, 2. Juli 2008

Wir haben zahlreiche Anfragen erhalten, die Indexierung von Adobe-Flash-Dateien zu verbessern. Ron Adler und Janis Stipins - Software-Ingenieure unseres Indexing Teams - geben uns hier weitergehende Informationen zu unserer aktuellen Ankündigung bezüglich unserer deutlich verbesserten Möglichkeiten bei der Indexierung von Flash-Content .

Frage: Welche Arten von Flash-Dateien kann Google jetzt besser indexieren?
Wir haben unsere Fähigkeit verbessert, Text-Content in SWF-Dateien aller Art zu indexieren. Das beinhaltet "Flash-Gadgets" wie beispielsweise Buttons oder Menüs, reine Flash-Sites und alles, was dazwischen liegt.

F: Welchen Content aus diesen Flash-Dateien kann Google jetzt besser indexieren?
Jeglichen Text, den die User sehen können, wenn sie mit eurer Flash-Datei interagieren. Wenn eure Site Flash beinhaltet, kann der Text-Content in euren Flash-Dateien als Grundlage dienen, wenn Google ein Snippet für eure Site erzeugt. Darüber hinaus können die Worte in euren Flash-Dateien mit den Suchbegriffen einer Google-Suche abgeglichen werden.

Zusätzlich dazu, dass wir nun Text-Content finden und indexieren, besteht jetzt auch die Möglichkeit, dass wir URLs in euren Flash-Dateien erkennen. Diese URLs werden in unsere Crawling-Pipeline eingespeist - genauso, wie wir das mit URLs machen, die auf Sites ohne Flash auftauchen. Falls z. B. eure Flash-Anwendung Links zu anderen Seiten eurer Site enthält, sind wir nun besser in der Lage, diese Links zu entdecken und größere Teile eurer Site zu crawlen.

F: Wie verhält es sich mit nicht-textlichem Content wie beispielsweise Bildern?
Gegenwärtig erkennen und indexieren wir ausschließlich Text-Content aus Flash-Dateien. Wenn eure Flash-Dateien nur aus Bildern bestehen, werden wir nicht in der Lage sein, in diesen Bildern enthaltene Texte zu erkennen oder zu indexieren. Ausserdem erstellen wir keinen Anchor-Text für Flash-Buttons, die eine URL verlinken, aber keinen weiteren damit verknüpften Text aufweisen.

Beachtet auch, dass wir keine FLV-Dateien, wie sie z. B. bei den Videos auf YouTube verwendet werden, indexieren, da diese Dateien keinerlei Textelemente enthalten.

F: Wie "sieht" Google den Content einer Flash-Datei?
Wir haben einen Algorithmus entworfen, der Flash-Dateien auf die gleiche Art und Weise erkundet, wie ein User dies tun würde, indem z. B. Buttons geklickt werden, Eingaben getätigt werden, usw. Unser Algorithmus speichert jeglichen Text, der ihm begegnet, und dieser Text steht daraufhin für die Indexierung zur Verfügung. Wir können euch nicht alle Einzelheiten nennen, können euch aber sagen, dass die Effektivität des Algorithmus durch die Verwendung von Adobes neuer durchsuchbaren Flash-Bibliothek verbessert wurde.

F: Was muss ich tun, damit Google den Text in meinen Flash-Dateien indexiert?
Im Prinzip braucht ihr überhaupt nichts zu tun. Unsere aktuellen Verbesserungen erfordern keinerlei besondere Maßnahmen von Seiten der Webdesigner oder Webmaster. Falls ihr Flash-Content auf eurer Site habt, werden wir automatisch beginnen, ihn zu indexieren - was allerdings im Rahmen unserer gegenwärtigen technischen Möglichkeiten geschieht (siehe nächste Frage).

Ihr solltet euch jedoch bewusst sein, dass Google nun in der Lage ist, den Text zu erkennen, den auch die Besucher eurer Site sehen. Wenn ihr bevorzugt, dass eure weniger informativen Texte wie z. B. "Copyright"- oder "Wird geladen"-Meldungen nicht erfasst werden, dann könnt ihr diese Texte in einem Bild unterbringen. Dadurch werden diese Texte für uns quasi unsichtbar.

F: Was sind die aktuellen technischen Einschränkungen bei Googles Möglichkeiten, Flash zu indexieren?
Aktuell gibt es im Wesentlichen drei Einschränkungen, an denen wir aber bereits arbeiten:

1. Googlebot kann bestimmte Arten von JavaScript nicht ausführen. Falls eure Seite eine Flash-Datei mittels JavaScript lädt, kann es sein, dass wir die Flash-Datei nicht erkennen, was dazu führt, dass sie nicht indexiert wird.

2. Gegenwärtig wird Content, der von externen Quellen in euren Flash-Film geladen wird, nicht mit eurem Flash-Film verknüpft. Falls eure Flash-Datei eine HTML-Datei, XML-Datei oder eine andere SWF-Datei lädt, dann werden wir diese Ressource separat indexieren, aber noch nicht als Teil des Contents eurer Flash-Datei betrachten.

3. Obwohl wir bereits in der Lage sind, Flash-Content in fast allen im Web zu findenden Sprachen zu indexieren, kann es aktuell noch zu Schwierigkeiten bei der Indexierung von Content in bidirektionalen Sprachen kommen. Bis diese Probleme behoben sind, werden wir nicht in der Lage sein, hebräischen oder arabischen Text aus Flash-Dateien zu indexieren.

Wir machen jedoch bereits Fortschritte bei der Behebung der genannten Punkte - stay tuned!

Improved Flash indexing (English version)

Post von Ron Adler, Janis Stipins und Maile Ohye (Übersetzung von Sven, Search Quality)

Update: Danke für euer Feedback und eure Fragen. Unser Ziel ist es, die Suchqualität für alle User zu verbessern und durch die verbesserte Indexierung des Flash-Contents können wir noch aussagekräftigere Suchergebnisse anbieten. Nachfolgend findet ihr Antworten auf die häufigsten Fragen.

Flash-Site in den Suchergebnissen vor der Einführung der Flash-Indexierung

Flash-Site in den Suchergebnissen nach der Einführung der Flash-Indexierung - Suchanfrage [nasa deep impact animation]

@Wehrli: Bei der Einführung der neuen Funktionalität am 1. Juli wurden Flash-Dateien, die mittels SWFObject in eine Seite eingebunden sind, noch nicht indexiert. Wir sind gerade dabei, ein Update einzuführen, das Unterstützung für gängige Techniken bietet, um Flash mittels JavaScript einzubinden. Dabei werden auch SWFObject und SWFObject2 unterstützt.
Gegenwärtig wird Content, der dynamisch von externen Ressourcen geladen wird, noch nicht indexiert - wir arbeiten aber bereits an einem diesbezüglichen Update.

Weitere Punkte basierend auf Fragen aus dem englischen Blog:
  • Indexierung von älterem Flash-Content: Texte aus älteren Flash-Sites, die mittels AS1 oder AS2 erstellt wurden, können indexiert werden.

  • Flash-Content im Vergleich zu HTML, PDFs usw.: Texte, die wir in Flash-Dateien finden, werden gleich behandelt wie Texte aus anderen Dateien, z. B. HTML, PDF usw. Wenn eine Flash-Datei in einer HTML-Seite eingebunden ist, wird der Content aus der Flash-Datei mit der URL der HTML-Seite verknüpft und als eine Einheit indexiert.

  • Duplicate Content: Wenn identischer Content innerhalb von Flash und einer alternativen HTML-Version verwendet wird, kann das bedeuten, dass wir Duplicate Content erkennen. Das hat keinen Nachteil zur Folge - das Ranking einer Site wird durch diesen Duplicate Content nicht verändert. Allerdings wird in den Suchergebnissen mit großer Wahrscheinlichkeit nur eine der Versionen auftauchen.

  • Flash-Content in Suchergebnissen: Wir versuchen, unseren Usern die relevantesten Suchergebnisse zu liefern - unabhängig vom Dateityp. Dies bedeutet, dass reine Flash-Dateien, Flash-Dateien eingebettet in HTML, HTML-Seiten, PDFs usw. alle in den Suchergebnissen auftauchen können.

  • Deep-Linking: Wir hatten zahlreiche Anfragen bezüglich Deep-Linking (das Verlinken von Content innerhalb einer Datei) - nicht nur für Flash, sondern auch bei anderen großen Dokumenten und Präsentationen. Im Fall von Flash wird für Deep-Linking zusätzliche Funktionalität innerhalb von Flash benötigt, auf die wir dann aufsetzen können.

  • Dateigröße: Die Mehrzahl der Flash-Dateien im Netz bereitet keine Probleme bezüglich der Dateigröße. Normalerweise gibt es bei diesem Punkt nicht viel zu beachten.

  • Flash-Indexierung/Actionscript: Wir sind in der Lage, neue Links zu finden, die mittels ActionScript erstellt wurden. Wir betrachten den Flash-Content ähnlich wie ein gewöhnlicher Besucher der Site - die SWF-Datei wir dabei nicht dekompiliert. Durch die Indexierung machen wir keinerlei ActionScript-Code sichtbar.

  • Nofollow: Wir beachten das class="external-link"-Attribut, wann immer wir es im HTML-Code erkennen.