Search-Evaluierung in Google

Dienstag, 16. September 2008

Diese Reihe von Posts hat Googles Search Quality-Aktivitiäten auf Gebieten wie Ranking und Search-UI beschrieben. In diesem Post werde ich mich mit dem Thema Search-Evaluierung befassen. Einfach gesagt ist Search-Evaluierung der Prozess, um sowohl die Qualität unserer Suchergebnisse zu bestimmen als auch die Qualität der Erfahrung unserer User mit der Suche.

Ich möchte mich kurz vorstellen. Ich bin Scott Huffman und als Engineering Director für Search-Evaluierung verantwortlich, indem ich mit einem talentierten Team aus Statistikern und Softwareingenieuren zusammenarbeite. Ich bin seit 2005 in diesem Bereich tätig, und ich habe bereits die letzten 14 Jahre im weiteren Sinne an Search gearbeitet.

Wenn ich Leute interviewe, die daran interessiert sind, dem Search-Evaluierungs-Team beizutreten, dann verwende ich oft folgendes Szenario, um zu beschreiben, was wir tun: Stell dir vor, ein Google Ranking-Ingenieur stürmt in dein Büro und behauptet "Ich habe eine tolle Idee um unsere Suchergebnisse zu verbessern! - Immer wenn der Titel einer Seite mit dem Buchstaben T beginnt, dann schieben wir dieses Ergebnis um drei Plätze nach oben." Der Ingenieur zieht verschiedene Suchanfragen aus der Tasche, bei denen - mag man es nun glauben oder nicht - die besagte Idee das Suchergebnis tatsächlich immens verbessern würde.

Nun, wir beide mögen vielleicht denken, dass dieser Hack mit dem Buchstaben T eine ziemlich alberne Idee ist - aber wie können wir tatsächlich sicher sein? In der Search-Evaluierung dreht es sich permanent darum, Antworten auf solche Fragen zu finden. Dieser Hack wurde zwar nie tatsächlich vorgeschlagen, jedoch sind wir ständig damit beschäftigt, alle Optionen auszuwerten, wie beispielsweise:
- Verbesserungsvorschläge zur Segmentierung von chinesischen Suchanfragen
- neue Ansätze um Spam zu bekämpfen
- Techniken um die Art und Weise zu verbessern, wie wir zusammengesetzte schwedische Wörter handhaben.
- Änderungen der Art und Weise wie wir Links und Linktext behandeln
- alles Mögliche andere

Wie Udi bereits in seinem ersten Post über Search Quality erwähnt hat, haben wir im Jahr 2007 über 450 Verbesserungen an der Google-Suche durchgeführt, und jede einzelne von ihnen ging durch einen komplexen Evaluierungsprozess.

Es ist nicht verwunderlich, dass wir Search-Evaluierung sehr ernst nehmen. Präzise Evaluierung versetzt unser Team in die Lage, zu wissen "welcher Weg nach oben führt". Einer unserer Grundsätze in Search Quality ist es, unsere Entscheidungen stark auf Daten zu gründen. Wir wollen uns nicht auf vereinzelte Beispiele verlassen, die für ein Produkt wie die Suche oft in die Irre leiten können - immerhin wirken sich dort Entscheidungen täglich auf hunderte Millionen von Suchanfragen aus. Durch äußerst sorgfältige und statistisch aussagekräftige Evaluierung erhalten wir die Daten, die wir brauchen, um tatsächliche Verbesserungen im Bereich der Suche zu erzielen.

Suche zu evaluieren ist aus verschiedenen Gründen schwierig:
  • Erstens müssen wir verstehen, was User tatsächlich wollen, wenn sie eine Suchanfrage eingeben - diese "Intention" der Suchanfrage festzustellen kann sehr schwierig sein. Für Navigationssuchanfragen wie [ebay] oder [orbitz] können wir mit einiger Sicherheit wissen, dass User zu der jeweiligen Site gelangen möchten. Aber wie steht es mit [Olympiade]? Will der User Nachrichten, eine Medaillenübersicht der kürzlich stattgefundenen Spiele in Peking, die Homepage des IOCs, geschichtliche Information über die Spiele oder ... ? Dies ist genau dieselbe Frage, die sich natürlich unsere Ranking- und UI-Teams stellen. Evaluierung ist die andere Seite dieser Medaille.
  • Zweitens ist es nie eine schwarz-wei ß e Angelegenheit, die Qualität von Suchmaschinen zu vergleichen - ob es nun darum geht, Google gegen unsere Konkurrenz abzugleichen, Google gegen Google vor einem Monat oder Google gegen Google inklusive des "Buchstabe T"-Hacks. Es ist schlicht unmöglich, eine Änderung vorzunehmen, die sich in allen Situationen 100% positiv auswirkt; mit jeder algorithmischen Änderung, die wir an der Suche vornehmen, werden sich viele Suchergebnisse verbessern, andere werden jedoch schlechter werden.
  • Drittens gibt es verschiedene Dimensionen von "guten" Resultaten. Traditionell hat Search-Evaluierung einen Fokus auf die Relevanz der Ergebnisse, und natürlich ist das auch unsere höchste Priorität. Der heutige Suchmaschinen-User erwartet jedoch mehr als nur Relevanz. Sind die Ergebnisse aktuell und zeitgemäß? Stammen sie von Quellen mit Autorität? Sind sie umfassend? Sind sie frei von Spam? Enthalten ihre Titel und Snippets genügend Beschreibungen? Beinhalten sie zusätzliche UI-Elemente, die User für ihre Suchanfrage hilfreich finden könnten, wie etwa Karten, Bilder, Vorschläge für die Suchanfrage etc.? Mit unserer Evaluierung versuchen wir jeden dieser Bereiche so gut wie möglich abzudecken.
  • Viertens verlangt die Evaluierung von Googles Suchqualität einen extrem breiten Ansatz. Wir decken über hundert Sprachgebiete(Land/Sprach-Paare) mit eingehender Evaluierung ab. Über den Fokus auf diese Sprachgebiete hinaus unterstützen wir Search Quality-Teams in ihrer Arbeit an vielen verschiedenen Arten von Suchanfragen und Features. Beispielsweise messen wir explizit die Qualität von Googles Buchstabiervorschlägen, Ergebnisse der universellen Suche, Bilder- und Video-Suchanfragen, Vorschläge von verwandten Suchanfragen, Oneboxes für Aktien und vieles, vieles mehr.
Um diese Fragen zu lösen, verwenden wir eine Reihe von Evaluierungsmethoden und Datenquellen:
  • Menschliche Evaluierer. Google setzt Evaluierer in vielen Ländern und Sprachen ein - sie sind bestens vorbereitet und haben die Aufgabe, die Qualität von Suchergebnissen auf verschiedene Weisen zu beurteilen. Manchmal zeigen wir den Evaluierern eine ganze Reihe von Ergebnissen nacheinander, manchmal auch gleichzeitig mit Alternativen. In anderen Fällen zeigen wir ihnen ein einzelnes Ergebnis für eine Suchanfrage und lassen sie dessen Qualität anhand verschiedener Kriterien bestimmen.
  • Live-Traffic-Experimente. Wir setzen auch Experimente ein, in denen bei Bruchteilen von Suchanfragen Ergebnisse von alternativen Herangehensweisen in der Suche angezeigt werden. Ben Gomes hat in seinem vorherigen Post darüber gesprochen, wie wir von diesen Experimenten um UI-Elemente der Suche zu testen Gebrauch machen. Durch diese Experimente, sind wir in der Lages zu sehen, wie User wirklich auf alternative Ergebnisse reagieren (durch Klicks etc.).
Es ist klar, dass wir nie in der Lage sein werden, alle Suchanfragen zu überprüfen, die Google in der Zukunft erhalten wird. Tatsächlich erhält Google jeden Tag viele Millionen Suchanfragen, die wir vorher noch nie gesehen haben und auch nie wieder sehen werden. Daher stellen wir anhand von repräsentativen Samples der laufenden Suchanfragen statistische Rechnungen an. Der "Buchstabe T"-Hack verbessert wohl einige wenige Suchanfragen, aber ich bin mir sicher, dass er, an einer Auswahl von repräsentativen Suchanfragen getestet, sehr schlecht abschneiden würde.

Eine der Schlüsselqualifikationen unseres Evaluierungsteams ist experimentelles Design. Für jeden Verbesserungsvorschlag der Suche erstellen wir einen Experiment-Plan, der es uns erlaubt, die Hauptaspekte der Änderung festzustellen. Wir verwenden häufig eine Kombination von sowohl menschlicher Evaluierung als auch Live-Traffic-Evaluierung. Stellt euch beispielsweise einen Verbesserungsvorschlag für Googles "verwandte Suchvorgänge"-Feature vor, um dessen Verbreitung auf mehrere Sprachgebiete auszuweiten. Unser Experiment-Plan könnte Life-Traffic-Evaluierung beinhalten, bei der wir Usern die neuen Vorschläge der verwandten Suchvorgänge zeigen, die Click-through-Rate für jedes Sprachgebiet messen und die Ergebnisse auf die Position der einzelnen Vorschläge für verwandten Suchvorgänge herunterbrechen. Ebenso könnten wir menschliche Evaluierung miteinbeziehen, indem wir für ein repräsentatives Sample an Suchanfragen an jedem Ort von den Evaluierern eine Beurteilung der Angemessenheit, Nützlichkeit und Relevanz jedes einzelnen Vorschlages der verwandten Suchvorgänge erfragen. Indem wir beide Arten der Evaluierung berücksichtigen können wir die gesamte Auswirkung auf User (über das Live-Traffic-Experiment) beurteilen und detailliert die Qualität jedes Vorschlages an jedem Ort anhand vieler Kriterien messen (durch das menschliche Evaluierungsexperiment).

Eine geeignete Auswahl an Suchanfragen für die Evaluierung auszuwählen, kann viel Raffinesse erforden. Wenn wir einen Verbesserungsvorschlag der Suche auswerten, dann untersuchen wir nicht nur, ob das Ergebnis bestimmter Suchanfragen tatsächlich durch den Vorschlag verändert würde, sondern auch wie hoch die Auswirkungen sind, den diese Änderung auf unsere User haben würde. So hat beispielsweise eine Suchanfrage, bei der sich die ersten drei Ergebnisse ändern, wahrscheinlich grössere Auswirkungen als eine, bei der lediglich die Ergebnisse der neunten und zehnten Position vertauscht werden. In Amit Singhals vorherigem Post zum Thema Ranking hat er Synonyme besprochen. Wir haben kürzlich einen Vorschlag für ein Update untersucht, welches Synonyme in manchen Fällen verstärken soll. In einem flachen (von geringer Auswirkung) Sample betroffener Suchanfragen wirkte sich die Änderung recht positiv aus. Als wir jedoch ein Sample überprüften, in welchem sich die Änderung stark niederschlug, stellten wir fest, dass der Eingriff viel zu weit ging. So wurden beispielweise im Chinesischen "klein" (小) und "groß" (大) als Synonym gewertet... keine gute Idee!

Wir nehmen Search-Evaluierung sehr ernst, weil wir euch in jedem Fall eine Sucherfahrung von größtmöglicher Qualität bieten wollen. Anstatt einfach zu raten, was eventuell sinnvoll sein könnte, verwenden wir einen sorgfältigen, datenbasierten Ansatz um sicherzustellen, dass unsere "tollen Ideen" auch tatsächlich toll für euch sind. Vor diesem Hintergrund hatte der Hack mit dem "Buchstaben T" daher nie eine Chance.

Search evaluation at Google (English Version)