Gute Datenanalyse

Autor: Patrick Riley

Unser besonderes Dankeschön geht an Diane Tang, Rehan Khan, Elizabeth Tucker, Amir Najmi, Hilary Hutchinson, Joel Darnauer, Dale Neal, Aner Ben-Artzi, Sanders Kleinfeld, David Westbrook und Barry Rosenberg.

Verlauf

Übersicht

Daten aus einer Vielzahl von Daten zu gewinnen, ist ein leistungsfähiger, aber fehleranfälliger Job. Die besten Datenanalysten und datenorientierten Entwickler haben einen guten Ruf, wenn es darum geht, aus Daten glaubwürdige Äußerungen zu machen. Doch was macht sie glaubwürdig? Ich höre oft Adjektive wie sorgsam und methodisch, aber was tun die sorgfältigsten und methodischsten Analysten tatsächlich?

Dies ist keine einfache Frage, insbesondere angesichts der Art von Daten, die wir regelmäßig bei Google erheben. In der Regel arbeiten wir nicht nur mit sehr großen Datasets, sondern auch mit sehr umfangreichen Daten. Das bedeutet, dass jede Datenzeile viele, viele Attribute hat. Wenn Sie dies mit den zeitlichen Abfolgen von Ereignissen für einen bestimmten Nutzer kombinieren, ergibt sich eine riesige Zahl von Ansichten für die Daten. Dies steht im Gegensatz zu einem typischen wissenschaftlichen Psychologie-Experiment, bei dem der Forscher jeden einzelnen Datenpunkt betrachten kann. Die Probleme, die durch unsere umfangreichen, hochdimensionalen Datensätze entstehen, unterscheiden sich stark von denen, die in der Geschichte der wissenschaftlichen Arbeit vorkommen.

In diesem Dokument werden die Ideen und Techniken zusammengefasst, die sorgfältige, methodische Analysten bei großen, hochdimensionalen Datensätzen einsetzen. Obwohl sich dieses Dokument auf Daten aus Logs und experimentellen Analysen konzentriert, sind viele dieser Techniken im Allgemeinen besser anwendbar.

Der Rest des Dokuments umfasst drei Abschnitte zu verschiedenen Aspekten der Datenanalyse:

  • Technisch: Ideen und Techniken zur Manipulation und Untersuchung Ihrer Daten.
  • Verarbeiten: Empfehlungen dazu, wie Sie mit Ihren Daten umgehen, welche Fragen Sie stellen sollten und welche Punkte Sie prüfen sollten.
  • Mentalität: Mit anderen zusammenarbeiten und Informationen kommunizieren

Technisch

Sehen wir uns einige Verfahren zur Untersuchung Ihrer Daten an.

Verteilungen ansehen

Die meisten Fachleute verwenden zusammenfassende Messwerte (z. B. Medianwert, Standardabweichung usw.), um über Verteilungen zu kommunizieren. In der Regel sollten Sie jedoch umfangreichere Verteilungsdarstellungen untersuchen, indem Sie Histogramme, kumulative Verteilungsfunktionen (kumulative Verteilungsfunktionen), Quantile-Quantil-Diagramme (Q-Q) usw. erstellen. Mit diesen umfangreicheren Darstellungen können Sie wichtige Features der Daten erkennen, z. B. multimodales Verhalten oder eine erhebliche Ausreißerklasse.

Ausreißer berücksichtigen

Prüfe Ausreißer sorgfältig, da es sich um Kanaren im Kohlebergwerk handeln kann, die auf grundlegendere Probleme mit deiner Analyse hinweisen. Es ist in Ordnung, Ausreißer aus den Daten auszuschließen oder sie in eine ungewöhnliche Kategorie aufzunehmen.

Wenn Sie sich beispielsweise die Suchanfragen mit der niedrigsten Anzahl von Klicks ansehen, können Sie Klicks auf Elemente erkennen, die Sie nicht zählen. Wenn Sie sich Suchanfragen mit der höchsten Anzahl von Klicks ansehen, können Sie Klicks erkennen, die Sie nicht berücksichtigen sollten. Andererseits kann es einige Ausreißer geben, die Sie nie erklären können. Überlegen Sie sich also genau, wie viel Zeit Sie für diese Aufgabe aufwenden.

Geräusche berücksichtigen

Zufällig ist es und wird uns täuschen. Manche denken: „Google hat so viele Daten, dass das Rauschen verschwindet.“ Das stimmt einfach nicht. Jede Zahl oder Zusammenfassung der von Ihnen erstellten Daten sollte einen Hinweis auf Ihr Konfidenzwert in dieser Schätzung haben (durch Maßnahmen wie Konfidenzintervalle und P-Werte).

Beispiele ansehen

Jedes Mal, wenn Sie neuen Analysecode generieren, müssen Sie sich die Beispiele aus den zugrunde liegenden Daten ansehen und wie Ihr Code diese Beispiele interpretiert. Ohne diesen Schritt ist es fast unmöglich, einen Arbeitscode mit jeder Komplexität zu erstellen. Ihre Analyse abstrahiert viele Details aus den zugrunde liegenden Daten, um nützliche Zusammenfassungen zu erstellen. Wenn Sie sich die vollständige Komplexität einzelner Beispiele ansehen, können Sie sicher sein, dass Ihre Zusammenfassung angemessen ist.

Die Beispiele sind wichtig:

  • Wenn Sie die zugrunde liegenden Daten klassifizieren, sehen Sie sich Beispiele an, die zu den einzelnen Klassen gehören.
  • Wenn es sich um eine größere Klasse handelt, sehen Sie sich weitere Beispiele an.
  • Wenn Sie eine Zahl berechnen (z. B. die Seitenladezeit), sollten Sie sich extreme Beispiele (am schnellsten und langsamsten 5 %, vielleicht auch die Verteilung) ansehen, aber auch Punkte im gesamten Messbereich.

Segmentieren Sie Ihre Daten

Das Aufteilen bedeutet, dass die Daten in Untergruppen aufgeteilt und die Messwerte für jede Untergruppe separat betrachtet werden. Dimensionen werden normalerweise nach Dimensionen wie Browser, Sprache, Domain oder Gerätetyp aufgeschlüsselt. Wenn das zugrunde liegende Phänomen in den Untergruppen wahrscheinlich anders funktioniert, müssen Sie die Daten segmentieren, um zu prüfen, ob dies tatsächlich der Fall ist. Auch wenn Sie nicht davon ausgehen, dass eine Segmentierung unterschiedliche Ergebnisse liefert, empfiehlt es sich, einige Segmente für die interne Konsistenz zu betrachten, um sicherzustellen, dass Sie das richtige Ergebnis messen. In einigen Fällen kann es vorkommen, dass ein bestimmtes Segment fehlerhafte Daten enthält, die Nutzerinteraktion nicht funktioniert oder sich in irgendeiner Weise unterscheidet.

Jedes Mal, wenn Sie Daten segmentieren, um zwei Gruppen zu vergleichen (z. B. Test vs. Kontrolle, oder sogar „Zeit A“ vs. „Zeit B“), müssen Sie Mix-Shifts berücksichtigen. Bei einer Mix-Verschiebung unterscheidet sich die Datenmenge in den Segmenten von der Gruppe. Das Simpson-Paradox und andere Verwirrungen können sich ergeben. Wenn die relative Datenmenge in einem Segment in beiden Gruppen gleich ist, können Sie im Allgemeinen einen Vergleich durchführen.

Praktische Bedeutung

Bei einer großen Datenmenge ist es verlockend, sich nur auf die statistische Signifikanz zu konzentrieren oder die Details aller einzelnen Daten im Auge zu behalten. Sie müssen sich jedoch fragen: „Ist der Wert X 0,1% höher als der Wert Y, ist er relevant?“ Das kann besonders wichtig sein, wenn Sie einen Teil Ihrer Daten nicht verstehen oder kategorisieren können. Wenn Sie einige User-Agent-Strings in Ihren Logs nicht auswerten können, spielt es keine Rolle, ob sie 0,1% oder 10% der Daten darstellen.In diesem Fall ist es wichtig, in welchen Fällen Sie die Fälle untersuchen sollten.

Alternativ haben Sie manchmal eine geringe Datenmenge. Viele Änderungen sehen statistisch nicht signifikant aus. Das ist aber anders, als wenn du behauptest, dass diese Änderungen „neutral“ sind. Du musst dich fragen: „Wie wahrscheinlich ist es, dass es noch eine praktisch signifikante Änderung gibt?“

Auf Konsistenz prüfen

Sie sollten Daten immer nach Zeiteinheiten aufteilen, da viele Störungen der zugrunde liegenden Daten auftreten, wenn unsere Systeme sich im Laufe der Zeit weiterentwickeln. Wir verwenden häufig Tage, aber auch andere Zeiteinheiten können hilfreich sein. Bei der erstmaligen Einführung einer Funktion oder einer neuen Datenerhebung prüfen die Fachleute sorgfältig, ob alles wie erwartet funktioniert. Im Laufe der Zeit können jedoch viele Fehler auftreten oder unerwartetes Verhalten auftreten.

Nur weil ein bestimmter Tag oder eine bestimmte Anzahl von Tagen ein Ausreißer ist, heißt das nicht, dass Sie die entsprechenden Daten verwerfen sollten. Nutzen Sie die Daten als Aufhänger, um den ursächlichen Grund dafür zu ermitteln, warum dieser Tag oder diese Tage anders sind, bevor Sie ihn verwerfen.

Wenn Sie sich die Daten im Tagesverlauf ansehen, bekommen Sie auch ein Gespür für die Abweichungen in den Daten, die letztlich zu Konfidenzintervallen oder Behauptungen von statistischer Signifikanz führen würden. Dies ersetzt in der Regel keine strenge Konfidenzintervall-Berechnung, aber bei großen Änderungen ist häufig zu sehen, dass sie statistisch signifikant sind.

Filter bestätigen und zählen

Nahezu jede große Datenanalyse beginnt damit, Daten in verschiedenen Phasen zu filtern. Vielleicht möchten Sie nur Nutzer in den USA, Websuchen oder Suchanfragen mit Anzeigen berücksichtigen. In jedem Fall gilt:

  • Geben Sie an, welche Filterung Sie vornehmen.
  • Die zu jedem Schritt gefilterte Datenmenge zählen.

In letzterem Fall ist es am besten, alle Messwerte zu berechnen, auch für die ausgeschlossene Bevölkerung. Sie können sich diese Daten dann ansehen, um Fragen zu beantworten, z. B. „Wie viele Suchanfragen wurden durch den Spamfilter entfernt?“. Je nach Filterungstyp ist diese Art von Analyse nicht immer möglich.

Die Seitenverhältnisse sollten einen klaren Zähler und Nenner haben.

Interessante Messwerte sind das Verhältnis von zugrunde liegenden Messwerten. Häufig sind interessante Filterungen oder andere Datenoptionen in den genauen Definitionen des Zählers und Nenners ausgeblendet. Was bedeutet „Suchanfragen / Nutzer“ eigentlich?

  • Abfragen / Nutzer mit einer Abfrage
  • Anfragen / Nutzer, die heute Google besucht haben
  • Abfragen / Nutzer mit einem aktiven Konto (ja, ich müsste aktiv definieren)

Wenn Sie hier klar und deutlich kommunizieren, können Sie sich und andere verwirren.

Ein weiterer Sonderfall sind Messwerte, die nur für einige Ihrer Daten berechnet werden können. Beispielsweise steht „Click-to-Click“ in der Regel für „Click-to-Click“, wenn ein Klick erfolgt ist. Jedes Mal, wenn Sie sich einen solchen Messwert ansehen, müssen Sie sich bewusst machen, dass die Filterung verwendet wird, und nach einer Änderung der Filterung zwischen den Gruppen suchen, die Sie vergleichen.

Verarbeiten

Dieser Abschnitt enthält Empfehlungen zum Umgang mit Ihren Daten, zu den zu stellenden Fragen und zu den zu prüfenden Daten.

Separate Validierung, Beschreibung und Bewertung

Die Datenanalyse umfasst drei Phasen:

  1. Validierung1: Ich glaube, die Daten sind selbstkonsistent, korrekt erfasst und meiner Ansicht nach korrekt.
  2. Beschreibung:Was ist die Zielauslegung dieser Daten? Beispiel: „Nutzer“ nimmt weniger Suchanfragen ab, die als „X“ klassifiziert wurden. In der Testgruppe ist die Zeit zwischen X und Y um 1% größer und die Zahl der Nutzer verringert sich auf der nächsten Ergebnisseite.
  3. Evaluierung: Gibt die Beschreibung an, dass dem Nutzer, Google oder der Welt etwas Gutes passiert?

Durch die Trennung dieser Phasen können Sie die Einigung mit anderen leichter erreichen. Die Beschreibung sollte Informationen enthalten, auf die sich alle geeinigt haben. Die Bewertung führt wahrscheinlich zu viel mehr Debatten. Wenn Sie die Beschreibung und die Bewertung nicht trennen, ist es viel wahrscheinlicher, dass nur die Interpretation der Daten angezeigt wird, die Sie sich erhoffen. Darüber hinaus ist die Bewertung viel schwieriger, da das Festlegen des normativen Werts eines Messwerts, in der Regel durch strenge Vergleiche mit anderen Funktionen und Messwerten, eine erhebliche Investition erfordert.

Diese Phasen durchlaufen nicht linear. Während Sie sich die Daten genauer ansehen, können Sie zwischen den Phasen hin- und herspringen. Sie sollten aber jederzeit klarstellen können, in welcher Phase Sie sich befinden.

Einrichtung des Tests und der Datenerfassung bestätigen

Bevor Sie sich Daten ansehen, sollten Sie den Kontext kennen, in dem die Daten erfasst wurden. Wenn die Daten aus einem Test stammen, sehen Sie sich die Konfiguration des Tests an. Wenn sie aus der Instrumentierung neuer Kunden stammt, sollten Sie sich zumindest ein wenig darüber im Klaren sein, wie die Daten erhoben werden. Sie können ungewöhnliche oder fehlerhafte Konfigurationen oder Bevölkerungsbeschränkungen erkennen, z. B. gültige Daten nur für Chrome. Alles Wichtige, das Sie beachten sollten, hilft Ihnen später, Theorien zu erstellen und zu überprüfen. Beachten Sie Folgendes:

  • Wenn der Test ausgeführt wird, versuchen Sie es selbst. Wenn du es nicht kannst, sieh dir Screenshots und Beschreibungen des Verhaltens an.
  • Prüfen Sie, ob es etwas Ungewöhnliches während des Zeitraums gab, in dem der Test ausgeführt wurde (z. B. Feiertage, große Produkteinführungen).
  • Ermitteln Sie, welche Nutzer in den Test einbezogen wurden.

Prüfen, was sich ändern soll

Bevor Sie tatsächlich die Frage beantworten, die Sie interessiert (z. B. „Hat ein Bild eines Gesichts hinzugefügt oder die Anzahl der Klicks verschlechtert“), schließen Sie in der Phase „Validierung“ alle anderen Abweichungen in den Daten aus, die sich auf den Test auswirken könnten. Beispiel:

  • Hat sich die Anzahl der Nutzer geändert?
  • Wurden in allen meinen Untergruppen die richtige Anzahl von betroffenen Suchanfragen angezeigt?
  • Haben sich die Fehlerraten geändert?

Diese Fragen sind sowohl für Test-/Kontrollvergleiche als auch für die Untersuchung von Trends im Zeitverlauf sinnvoll.

Standard zuerst, benutzerdefinierte Sekunde

Wenn man sich neue Features und neue Daten ansieht, ist es besonders verlockend, direkt zu den Messwerten zu wechseln, die neu oder speziell für das neue Feature sind. Sie sollten jedoch zuerst immer die Standardmesswerte betrachten, auch wenn Sie davon ausgehen, dass sie sich ändern. Wenn du beispielsweise der Seite einen neuen universellen Block hinzufügst, solltest du die Auswirkungen auf Standardmesswerte wie „Klicks auf Webergebnisse“ verstehen, bevor du dich mit den benutzerdefinierten Messwerten zu diesem neuen Ergebnis befasst.

Standardmesswerte sind viel besser validiert und wahrscheinlicher als benutzerdefinierte Messwerte. Wenn die benutzerdefinierten Messwerte nicht zum Standardmesswert passen, sind sie wahrscheinlich falsch.

Zwei oder mehr Messungen

Besonders, wenn Sie ein neues Phänomen erfassen möchten, sollten Sie das zugrunde liegende Phänomen auf mehrere Arten messen. Ermitteln Sie dann, ob diese Messungen konsistent sind. Durch die Verwendung mehrerer Messungen können Sie Fehler im Mess- oder Logging-Code, unerwartete Features der zugrunde liegenden Daten oder wichtige Filterschritte erkennen. Noch besser ist es, wenn Sie verschiedene Datenquellen für die Messungen verwenden können.

Reproduzierbarkeit prüfen

Sowohl die Aufteilung als auch die Konsistenz im Laufe der Zeit sind spezielle Beispiele für die Prüfung auf Reproduzierbarkeit. Wenn ein Phänomen wichtig und sinnvoll ist, sollte es für unterschiedliche Nutzerpopulationen und Zeiträume angezeigt werden. Die Prüfung der Reproduzierbarkeit bedeutet jedoch mehr als die Durchführung dieser beiden Prüfungen. Wenn Sie Modelle der Daten erstellen, möchten Sie, dass diese Modelle auch bei kleinen Störungen in den zugrunde liegenden Daten stabil sind. Wenn Sie verschiedene Zeiträume oder zufällige Teilstichproben Ihrer Daten verwenden, erfahren Sie auch, wie zuverlässig/reproduzierbar dieses Modell ist.

Wenn ein Modell nicht reproduzierbar ist, erfassen Sie wahrscheinlich nichts Grundlegendes an dem zugrunde liegenden Prozess, der die Daten erzeugt hat.

Konsistenz mit bisherigen Messungen prüfen

Häufig berechnen Sie einen Messwert, der den bereits erfassten Werten ähnelt. Sie sollten Ihre Messwerte mit Messwerten vergleichen, die in der Vergangenheit gemeldet wurden, auch wenn diese Messungen in verschiedenen Nutzergruppen erfolgen.

Wenn Sie sich beispielsweise den Abfrage-Traffic für eine bestimmte Population ansehen und die durchschnittliche Seitenladezeit 5 Sekunden beträgt, haben frühere Analysen aller Nutzer eine mittlere Seitenladezeit von 2 Sekunden ergeben, müssen Sie dies untersuchen. Deine Nummer passt vielleicht zu dieser Bevölkerungsgruppe, aber jetzt musst du mehr Arbeit machen, um sie zu validieren.

Sie brauchen keine genaue Vereinbarung, sollten sich aber im selben Baseballpark befinden. Wenn nicht, gehen Sie davon aus, dass Sie falsch liegen, bis Sie sich vollständig davon überzeugen können. Die meisten überraschenden Daten stellen sich als Fehler heraus und stellen keine wertvollen neuen Erkenntnisse dar.

Alte Messwerte sollten zuerst auf alte Daten/Funktionen angewendet werden

Wenn Sie neue Messwerte erstellen (ggf. durch Erfassung einer neuartigen Datenquelle) und versuchen, etwas Neues zu lernen, wissen Sie nicht, ob der neue Messwert die richtige ist. Neue Messwerte sollten zuerst auf bekannte Funktionen oder Daten angewendet werden. Wenn du beispielsweise einen neuen Messwert für die Nutzerzufriedenheit hast, solltest du darauf achten, dass deine besten Funktionen zur Zufriedenheit beitragen. Wenn es einen neuen Messwert dafür gibt, wohin Nutzer ihre Aufmerksamkeit auf die Seite lenken, sollte dieser mit dem übereinstimmen, was wir aus Blick-Tracking- und Evaluatorenstudien darüber wissen, wie Bilder die Aufmerksamkeit der Seite beeinflussen. Das bietet eine Validierung, wenn Sie dann etwas Neues lernen.

Hypothesen aufstellen und nach Belegen suchen

In der Regel ist die Datenanalyse für ein komplexes Problem iterativ.2 Es werden Anomalien, Trends oder andere Merkmale der Daten festgestellt. Natürlich entwickeln Sie Theorien zur Erläuterung dieser Daten. Entwickeln Sie nicht nur eine Theorie und behaupten Sie, dass dies der Fall ist. Suche nach Belegen (innerhalb oder außerhalb der Daten), um diese Theorie zu bestätigen/ablehnen. Beispiel:

  • Wenn Sie einen Lerntrend erkennen, prüfen Sie, ob er bei Nutzern mit hoher Häufigkeit am deutlichsten auftritt.
  • Wenn Sie der Meinung sind, dass eine Anomalie auf die Einführung einiger Funktionen zurückzuführen ist, prüfen Sie, ob die Bevölkerung, für die die Funktion eingeführt wurde, die einzige ist, die von der Anomalie betroffen ist. Alternativ solltest du darauf achten, dass das Ausmaß der Änderung mit den Erwartungen der Markteinführung übereinstimmt.
  • Wenn sich die Wachstumsraten der Nutzer in einer Sprache ändern, versuchen Sie, eine externe Quelle zu finden, die diese Änderung der Nutzerpopulation validiert.

Gute Datenanalysen bringen eine Geschichte mit sich. Um sicherzustellen, dass dies die richtige Geschichte ist, müssen Sie sich selbst die Geschichte erzählen und dann nach Belegen suchen, dass sie falsch ist. Eine Möglichkeit, das zu erreichen, besteht darin, sich die Frage zu stellen, welche Tests Sie durchführen bzw. validieren würden.

Die gute Nachricht ist, dass diese Theorien und möglichen Experimente zu neuen Forschungsschwerpunkten führen können, die über den Versuch hinausgehen, sich über ein bestimmtes Merkmal oder bestimmte Daten zu informieren. Dann geben Sie an, nicht nur diese Daten zu verstehen, sondern auch neue Messwerte und Techniken für alle möglichen zukünftigen Analysen abzuleiten.

Vorteile der explorativen Analyse durch eine komplette Iteration

Führen Sie bei der explorativen Analyse so viele Iterationen wie möglich der gesamten Analyse durch. Normalerweise sind mehrere Schritte zur Signalerfassung, -verarbeitung, -modellierung usw. erforderlich. Wenn Sie zu lange für die erste Phase der ersten Signale benötigen, entgehen Ihnen Möglichkeiten, mehr Iterationen in der gleichen Zeit zu machen. Wenn Sie schließlich Ihre Daten am Ende betrachten, können Sie Erkenntnisse gewinnen, die Ihre Richtung ändern. Daher sollte der erste Fokus nicht auf Perfektion, sondern auf dem Sinn stehen, etwas Sinnvolles zu erreichen. Machen Sie sich Notizen und bestätigen Sie Dinge wie das Filtern von Schritten und nicht geparste oder ungewöhnliche Anfragen, aber verschwenden Sie keine Zeit damit, sie am Anfang der explorativen Analyse zu entfernen.

Achte auf Feedback

Normalerweise definieren wir verschiedene Messwerte zum Nutzererfolg. Haben die Nutzer beispielsweise auf ein Ergebnis geklickt? Wenn Sie diese Daten dann wieder in das System einspeisen (was wir an verschiedenen Stellen tun), gibt es viele Möglichkeiten, die Evaluierung zu verwirren.

Sie können den Messwert, der an Ihr System übergeben wird, nicht als Grundlage für die Beurteilung Ihrer Änderung verwenden. Wenn Sie mehr Anzeigen schalten, die mehr Klicks erzielen, können Sie nicht mehr als „mehr Klicks“ verwenden, um festzulegen, dass Nutzer zufriedener sind, auch wenn „mehr Klicks“ oft „zufriedener“ bedeutet. Außerdem sollten Sie nicht einmal die Segmentierung auf die Variablen vornehmen, die Sie erfasst und bearbeitet haben, da dies zu Mix-Verschiebungen führt, die schwer oder unmöglich zu verstehen sind.

Denkweise

In diesem Abschnitt wird beschrieben, wie Sie mit anderen zusammenarbeiten und Informationen weitergeben können.

Datenanalyse beginnt mit Fragen, nicht mit Daten oder einem Verfahren

Daten motivieren mich immer. Wenn Sie Ihre Anforderungen als Fragen oder Hypothesen formulieren, können Sie die zu erfassenden Daten erfassen und über mögliche mögliche Lücken in den Daten nachdenken. Natürlich sollten sich die von Ihnen gestellten Fragen bei der Betrachtung der Daten weiterentwickeln. Analysen ohne Fragen sind jedoch ziellos.

Vermeide es, ein gängiges Verfahren zu finden und nur die Teile der Probleme zu finden, an denen dieses Verfahren arbeitet. Auch hier hilft es, klare Fragen zu erstellen, um diese Falle zu vermeiden.

Skepsis und Champion

Wenn Sie mit Daten arbeiten, müssen Sie sowohl die Erkenntnisse, die Sie gewinnen, als auch die Skepsis dieser Erkenntnisse gewinnen. Hoffentlich findet ihr in den Daten interessante Phänomene. Wenn Sie ein interessantes Phänomen erkennen, stellen Sie sich folgende Fragen:

  • Welche anderen Daten könnte ich erheben, um zu zeigen, wie toll das ist?
  • Was könnte ich finden, wenn ich das finde?“

Besonders in Fällen, in denen Sie eine Analyse für eine Person durchführen, die eine bestimmte Antwort benötigt (z. B. „Mein Feature ist fantastisch!“), müssen Sie skeptisch sein, um Fehler zu vermeiden.

Korrelation != Kausalität

Wenn wir Theorien zu Daten aufstellen, möchten wir oft behaupten, dass durch „X“ der Wert „Y“ verursacht wird. Beispielsweise wird durch eine langsamere Seite der Nutzer dazu verleitet, weniger zu klicken. Sogar xkcd weiß, dass du aufgrund von Korrelationen nicht einfach Kausalität herstellen kannst. Wenn Sie überlegen, wie Sie eine Kausalitätstheorie validieren würden, können Sie in der Regel ein gutes Verständnis dafür entwickeln, wie glaubwürdig eine Kausaltheorie ist.

Manchmal wird versucht, eine Korrelation zu halten, indem behauptet wird, dass, auch wenn kein kausaler Zusammenhang zwischen A und B besteht, etwas zugrunde liegen, sodass ein Signal ein guter Indikator oder Proxy für das andere sein kann. Dieser Bereich ist riskant, wenn es um Probleme bei mehreren Hypothesentests geht. Wie xkcd auch weiß, sind bei ausreichenden Tests und ausreichenden Abmessungen einige der Signale auf einen bestimmten Test abgestimmt. Dies bedeutet nicht, dass dieselben Signale in der Zukunft ausgerichtet werden. Sie sind also dieselbe Verpflichtung, eine kausale Theorie wie „Es gibt einen verborgenen Effekt C, der sowohl A als auch B verursacht“ zu betrachten, sodass Sie versuchen können, zu prüfen, wie plausibel dies ist.

Ein Datenanalyst muss diese ursächlichen Fragen häufig für die Personen klären, die die Daten nutzen möchten. Sie sollten sich klar machen, was Sie über Kausalität sagen können und welche nicht.

Zuerst Inhalte mit Kollegen teilen, externe Nutzer danach

Die vorherigen Punkte deuten darauf hin, wie du die richtige Art der Geräuschprüfung und Validierung findest. Das Teilen mit einem Kollegen ist jedoch eine der besten Möglichkeiten, sich selbst zu zwingen, all das zu tun. Ein qualifizierter Kollege kann qualitativ anderes Feedback geben als die Nutzer Ihrer Daten, insbesondere da sie im Allgemeinen eine Agenda haben. Peers sind an mehreren Stellen der Analyse nützlich. Schon früh erfährst du mehr über Gochas, die deine Kollegen kennen, sowie Vorschläge für Messungen und frühere Studien in diesem Bereich. Am Ende sind Peers sehr gut darin, Ungewöhnlichkeiten, Inkonsistenzen oder andere Verwirrung hervorzuheben.

Idealerweise sollten Sie Feedback von einem Kollegen erhalten, der mit den Daten vertraut ist, die Sie sich ansehen. Aber auch ein Kollege, der nur allgemeine Erfahrung mit Datenanalysen hat, ist äußerst wertvoll.

Ignoranz und Fehler erwarten und akzeptieren

Daten, die wir daraus ableiten können, unterliegen vielen Einschränkungen. Nate Silver ist ein gutes Beispiel für The Signal and the Noise, dass wir nur Fortschritte bei besserer Vorhersage machen können, wenn wir die Grenzen unserer Sicherheit zulassen. Ignoranz zuzugeben ist eine Stärke, die normalerweise nicht sofort belohnt wird. Es fühlt sich zu dieser Zeit schlecht an, ist aber auf lange Sicht für Sie und Ihr Team von großem Vorteil. Noch schlimmer kommt es, wenn man einen Fehler macht und ihn später (oder sogar zu spät!) entdeckt. Wenn man sich jedoch erst einmal die eigenen Fehler anvertraut, erhält man seinen Respekt. Dieser Respekt bedeutet Glaubwürdigkeit und Wirkung.

Abschließende Gedanken

Ein großer Teil der guten Datenanalyse ist für die Nutzer Ihrer Analyse nicht sofort offensichtlich. Die Tatsache, dass Sie die Bevölkerungsgrößen sorgfältig geprüft und bestätigt haben, dass der Effekt in allen Browsern konsistent ist, wird wahrscheinlich nicht das Bewusstsein für die Menschen erreichen, die Entscheidungen aus diesen Daten treffen möchten. Dies erklärt auch, warum eine gute Datenanalyse länger dauert, als dies für die meisten Nutzer notwendig scheint (vor allem, wenn sie nur die endgültige Ausgabe sehen). Zu den Aufgaben von Analystinnen und Analysten gehört es, Verbrauchern nach und nach datengestützte Informationen darüber zu liefern, was diese Schritte sind und warum sie so wichtig sind.

Die Notwendigkeit all dieser Manipulationen und explorativen Datenanalysen sind auch die Voraussetzungen für eine gute Sprache und Umgebung für die Datenanalyse. Wir haben viele Tools, um Daten zu untersuchen. Verschiedene Tools und Sprachen eignen sich besser für verschiedene oben beschriebene Verfahren. Die Auswahl des richtigen Tools ist eine wichtige Fähigkeit für einen Analysten. Sie sollten nicht auf die Funktionen beschränkt werden, mit denen Sie sich am besten auskennen. Ihre Aufgabe ist es, echte Einblicke zu bieten und kein bestimmtes Tool anzuwenden.

 


  1. Das wird auch als „erste Datenanalyse“ bezeichnet. Weitere Informationen findest du im Wikipedia-Artikel zur Datenanalyse.

  2. Technisch gesehen sollte es nur iterativ sein, wenn Sie eine explorative Analyse durchführen, keine bestätigende Analyse.