Gute Datenanalyse

Autor: Patrick Riley

Besonderer Dank an Diane Tang, Rehan Khan, Elizabeth Tucker, Amir Najmi, Hilary Hutchinson, Joel Darnauer, Dale Neal, Aner Ben-Artzi, Sanders Kleinfeld, David Westbrook und Barry Rosenberg.

Verlauf

Überblick

Das Ableiten von Wahrheiten und Erkenntnissen aus einem Haufen von Daten ist ein leistungsstarker, aber fehleranfälliger Job. Die besten Datenanalysten und datenorientierten Entwickler haben den Ruf, glaubwürdige Aussagen aus Daten zu treffen. Aber was tun sie, um ihnen Glaubwürdigkeit zu verleihen? Ich höre oft Adjektive wie sorgfältig und methodisch, aber was tun die sorgfältigsten und methodischsten Analysten eigentlich?

Dies ist keine triviale Frage, insbesondere angesichts der Art von Daten, die wir bei Google regelmäßig erheben. Wir arbeiten nicht nur mit sehr großen Datasets, sondern auch äußerst vielfältig. Das heißt, jede Datenzeile hat in der Regel viele, viele Attribute. In Kombination mit den zeitlichen Abfolgen von Ereignissen für einen bestimmten Nutzer ergeben sich unzählige Möglichkeiten, die Daten zu betrachten. Im Gegensatz zu einem typischen akademischen Psychologieexperiment ist es für Forschende einfach, jeden einzelnen Datenpunkt zu betrachten. Die Probleme, die sich durch unsere großen, hochdimensionalen Datasets ergeben, unterscheiden sich stark von denen, die in der Geschichte der wissenschaftlichen Arbeit schon lange aufgetreten sind.

In diesem Dokument werden die Ideen und Techniken zusammengefasst, die sorgfältige, methodische Analysefachkräfte für große, hochdimensionale Datasets anwenden. Obwohl sich dieses Dokument auf Daten aus Logs und experimentellen Analysen konzentriert, sind viele dieser Techniken allgemein anwendbar.

Der Rest des Dokuments besteht aus drei Abschnitten, die verschiedene Aspekte der Datenanalyse behandeln:

  • Technisch: Ideen und Techniken zur Manipulation und Untersuchung Ihrer Daten.
  • Prozess: Empfehlungen dazu, wie Sie mit Ihren Daten umgehen, welche Fragen Sie stellen und welche Dinge Sie überprüfen sollten.
  • Denkweise: Mit anderen zusammenarbeiten und Erkenntnisse kommunizieren

Technologie

Sehen wir uns einige Techniken zur Analyse Ihrer Daten an.

Verteilungen ansehen

Die meisten Fachkräfte verwenden zusammenfassende Messwerte (z. B. Mittelwert, Medianwert, Standardabweichung usw.), um Verteilungen zu kommunizieren. In der Regel sollten Sie jedoch viel umfangreichere Verteilungsdarstellungen untersuchen, indem Sie Histogramme, kumulative Verteilungsfunktionen (CDFs), Quantil-Quantil-Diagramme (Q–Q) usw. generieren. Mit diesen umfangreicheren Darstellungen können Sie wichtige Merkmale der Daten erkennen, z. B. multimodales Verhalten oder eine erhebliche Klasse von Ausreißern.

Ausreißer berücksichtigen

Untersuchen Sie Ausreißer sorgfältig, da sie Kanarienvogel im Kohlebergwerk sein können, die auf grundlegende Probleme Ihrer Analyse hinweisen. Es ist in Ordnung, Ausreißer aus Ihren Daten auszuschließen oder sie in einer „ungewöhnlichen“ Kategorie zusammenzufassen. Sie sollten aber darauf achten, dass Sie wissen, warum die Daten in diese Kategorie gelangt sind.

Wenn Sie beispielsweise die Abfragen mit der geringsten Anzahl von Klicks betrachten, können Sie Klicks auf Elemente zeigen, die Sie nicht zählen. Wenn Sie sich die Abfragen mit der höchsten Anzahl von Klicks ansehen, können Sie Klicks erkennen, die Sie nicht zählen sollten. Andererseits kann es Ausreißer geben, die Sie nie erklären können. Daher sollten Sie sorgfältig überlegen, wie viel Zeit Sie dieser Aufgabe aufwenden.

Lärm berücksichtigen

Zufälligkeit existiert und wird uns täuschen. Manche denken: „Google hat so viele Daten, der Lärm verschwindet.“ Das stimmt einfach nicht. Jede Zahl oder Zusammenfassung von Daten, die Sie erstellen, sollte einen zugehörigen Eindruck davon haben, wie sicher Sie diese Schätzung haben (durch Messwerte wie Konfidenzintervalle und p-values).

Beispiele ansehen

Jedes Mal, wenn Sie neuen Analysecode erstellen, müssen Sie sich Beispiele aus den zugrunde liegenden Daten ansehen und wissen, wie Ihr Code diese Beispiele interpretiert. Es ist fast unmöglich, ohne diesen Schritt einen funktionierenden Code beliebiger Komplexität zu erstellen. Ihre Analyse abstrahiert viele Details von den zugrunde liegenden Daten, um nützliche Zusammenfassungen zu erstellen. Wenn Sie sich die gesamte Komplexität einzelner Beispiele ansehen, können Sie sicher sein, dass Ihre Zusammenfassung angemessen ist.

Es ist wichtig, wie Sie diese Beispiele verwenden:

  • Wenn Sie die zugrunde liegenden Daten klassifizieren, sehen Sie sich Beispiele für jede Klasse an.
  • Wenn es eine größere Klasse ist, sehen Sie sich weitere Beispiele an.
  • Wenn Sie eine Zahl berechnen (z. B. die Seitenladezeit), sehen Sie sich Extrembeispiele (z. B. die schnellsten und langsamsten 5 %) sowie Punkte im gesamten Messbereich an.

Daten segmentieren

Beim Aufteilen werden Ihre Daten in Untergruppen aufgeteilt und die Messwerte für jede Untergruppe separat betrachtet. Wir segmentieren üblicherweise nach Dimensionen wie Browser, Sprache, Domain, Gerätetyp usw. Wenn das zugrunde liegende Phänomen wahrscheinlich in den Untergruppen unterschiedlich funktioniert, müssen Sie die Daten segmentieren, um zu prüfen, ob dies tatsächlich der Fall ist. Selbst wenn Sie nicht davon ausgehen, dass durch die Segmentierung unterschiedliche Ergebnisse erzielt werden, können Sie sich ein paar Segmente auf interne Konsistenz ansehen, um die Gewissheit zu haben, dass Sie das richtige Ergebnis messen. In einigen Fällen enthält ein bestimmtes Segment schlechte Daten, eine fehlerhafte Nutzerinteraktion oder ist irgendwie grundlegend anders.

Jedes Mal, wenn Sie Daten segmentieren, um zwei Gruppen zu vergleichen (z. B. Test- und Kontrollgruppe oder sogar "Zeit A" im Vergleich zu "Zeit B"), müssen Sie die Mischungsänderungen berücksichtigen. Eine Mischverschiebung liegt vor, wenn die Datenmenge in den Segmenten für jede Gruppe unterschiedlich ist. Simpson-Pardox und andere Verwirrung können die Folge sein. Allgemein gilt: Wenn die relative Datenmenge in einem Segment in Ihren beiden Gruppen gleich ist, können Sie bedenkenlos einen Vergleich vornehmen.

Praktische Bedeutung berücksichtigen

Bei einem großen Datenvolumen kann es verlockend sein, sich ausschließlich auf die statistische Signifikanz zu konzentrieren oder sich auf die Details aller Daten zu konzentrieren. Aber Sie müssen sich fragen: "Ist es wichtig, auch wenn der Wert X 0,1% größer als der Wert Y ist?" Dies kann besonders wichtig sein, wenn Sie einen Teil Ihrer Daten nicht verstehen/kategorisieren können. Wenn Sie einige User-Agent-Strings in Ihren Logs nicht nachvollziehen können, spielt es große Rolle, ob sie 0,1% oder 10% der Daten darstellen.

Alternativ haben Sie manchmal nur ein kleines Datenvolumen. Viele Änderungen sehen statistisch nicht signifikant aus, aber das ist etwas anderes als die Behauptung, diese Änderungen seien „neutral“. Sie müssen sich fragen: „Wie wahrscheinlich ist es, dass es noch eine praktisch signifikante Änderung gibt?“

Im Laufe der Zeit auf Konsistenz prüfen

Sie sollten fast immer versuchen, Daten nach Zeiteinheiten zu gliedern, da viele Störungen der zugrunde liegenden Daten auftreten, während sich unsere Systeme mit der Zeit weiterentwickeln. Wir verwenden oft Tage, aber auch andere Zeiteinheiten können hilfreich sein. Bei der erstmaligen Einführung einer Funktion oder einer neuen Datenerfassung überprüfen Fachkräfte häufig sorgfältig, ob alles wie erwartet funktioniert. Im Laufe der Zeit können jedoch viele Ausfälle oder unerwartetes Verhalten auftreten.

Nur weil ein bestimmter Tag oder eine Reihe von Tagen ein Ausreißer ist, bedeutet dies nicht, dass Sie die entsprechenden Daten verwerfen sollten. Verwenden Sie die Daten als Aufhänger, um einen kausalen Grund dafür zu ermitteln, warum ein oder mehrere Tage unterschiedlich sind, bevor Sie sie verwerfen.

Wenn Sie sich die Daten über den Tag ansehen, bekommen Sie auch ein Gefühl für die Schwankungen in den Daten, die schließlich zu Konfidenzintervallen oder Behauptungen von statistischer Signifikanz führen würden. Dies sollte in der Regel nicht die strenge Berechnung des Konfidenzintervalls ersetzen. Bei großen Änderungen sehen Sie jedoch oft, dass sie allein anhand der Tagesgrafiken statistisch signifikant sind.

Filtern bestätigen und zählen

Fast jede umfangreiche Datenanalyse beginnt mit dem Filtern von Daten in verschiedenen Phasen. Vielleicht möchten Sie nur Nutzer in den USA, Websuchen oder Suchanfragen mit Anzeigen berücksichtigen. In jedem Fall müssen Sie:

  • Geben Sie an, welche Filterung Sie ausführen, und geben Sie diese genau an.
  • Die bei jedem Schritt gefilterte Datenmenge zählen.

Letzteres lässt sich häufig am besten ausführen, wenn Sie alle Messwerte berechnen, auch für die ausgeschlossene Bevölkerung. Sie können sich diese Daten dann ansehen, um Fragen wie "Welcher Anteil der Suchanfragen wurde durch die Spamfilterung entfernt?" zu beantworten. (Je nachdem, warum Sie filtern, ist diese Art der Analyse nicht immer möglich.)

Verhältnisse sollten einen eindeutigen Zähler und Nenner haben

Am interessantesten sind die Verhältnisse der zugrunde liegenden Messwerte. Oft sind interessante Filtermöglichkeiten oder andere Datenoptionen in den genauen Definitionen des Zählers und Nenners verborgen. Was bedeutet beispielsweise „Abfragen / Nutzer“ eigentlich?

  • Abfragen / Nutzer mit einer Abfrage
  • Suchanfragen pro Nutzer, die heute die Google-Website besucht haben
  • Abfragen / Nutzer mit einem aktiven Konto (ja, ich müsste active definieren)

Wenn Sie an dieser Stelle wirklich klar sind, können Sie Verwirrung für Sie selbst und andere vermeiden.

Ein weiterer Sonderfall sind Metriken, die nur für einen Teil Ihrer Daten berechnet werden können. Beispiel: „Time-to-Click“ bedeutet in der Regel „Time-to-Click, wenn ein Klick stattgefunden hat“. Jedes Mal, wenn Sie sich einen solchen Messwert ansehen, müssen Sie die Filterung anerkennen und nach einer Änderung der Filterung zwischen den vergleichenden Gruppen suchen.

Prozesse

Dieser Abschnitt enthält Empfehlungen für den Umgang mit Ihren Daten, die Fragen, die Sie zu Ihren Daten stellen sollten, und was Sie überprüfen sollten.

Separate Validierung, Beschreibung und Bewertung

Ich denke, die Datenanalyse besteht aus drei miteinander verbundenen Phasen:

  1. Validierung1: Glaube ich, dass die Daten selbstkonsistent sind, dass sie korrekt erfasst wurden und das darstellen, was sie meiner Meinung nach tun?
  2. Beschreibung:Wie sieht die objektive Interpretation dieser Daten aus? Beispiele: „Nutzer stellen weniger Suchanfragen der Kategorie X“, „In der Testgruppe ist die Zeit zwischen X und Y um 1% größer“ oder „Weniger Nutzer wechseln zur nächsten Ergebnisseite.“
  3. Bewertung: Geben die Daten an, dass etwas Gutes für den Nutzer, Google oder die Welt geschieht?

Durch das Trennen dieser Phasen können Sie leichter eine Einigung mit anderen treffen. Bei der Beschreibung sollte es sich um Dinge handeln, auf die sich alle im Hinblick auf die Daten einigen können. Die Bewertung wird wahrscheinlich viel mehr Debatten anregen. Wenn Sie Beschreibung und Bewertung nicht trennen, sehen Sie mit höherer Wahrscheinlichkeit nur die Interpretation der Daten, die Sie sich erhoffen. Darüber hinaus ist die Bewertung tendenziell schwieriger, weil das Festlegen des normativen Werts eines Messwerts – in der Regel durch strenge Vergleiche mit anderen Funktionen und Messwerten – erhebliche Investitionen erfordert.

Diese Phasen verlaufen nicht linear. Während Sie die Daten untersuchen, können Sie zwischen den Phasen hin- und herspringen. Sie sollten jedoch jederzeit wissen, in welcher Phase Sie sich befinden.

Einrichtung von Test und Datenerhebung bestätigen

Bevor Sie sich die Daten ansehen, sollten Sie den Kontext verstehen, in dem die Daten erhoben wurden. Wenn die Daten aus einem Test stammen, solltest du dir die Konfiguration des Tests ansehen. Wenn sie von einer neuen Clientinstrumentierung stammen, sollten Sie zumindest ein ungefähres Verständnis davon haben, wie die Daten erfasst werden. Möglicherweise stoßen Sie auf ungewöhnliche bzw. fehlerhafte Konfigurationen oder Einschränkungen bei der Bevölkerungszahl (z. B. nur gültige Daten für Chrome). Alles Wichtige kann Ihnen helfen, später Theorien zu erstellen und zu überprüfen. Beachten Sie Folgendes:

  • Wenn der Test läuft, können Sie ihn selbst ausprobieren. Wenn nicht, sehen Sie sich am besten Screenshots/Verhaltensbeschreibungen an.
  • Prüfen Sie, ob für den Zeitraum, in dem der Test gelaufen ist, etwas Ungewöhnliches vorlag (Feiertage, große Markteinführungen usw.).
  • Ermitteln, welche Nutzergruppen dem Test unterzogen wurden

Was sollte sich nicht ändern?

Schließen Sie in der Phase „Validierung“ alle anderen Schwankungen bei den Daten aus, die sich auf den Test auswirken könnten, bevor Sie die Frage beantworten, die Sie interessiert (z. B. „Hat das Hinzufügen eines Bildes eines Gesichts zu mehr oder weniger Klicks?“). Beispiel:

  • Hat sich die Anzahl der Nutzenden geändert?
  • Wurde in allen Untergruppen die richtige Anzahl betroffener Suchanfragen angezeigt?
  • Haben sich die Fehlerraten verändert?

Diese Fragen sind sowohl für Experimente- und Kontrollvergleiche als auch für die Untersuchung von Trends im Zeitverlauf sinnvoll.

Standardmäßige erste, benutzerdefinierte Sekunde

Bei der Betrachtung neuer Funktionen und neuer Daten ist es besonders verlockend, direkt auf die Messwerte einzugehen, die für dieses neue Feature neu oder speziell sind. Sie sollten sich jedoch immer zuerst die Standardmesswerte ansehen, auch wenn Sie davon ausgehen, dass sie sich ändern. Wenn Sie der Seite beispielsweise einen neuen universellen Block hinzufügen, sollten Sie die Auswirkungen auf Standardmesswerte wie „Klicks auf Webergebnisse“ verstehen, bevor Sie sich die benutzerdefinierten Messwerte für dieses neue Ergebnis ansehen.

Standardmesswerte sind viel besser validiert und korrekter als benutzerdefinierte Messwerte. Wenn Ihre benutzerdefinierten Messwerte nicht mit Ihren Standardmesswerten sinnvoll sind, sind sie wahrscheinlich falsch.

Zweimal oder häufiger messen

Besonders wenn Sie ein neues Phänomen erfassen möchten, versuchen Sie, dasselbe zugrunde liegende Phänomen auf mehrere Arten zu messen. Bestimmen Sie dann, ob diese Messungen konsistent sind. Durch die Verwendung mehrerer Messungen können Sie Fehler im Mess- oder Logging-Code, unerwartete Merkmale der zugrunde liegenden Daten oder wichtige Filterschritte identifizieren. Noch besser ist es, wenn Sie für die Messungen verschiedene Datenquellen verwenden können.

Auf Reproduzierbarkeit prüfen

Sowohl das Segmentieren als auch die Konsistenz im Zeitverlauf sind Beispiele für die Prüfung auf Reproduzierbarkeit. Wenn ein Phänomen wichtig und bedeutsam ist, sollten Sie es über verschiedene Nutzergruppen und Zeiträume hinweg sehen. Die Verifizierung der Reproduzierbarkeit bedeutet jedoch mehr als die Durchführung dieser beiden Prüfungen. Wenn Sie Modelle für die Daten erstellen, sollten diese auch bei kleinen Störungen in den zugrunde liegenden Daten stabil sein. Die Verwendung verschiedener Zeiträume oder zufälliger Teilproben Ihrer Daten zeigt Ihnen auch, wie zuverlässig/reproduzierbar dieses Modell ist.

Wenn ein Modell nicht reproduzierbar ist, erfassen Sie wahrscheinlich nichts Wesentliches über den zugrunde liegenden Prozess, der die Daten erzeugt hat.

Auf Konsistenz mit früheren Messungen prüfen

Häufig berechnen Sie einen Messwert, der mit Daten vergleichbar ist, die in der Vergangenheit gezählt wurden. Sie sollten Ihre Messwerte mit den in der Vergangenheit erfassten Messwerten vergleichen, auch wenn sich diese Messungen auf unterschiedliche Nutzerpopulationen beziehen.

Wenn Sie beispielsweise den Abfragetraffic für eine bestimmte Population analysieren und messen, dass die durchschnittliche Seitenladezeit 5 Sekunden beträgt, bisherige Analysen für alle Nutzer jedoch eine durchschnittliche Seitenladezeit von 2 Sekunden angegeben haben, sollten Sie das genauer untersuchen. Ihre Zahl mag für diese Population stimmen, aber jetzt müssen Sie noch mehr tun, um sie zu validieren.

Sie müssen keine genaue Vereinbarung treffen, aber Sie sollten auf demselben Stand sein. Wenn nicht, gehen Sie davon aus, dass Sie im Unrecht sind, bis Sie sich voll und ganz überzeugen können. Überraschendste Daten werden sich als Fehler und nicht als großartige neue Erkenntnis herausstellen.

Neue Messwerte sollten zuerst auf alte Daten/Features angewendet werden

Wenn Sie neue Messwerte erstellen (z. B. indem Sie eine neue Datenquelle erfassen) und versuchen, etwas Neues zu lernen, wissen Sie nicht, ob der neue Messwert richtig ist. Neue Messwerte sollten Sie zuerst auf eine bekannte Funktion oder Daten anwenden. Wenn Sie beispielsweise eine neue Metrik für die Nutzerzufriedenheit haben, sollten Sie dafür sorgen, dass Ihnen die besten Funktionen zur Zufriedenheit angezeigt werden. Wenn Sie einen neuen Messwert haben, der angibt, wohin Nutzer ihre Aufmerksamkeit auf die Seite lenken, achten Sie darauf, dass er mit dem übereinstimmt, was wir aus Blickbewegungs- oder Evaluatorstudien zur Auswirkung von Bildern auf die Aufmerksamkeit der Seite wissen. So erhalten Sie eine Validierung, wenn Sie etwas Neues lernen.

Hypothesen aufstellen und nach Belegen suchen

In der Regel ist die Datenanalyse für ein komplexes Problem iterativ.2 Sie werden Anomalien, Trends oder andere Merkmale der Daten entdecken. Natürlich werden Sie Theorien entwickeln, um diese Daten zu erklären. Stellen Sie nicht nur eine Theorie auf und behaupten Sie, dass sie wahr ist. Suchen Sie nach Belegen (innerhalb oder außerhalb der Daten), um diese Theorie zu bestätigen oder zu leugnen. Beispiel:

  • Wenn du etwas siehst, das wie ein Lerntrend aussieht, prüfe, ob es sich am stärksten bei Nutzern mit hoher Häufigkeit bemerkbar macht.
  • Wenn Sie der Meinung sind, dass eine Anomalie auf die Einführung einiger Funktionen zurückzuführen ist, prüfen Sie, ob die Population, für die das Feature eingeführt wurde, die einzige ist, die von der Anomalie betroffen ist. Alternativ können Sie dafür sorgen, dass das Ausmaß der Änderung mit den Erwartungen an die Einführung übereinstimmt.
  • Wenn Sie feststellen, dass sich die Wachstumsraten von Nutzern in einer Sprache ändern, suchen Sie nach einer externen Quelle, die die Änderungsrate der Nutzerbevölkerung validiert.

Eine gute Datenanalyse kann eine Geschichte erzählen. Um sicherzustellen, dass dies die richtige Story ist, müssen Sie sich selbst die Geschichte erzählen und dann nach Belegen suchen, dass sie falsch ist. Eine Möglichkeit, dies zu tun, besteht darin, sich zu fragen: „Welche Tests würde ich durchführen, die die von mir erzählte Geschichte validieren/entwerten würden?“ Selbst wenn Sie diese Experimente nicht durchführen können bzw. nicht durchführen können, kann dies Ihnen Ideen zur Validierung Ihrer vorhandenen Daten geben.

Die gute Nachricht ist, dass diese Theorien und möglichen Experimente zu neuen Forschungslinien führen können, die über den Versuch hinaus gehen, etwas über bestimmte Funktionen oder Daten zu lernen. Anschließend werden Sie nicht nur diese Daten verstehen, sondern auch neue Messwerte und Techniken für alle Arten zukünftiger Analysen ableiten.

Vorteile der explorativen Analyse von der End-to-End-Iteration

Führen Sie bei einer explorativen Analyse so viele Iterationen der Gesamtanalyse wie möglich durch. In der Regel gibt es mehrere Schritte zur Signalerfassung, -verarbeitung, -modellierung usw. Wenn Sie zu lange damit verbringen, die erste Phase Ihrer ersten Signale perfekt zu perfektionieren, lassen Sie sich die Chance entgehen, mehr Iterationen in derselben Zeit durchzuführen. Wenn Sie sich schließlich Ihre Daten am Ende ansehen, können Sie Entdeckungen machen, die Ihre Richtung verändern. Daher sollten Sie sich anfangs nicht auf Perfektion konzentrieren, sondern auf das Durchhalten von etwas Vernünftigem. Hinterlassen Sie Notizen für sich selbst und erkennen Sie Dinge wie Filterschritte und nicht parsbare oder ungewöhnliche Anfragen an, aber verschwenden Sie keine Zeit damit, sie zu Beginn der explorativen Analyse loszuwerden.

Auf Feedback achten

Normalerweise definieren wir verschiedene Kennzahlen für den Nutzererfolg. Haben Nutzende zum Beispiel auf ein Ergebnis geklickt? Wenn Sie diese Daten dann in das System einspeisen (was tatsächlich an verschiedenen Stellen der Fall ist), entstehen viele Möglichkeiten für Verwirrung in der Bewertung.

Der in Ihr System zurückgegebene Messwert kann nicht als Grundlage für die Bewertung Ihrer Änderung verwendet werden. Wenn Sie mehr Anzeigen ausliefern, die mehr Klicks erzielen, können Sie nicht auf der Grundlage von „mehr Klicks“ entscheiden, ob Nutzer zufriedener sind. „Mehr Klicks“ bedeutet oft auch „zufriedener“. Sie sollten die Variablen, die Sie eingespeist und bearbeitet haben, auch nicht aufschlüsseln, da dies zu gemischten Veränderungen führt, die schwer oder unverständlich sind.

Denkweise

In diesem Abschnitt wird beschrieben, wie Sie mit anderen zusammenarbeiten und Erkenntnisse kommunizieren.

Datenanalyse beginnt mit Fragen, nicht mit Daten oder einer Technik

Es gibt immer einen Anreiz, Daten zu analysieren. Die Formulierung Ihrer Anforderungen in Form von Fragen oder Hypothesen trägt dazu bei, dass Sie die zu erfassenden Daten erfassen und über mögliche Lücken in den Daten nachdenken. Natürlich sollten sich die Fragen, die Sie stellen, im Blick auf die Daten weiterentwickeln. Eine Analyse ohne Frage ist jedoch ziellos.

Vermeiden Sie es, eine bevorzugte Technik zu finden und dann nur die Teile von Problemen zu finden, an denen diese Technik arbeitet. Auch hier hilft Ihnen die Formulierung klarer Fragen, dieser Falle zu vermeiden.

Skepsis und Champions

Wenn Sie mit Daten arbeiten, müssen Sie sowohl zum Champion der gewonnenen Erkenntnisse als auch zum Skepsis werden. Hoffentlich werden Sie einige interessante Phänomene in den Daten finden, die Sie betrachten. Wenn Sie ein interessantes Phänomen feststellen, stellen Sie sich die folgenden Fragen:

  • Welche weiteren Daten könnte ich sammeln, um zu zeigen, wie großartig das ist?
  • Was könnte ich finden, das dies für ungültig erklären würde?“

Besonders in Fällen, in denen Sie Analysen für jemanden durchführen, der wirklich eine bestimmte Antwort möchte (z. B. „Mein Feature ist großartig!“), müssen Sie Skeptiker spielen, um Fehler zu vermeiden.

Korrelation != Kausalität

Wenn wir Theorien über Daten aufstellen, möchten wir häufig behaupten, dass „X“ Y verursacht. Beispiel: „Die langsamere Seite hat dazu geführt, dass Nutzer weniger klicken.“ Sogar xkcd weiß, dass Sie nicht einfach durch eine Korrelation eine Kausalität herstellen können. Wenn Sie überlegen, wie Sie eine Kausalitätstheorie validieren würden, können Sie in der Regel ein gutes Gefühl dafür entwickeln, wie glaubwürdig eine Kausaltheorie ist.

Manchmal versuchen Menschen, an einer Korrelation so aussagekräftig aufrechtzuerhalten, dass sie behaupten, dass selbst wenn zwischen A und B kein kausaler Zusammenhang besteht, der Übereinstimmung etwas zugrunde liegen muss, damit ein Signal ein guter Indikator für das andere sein kann. In diesem Bereich sind mehrere Hypothesentestprobleme gefährlich. Wie auch von xkcd bekannt ist, stimmen einige Signale bei genügend Experimenten und ausreichenden Abmessungen für einen bestimmten Test überein. Dies bedeutet nicht, dass dieselben Signale in Zukunft übereinstimmen werden. Sie haben also die gleiche Pflicht, eine kausale Theorie wie „Es gibt einen versteckten Effekt C, der sowohl A als auch B verursacht“ zu berücksichtigen, damit Sie prüfen können, wie plausibel dies ist.

Eine Fachkraft für Datenanalyse muss diese Kausalfragen für die Personen, die die Daten nutzen möchten, häufig beantworten. Sie sollten gegenüber diesen Konsumenten klar definieren, was Sie über Kausalität sagen dürfen und was nicht.

Zuerst mit Kollegen teilen, dann externe Nutzer

In den vorherigen Punkten wurden einige Möglichkeiten vorgestellt, wie Sie die richtigen Arten der Integritätsprüfung und -validierung durchführen können. Aber das Teilen mit einem Kollegen ist eine der besten Möglichkeiten, sich dazu zu zwingen, all diese Dinge zu tun. Ein qualifizierter Peer kann qualitativ anderes Feedback geben als die Nutzer Ihrer Daten, insbesondere da die Verbraucher in der Regel eine Agenda haben. Mitbewerber sind an mehreren Punkten der Analyse nützlich. Zu Beginn können Sie sich über Missgeschicke Ihrer Mitlernenden, Vorschläge für zu messende Dinge und frühere Forschungen in diesem Bereich informieren. Gegen Ende sind sie sehr gut darin, Kuriositäten, Inkonsistenzen oder andere Unstimmigkeiten aufzuzeigen.

Idealerweise sollten Sie Feedback von einer Person erhalten, die etwas über die Daten weiß, die Sie sich ansehen, aber selbst eine Person, die nur allgemeine Erfahrung in der Datenanalyse hat, ist äußerst wertvoll.

Ignoranz und Fehler erwarten und akzeptieren

Es gibt viele Grenzen dafür, was wir aus Daten lernen können. Nate Silver ist in The Signal and the Noise ein überzeugendes Argument dafür, dass wir nur dann Fortschritte in besserer Vorhersage machen können, wenn wir die Grenzen unserer Sicherheit eingestehen. Das Eingestehen von Unwissenheit ist eine Stärke, die in der Regel nicht sofort belohnt wird. Es fühlt sich zu diesem Zeitpunkt schlecht an, aber langfristig ist es ein großer Vorteil für Sie und Ihr Team. Es fühlt sich noch schlimmer an, wenn Sie einen Fehler später (oder sogar zu spät!) entdecken, aber wenn Sie sich Ihren Fehlern proaktiv anerkennen, verdienen Sie Respekt. Dieser Respekt lässt Glaubwürdigkeit und Wirkung erzielen.

Abschließende Gedanken

Ein Großteil der Arbeit für eine gute Datenanalyse ist für die Nutzer Ihrer Analyse nicht sofort ersichtlich. Die Tatsache, dass Sie die Populationsgrößen sorgfältig überprüft und validiert haben, dass der Effekt in allen Browsern einheitlich war, wird den Personen, die versuchen, Entscheidungen anhand dieser Daten zu treffen, wahrscheinlich nicht erreichen. Dies erklärt auch, warum eine gute Datenanalyse länger dauert als die meisten Menschen (insbesondere, wenn sie nur die Endausgabe sehen). Ein Teil unserer Aufgabe als Analysten besteht darin, Nutzer mit datenbasierten Erkenntnissen nach und nach darüber aufzuklären, was diese Schritte sind und warum sie wichtig sind.

Die Notwendigkeit all dieser Manipulationen und Erkundungen Ihrer Daten legt auch die Anforderungen für eine gute Datenanalysesprache und -umgebung fest. Uns stehen viele Tools zur Verfügung, um Daten zu untersuchen. Verschiedene Tools und Sprachen eignen sich besser für die oben beschriebenen Techniken. Die Auswahl des richtigen Tools ist eine wichtige Fähigkeit für Fachkräfte für Datenanalyse. Sie sollten nicht durch die Funktionen des Tools eingeschränkt werden, mit denen Sie am besten vertraut sind. Ihre Aufgabe ist es, einen echten Einblick zu liefern und nicht ein bestimmtes Tool anzuwenden.

 


  1. Dies wird manchmal als „erste Datenanalyse“ bezeichnet. Weitere Informationen finden Sie im Wikipedia-Artikel zur Datenanalyse 

  2. Technisch gesehen sollte dies nur dann iterativ sein, wenn Sie eine explorative Analyse durchführen, keine bestätigende Analyse.