Analyse de données efficace

Auteur: Patrick Riley

Merci tout particulièrement à: Diane Tang, Rehan Khan, Elizabeth Tucker, Amir Najmi, Hilary Hutchinson, Joel Darnauer, Dale Neal, Aner Ben-Artzi, Sanders Kleinfeld, David Westbrook et Barry Rosenberg.

Historique

Présentation

Dégager des informations et des insights à partir d'une pile de données est une tâche particulièrement efficace, mais sujette aux erreurs. Les meilleurs analystes de données et ingénieurs soucieux des données se forment une réputation pour créer des déclarations crédibles à partir des données. Mais que fait-il qui lui donne de la crédibilité ? J'entends souvent des adjectifs tels que prudent et méthodique, mais que font réellement les analystes les plus prudents et méthodiques ?

Ce n'est pas une question simple, en particulier compte tenu du type de données que nous recueillons régulièrement chez Google. Nous travaillons généralement avec de très grands jeux de données, mais ils sont extrêmement riches. C'est-à-dire que chaque ligne de données comporte généralement de nombreux attributs. Lorsque vous combinez cela avec les séquences d'événements temporelles pour un utilisateur donné, il existe un très grand nombre de façons d'examiner les données. Comparez cela à une expérience de psychologie académique typique, pour laquelle il est facile pour le chercheur d'examiner chaque point de données. Les problèmes posés par nos vastes ensembles de données de grande dimension sont très différents de ceux rencontrés dans la majeure partie de l'histoire du travail scientifique.

Ce document résume les idées et les techniques que des analystes méthodiques et minutieux utilisent sur de grands ensembles de données de grande dimension. Bien que ce document se concentre sur les données des journaux et de l'analyse expérimentale, bon nombre de ces techniques sont plus largement applicables.

Le reste du document comprend trois sections couvrant différents aspects de l'analyse de données:

  • Technique: idées et techniques de manipulation et d'examen des données.
  • Processus: recommandations sur la façon dont vous abordez vos données, les questions à poser et les éléments à vérifier.
  • L'état d'esprit: comment travailler avec les autres et communiquer des idées.

Technique

Examinons quelques techniques permettant d'examiner vos données.

Examiner vos répartitions

La plupart des professionnels utilisent des métriques récapitulatives (moyenne, médiane, écart-type, etc.) pour communiquer sur les distributions. Cependant, il est généralement conseillé d'examiner des représentations de distribution beaucoup plus riches en générant des histogrammes, des fonctions de distribution cumulée (CDF), des tracés quantiles-quantiles (Q-Q), etc. Ces représentations plus riches vous permettent de détecter des caractéristiques importantes des données, telles que le comportement multimodal ou une classe significative d'anomalies.

Tenir compte des valeurs aberrantes

Examinez attentivement les anomalies, car elles peuvent être des canaris dans la mine de charbon et indiquer des problèmes plus fondamentaux pour votre analyse. Vous pouvez exclure les anomalies de vos données ou les regrouper dans une catégorie "inhabituelle", mais vous devez vous assurer de savoir pourquoi les données se retrouvent dans cette catégorie.

Par exemple, si vous examinez les requêtes enregistrant le plus faible nombre de clics, vous constaterez peut-être des clics sur les éléments que vous ne comptez pas. En examinant les requêtes générant le plus grand nombre de clics, vous pourriez identifier des clics que vous ne devriez pas comptabiliser. En revanche, il peut y avoir des valeurs aberrantes que vous ne pourrez jamais expliquer. Vous devez donc faire attention au temps que vous consacrez à cette tâche.

Tenir compte du bruit

Le hasard existe et va nous induire en erreur. Certaines personnes pensent : "Google contient tellement de données ; le bruit disparaît." Ce n'est tout simplement pas vrai. Chaque nombre ou résumé de données que vous produisez doit être associé à une notion de confiance dans cette estimation (via des mesures telles que les intervalles de confiance et les p-values).

Consulter des exemples

Chaque fois que vous produisez un nouveau code d'analyse, vous devez examiner des exemples issus des données sous-jacentes et la façon dont votre code interprète ces exemples. Il est presque impossible de produire un code fonctionnel d'une complexité quelconque sans effectuer cette étape. Votre analyse extrait de nombreux détails des données sous-jacentes pour produire des résumés utiles. En examinant toute la complexité des exemples individuels, vous pouvez être sûr que votre résumé est raisonnable.

La façon dont vous échantillonnez ces exemples est importante:

  • Si vous classez les données sous-jacentes, examinez les exemples appartenant à chaque classe.
  • S'il s'agit d'une classe plus importante, examinez d'autres exemples.
  • Si vous calculez un nombre (par exemple, le temps de chargement d'une page), assurez-vous de regarder des exemples extrêmes (peut-être les 5% les plus rapides et les plus lents ; vous savez à quoi ressemble votre distribution, n'est-ce pas ?) ainsi que les points dans l'espace des mesures.

Segmenter vos données

Le découpage consiste à séparer vos données en sous-groupes et à examiner les valeurs des métriques de chaque sous-groupe séparément. Nous découpons généralement des dimensions telles que le navigateur, les paramètres régionaux, le domaine, le type d'appareil, etc. Si le phénomène sous-jacent est susceptible de fonctionner différemment d'un sous-groupe, vous devez diviser les données pour confirmer si c'est effectivement le cas. Même si vous ne vous attendez pas à ce que le découpage produit des résultats différents, l'analyse de quelques segments pour vérifier la cohérence interne vous permet d'être plus certain que vous mesurez la bonne chose. Dans certains cas, un segment particulier peut contenir des données de mauvaise qualité, une interaction utilisateur non fonctionnelle ou, d'une manière ou d'une autre, fondamentalement différent.

Chaque fois que vous segmentez des données pour comparer deux groupes (par exemple, test/contrôle, ou même "temps A" et "moment B"), vous devez tenir compte de ces variations. Une variation se produit lorsque la quantité de données contenues dans les tranches de chaque groupe est différente. le paradoxe de Simpson et d'autres confusions peuvent en résulter. En règle générale, si la quantité relative de données dans une tranche est identique dans vos deux groupes, vous pouvez effectuer une comparaison en toute sécurité.

Tenir compte de l'importance pratique

Avec un volume de données important, il peut être tentant de se concentrer uniquement sur l'importance statistique ou de se concentrer sur les détails de chaque bit de données. Mais vous devez vous demander : "Même s'il est vrai que la valeur X est 0,1% supérieure à la valeur Y, est-ce important ?" Cela peut être particulièrement important si vous êtes incapable de comprendre/catégoriser une partie de vos données. Si vous ne parvenez pas à comprendre certaines chaînes de user-agents dans vos journaux, le fait qu'elles représentent 0,1% ou 10% des données fait une grande différence dans l'analyse de ces cas.

Par ailleurs, vous disposez parfois d'un faible volume de données. De nombreuses modifications ne semblent pas significatives d'un point de vue statistique, mais cela ne revient pas à prétendre que ces changements sont "neutres". Posez-vous la question suivante : "Quelle est la probabilité qu'un changement pratiquement significatif soit toujours observé ?"

Vérifier la cohérence au fil du temps

Vous devriez presque toujours essayer de segmenter les données par unités de temps, car de nombreuses perturbations au niveau des données sous-jacentes se produisent à mesure que nos systèmes évoluent. (Nous utilisons souvent des jours, mais d'autres unités de temps peuvent également être utiles.) Lors du lancement initial d'une fonctionnalité ou d'une nouvelle collecte de données, les professionnels vérifient souvent attentivement que tout fonctionne comme prévu. Cependant, de nombreuses défaillances ou un comportement inattendu peuvent survenir au fil du temps.

Ce n'est pas parce qu'un jour ou un ensemble de jours particulier est une valeur aberrante que vous devez supprimer les données correspondantes. Utilisez les données comme accroche afin de déterminer la raison pour laquelle ce ou ces jours sont différents avant de les supprimer.

L'examen des données d'un jour à l'autre vous donne également une idée des variations qui pourraient à terme conduire à des intervalles de confiance ou à des affirmations statistiques. Cela ne devrait généralement pas remplacer les calculs rigoureux des intervalles de confiance, mais souvent avec des changements importants, vous pouvez constater qu'ils ne seront statistiquement significatifs qu'à partir des graphiques quotidiens.

Confirmer et comptabiliser le filtrage

Presque toutes les grandes analyses de données commencent par filtrer les données à différentes étapes. Vous souhaitez peut-être ne prendre en compte que les utilisateurs situés aux États-Unis, les recherches sur le Web ou les recherches incluant des annonces. Dans tous les cas, vous devez:

  • Reconnaissez et spécifiez clairement les filtres que vous effectuez.
  • Compter la quantité de données filtrées à chaque étape

Souvent, la meilleure façon de procéder est de calculer toutes vos métriques, même pour la population que vous excluez. Vous pouvez ensuite consulter ces données pour répondre à des questions telles que : "Quelle fraction des requêtes le filtrage antispam a-t-il supprimée ?" (Selon la raison pour laquelle vous filtrez, ce type d'analyse peut ne pas toujours être possible.)

Les ratios doivent avoir un numérateur et des dénominateurs clairs

Les métriques les plus intéressantes sont des ratios de mesures sous-jacentes. Souvent, le filtrage intéressant ou d'autres choix de données sont dissimulés dans les définitions précises du numérateur et du dénominateur. Par exemple, que signifie réellement "Requêtes / Utilisateur" ?

  • Requêtes / Utilisateurs ayant une requête
  • Requêtes / Utilisateurs ayant visité Google aujourd'hui
  • Requêtes / Utilisateurs disposant d'un compte actif (oui, je dois définir active)

En étant très clair ici, vous pouvez éviter toute confusion pour vous-même et pour les autres.

Autre cas particulier : les métriques qui ne peuvent être calculées que sur une partie des données. Par exemple, "Temps de clic" signifie généralement "Délai avant clic, étant donné qu'un clic a eu lieu". Chaque fois que vous examinez une métrique de ce type, vous devez savoir que le filtrage et rechercher un changement de filtrage entre les groupes que vous comparez.

Traiter

Cette section contient des recommandations sur la façon d'aborder vos données, les questions à poser à leur sujet et les éléments à vérifier.

Validation, description et évaluation distinctes

Je pense que l’analyse de données comporte trois étapes interdépendantes:

  1. Validation1: est-ce que je pense que les données sont auto-cohérentes, qu'elles ont été collectées correctement et qu'elles représentent ce que je pense qu'elles font ?
  2. Description:quelle est l'interprétation objective de ces données ? Par exemple, "Les utilisateurs effectuent moins de requêtes classées comme X", "Dans le groupe de test, le temps entre X et Y est 1% plus long" et "Moins d'utilisateurs accèdent à la page de résultats suivante".
  3. Évaluation:Compte tenu de la description, les données nous indiquent-elles que quelque chose de bien se produit pour l'utilisateur, pour Google ou pour le monde entier ?

En séparant ces étapes, vous pouvez plus facilement parvenir à un accord avec les autres. La description doit être des points sur lesquels tout le monde peut se mettre d'accord pour les données. L'évaluation soulève probablement d'autres débats. Si vous ne séparez pas la description et l'évaluation, il est beaucoup plus probable que vous ne voyiez que l'interprétation des données que vous espérez voir. En outre, l'évaluation a tendance à être beaucoup plus difficile, car établir la valeur normative d'une métrique, généralement par le biais de comparaisons rigoureuses avec d'autres fonctionnalités et métriques, nécessite un investissement important.

Ces étapes ne progressent pas de façon linéaire. Lorsque vous explorez les données, vous pouvez passer d'une étape à l'autre, mais vous devez à tout moment déterminer à quel stade vous vous trouvez.

Confirmer la configuration du test et de la collecte des données

Avant d'examiner des données, assurez-vous de bien comprendre le contexte dans lequel elles ont été collectées. Si les données proviennent d'un test, examinez sa configuration. Si elle provient d'une instrumentation nouveau client, assurez-vous au moins de bien comprendre la façon dont les données sont collectées. Vous pouvez repérer des configurations inhabituelles ou incorrectes, ou des restrictions de remplissage (telles que des données valides uniquement pour Chrome). Tout ce qui est important ici peut vous aider à élaborer et à vérifier des théories plus tard. Vous devez prendre certains points en compte :

  • Si le test est en cours d'exécution, essayez-le par vous-même. Si vous ne le pouvez pas, consultez au moins des captures d'écran/descriptions de comportement.
  • Vérifiez si la période du test a révélé quelque chose d'inhabituel (jours fériés, lancements importants, etc.).
  • Déterminer les populations d'utilisateurs ayant fait l'objet du test

Vérifier ce qui ne doit pas changer

Lors de la phase "Validation", avant de répondre à la question qui vous intéresse (par exemple, "L'ajout d'une photo représentant un visage a-t-il augmenté ou diminué le nombre de clics ?"), écartez toute autre variabilité des données qui pourrait affecter le test. Exemple :

  • Le nombre d'utilisateurs a-t-il changé ?
  • Le nombre approprié de requêtes concernées s'est-il affiché dans tous mes sous-groupes ?
  • Les taux d'erreur ont-ils changé ?

Ces questions sont pertinentes à la fois pour les comparaisons entre les tests et le groupe de contrôle, ainsi que pour l'examen des tendances au fil du temps.

Standard en premier, 2e personnalisé

Lorsque vous examinez de nouvelles fonctionnalités et données, il est particulièrement tentant de vous pencher directement sur les métriques nouvelles ou spéciales pour cette nouvelle fonctionnalité. Cependant, vous devez toujours commencer par examiner les métriques standards, même si vous pensez qu'elles changent. Par exemple, lorsque vous ajoutez un bloc universel à la page, assurez-vous de bien comprendre l'impact sur les métriques standards telles que les "clics sur les résultats Web" avant de vous plonger dans les métriques personnalisées concernant ce nouveau résultat.

Les métriques standards sont beaucoup mieux validées et plus susceptibles d'être correctes que les métriques personnalisées. Si vos métriques personnalisées n'ont aucun sens par rapport à vos métriques standards, elles sont probablement erronées.

Mesurez deux fois ou plus

Essayez de mesurer le même élément sous-jacent de plusieurs manières, en particulier si vous essayez de capturer un nouveau phénomène. Ensuite, déterminez si ces mesures multiples sont cohérentes. En utilisant plusieurs mesures, vous pouvez identifier les bugs dans le code de mesure ou de journalisation, les caractéristiques inattendues des données sous-jacentes ou les étapes de filtrage importantes. C'est encore mieux si vous pouvez utiliser différentes sources de données pour les mesures.

Vérifier la reproductibilité

Le découpage et la cohérence au fil du temps sont des exemples particuliers de vérification de la reproductibilité. Si un phénomène est important et significatif, vous devez le voir pour différentes populations d'utilisateurs et différentes périodes. Toutefois, vérifier la reproductibilité ne consiste pas seulement à effectuer ces deux vérifications. Si vous créez des modèles à partir de données, ils doivent être stables face aux petites perturbations au niveau des données sous-jacentes. L'utilisation de différentes périodes ou de sous-échantillons aléatoires de vos données vous indiquera également la fiabilité et la reproductibilité de ce modèle.

Si un modèle n'est pas reproductible, vous ne capturez probablement pas un élément fondamental du processus sous-jacent qui a produit les données.

Vérifier la cohérence avec les mesures précédentes

Souvent, vous calculez une métrique similaire à des éléments comptabilisés dans le passé. Vous devez comparer vos métriques à celles enregistrées par le passé, même si ces mesures concernent des populations d'utilisateurs différentes.

Prenons l'exemple suivant : vous examinez le trafic de requêtes d'une population spécifique et mesurez que le temps de chargement moyen d'une page est de cinq secondes, mais que les analyses précédentes sur tous les utilisateurs ont donné un temps de chargement moyen de la page de deux secondes. Vous devez alors enquêter. Votre nombre est peut-être correct pour cette population, mais vous devez maintenant faire plus de travail pour le valider.

Vous n'avez pas besoin d'obtenir l'accord exact, mais vous devriez vous situer sur la même longueur d'onde. Si ce n'est pas le cas, partez du principe que vous avez tort jusqu'à ce que vous puissiez complètement vous convaincre. Les données les plus surprenantes seront une erreur, et non une nouvelle information fabuleuse.

Les nouvelles métriques doivent d'abord être appliquées aux anciennes données/fonctionnalités

Si vous créez de nouvelles métriques (éventuellement en recueillant une nouvelle source de données) et essayez d'en apprendre davantage, vous ne saurez pas si votre nouvelle métrique est correcte. Lorsque vous créez des métriques, vous devez d'abord les appliquer à une caractéristique ou à des données connues. Par exemple, si vous disposez d'une nouvelle métrique de satisfaction des utilisateurs, vous devez vous assurer qu'elle indique vos meilleures caractéristiques d'aide. Si vous disposez d'une nouvelle métrique indiquant où les utilisateurs attirent leur attention sur la page, assurez-vous qu'elle correspond à ce que nous savons d'après les études sur le suivi oculaire ou les évaluateurs, sur l'impact des images sur l'attention des pages. Cela permet d'obtenir une validation lorsque vous apprenez quelque chose de nouveau.

Formuler des hypothèses et rechercher des preuves

En règle générale, l'analyse de données pour un problème complexe est itérative2.Vous découvrirez des anomalies, des tendances ou d'autres caractéristiques des données. Naturellement, vous développerez des théories pour expliquer ces données. Ne vous contentez pas d'élaborer une théorie et de la déclarer comme vraie. Recherchez des preuves (à l'intérieur ou à l'extérieur des données) pour confirmer/refuser cette théorie. Exemple :

  • Si vous constatez qu'une tendance ressemble à une tendance d'apprentissage, vérifiez si elle se manifeste le plus fortement auprès des utilisateurs les plus fréquents.
  • Si vous pensez qu'une anomalie est due au lancement de certaines fonctionnalités, assurez-vous que la population auprès de laquelle la fonctionnalité a été lancée est la seule concernée par cette anomalie. Vous pouvez également vous assurer que l'ampleur du changement correspond aux attentes du lancement.
  • Si vous constatez que les taux de croissance des utilisateurs varient pour une langue donnée, essayez de trouver une source externe qui valide ce taux.

Une bonne analyse de données aura une histoire à raconter. Pour vous assurer qu'il s'agit de la bonne histoire, vous devez vous la raconter, puis rechercher les preuves que ce n'est pas le cas. Vous pouvez, par exemple, vous demander quelles expériences exécuteraient pour valider/invalider l'histoire que je raconte ? Même si vous ne pouvez pas ou ne pouvez pas réaliser ces tests, cela peut vous donner des idées sur la façon de valider les données dont vous disposez.

La bonne nouvelle, c'est que ces théories et expériences possibles peuvent aboutir à de nouvelles lignes de recherche qui dépassent la tentative d'apprentissage d'une caractéristique ou d'une donnée en particulier. Vous entrez ensuite dans le domaine de la compréhension non seulement de ces données, mais aussi de l'obtention de nouvelles métriques et techniques pour toutes sortes d'analyses futures.

L'analyse exploratoire bénéficie de l'itération de bout en bout

Lorsque vous effectuez une analyse exploratoire, effectuez autant d'itérations de l'analyse complète que possible. En général, plusieurs étapes sont nécessaires pour la collecte, le traitement et la modélisation des signaux. Si vous passez trop de temps à assurer la qualité de la toute première étape des signaux initiaux, vous manquez des occasions d'effectuer plus d'itérations dans le même laps de temps. De plus, lorsque vous regardez enfin vos données à la fin, vous pouvez faire des découvertes qui changent votre direction. Par conséquent, vous ne devez pas vous concentrer sur la perfection, mais sur l'obtention de quelque chose de raisonnable jusqu'au bout. Laissez des notes pour vous-même et reconnaissez les éléments tels que les étapes de filtrage et les requêtes non analysables ou inhabituelles, mais ne perdez pas de temps à essayer de toutes les supprimer au début de l'analyse exploratoire.

Surveillez les commentaires

En général, nous définissons diverses mesures relatives à la réussite des utilisateurs. Par exemple, les utilisateurs ont-ils cliqué sur un résultat ? Si vous transmettez ensuite ces données au système (ce que nous faisons en réalité à plusieurs endroits), vous créez de nombreuses possibilités de confusion dans l'évaluation.

Vous ne pouvez pas utiliser la métrique renvoyée à votre système comme base pour évaluer votre modification. Si vous diffusez plus d'annonces générant plus de clics, vous ne pouvez pas utiliser "plus de clics" pour déterminer si les utilisateurs sont plus satisfaits, même si "plus de clics" signifie souvent "plus satisfaits". De plus, vous ne devez même pas segmenter les variables que vous avez saisies et manipulées, car cela entraînerait des changements de combinaison difficiles, voire impossibles à comprendre.

État d'esprit

Cette section décrit comment travailler avec les autres et communiquer des idées.

L’analyse de données commence par des questions, pas par des données ou une technique

Il y a toujours une motivation pour analyser des données. En formant vos besoins sous forme de questions ou d'hypothèses, vous vous assurez que vous collectez les données que vous devriez recueillir et que vous réfléchissez aux lacunes possibles dans les données. Bien sûr, les questions que vous posez doivent évoluer au fur et à mesure que vous examinez les données. Cependant, une analyse sans question finit par être nulle.

Évitez le piège consistant à trouver votre technique préférée et à ne trouver que les éléments des problèmes sur lesquels cette technique fonctionne. Encore une fois, créer des questions claires vous aidera à éviter ce piège.

Soyez à la fois sceptique et défendu

Lorsque vous travaillez avec des données, vous devez devenir à la fois le champion des informations que vous obtenez et le sceptique à leur égard. Nous espérons que vous trouverez des phénomènes intéressants dans les données que vous examinez. Lorsque vous détectez un phénomène intéressant, posez-vous les questions suivantes:

  • Quelles autres données puis-je collecter pour montrer à quel point c'est génial ?
  • Qu'est-ce que je pourrais trouver qui pourrait invalider cette situation ?"

Vous devez être sceptique pour éviter de faire des erreurs, en particulier dans les cas où vous effectuez une analyse pour une personne qui veut vraiment une réponse particulière (par exemple, "Ma fonctionnalité est géniale !").

Corrélation != Causalité

Lorsque nous élaborons des théories sur les données, nous souhaitons souvent affirmer que "X entraîne Y" : par exemple, "le ralentissement de la page a incité les utilisateurs à cliquer moins". Même xkcd sait que vous ne pouvez pas simplement établir une causalité en raison de la corrélation. En examinant la manière dont vous valideriez une théorie de la causalité, vous pouvez généralement vous faire une idée de la crédibilité d'une théorie causale.

Parfois, les gens essaient de conserver une corrélation aussi significative en affirmant que même s'il n'y a pas de relation de cause à effet entre A et B, il doit y avoir quelque chose à la base de la coïncidence pour qu'un signal puisse être un bon indicateur ou un bon indicateur de l'autre. Cette zone est dangereuse pour les problèmes de tests d'hypothèses multiples. Comme xkcd le sait également, certains signaux sont alignés pour une expérience spécifique si les tests et les dimensions sont suffisants. Cela ne signifie pas que les mêmes signaux s'aligneront à l'avenir. Vous avez donc la même obligation d'envisager une théorie de causalité telle que "un effet caché C entraînant à la fois A et B" afin que vous puissiez essayer de vérifier dans quelle mesure c'est plausible.

Un analyste de données doit souvent répondre à ces questions causales pour les personnes qui souhaitent consommer les données. Vous devez être clair avec ces consommateurs sur ce que vous pouvez et ne pouvez pas dire sur la causalité.

Partagez d'abord avec vos pairs, puis avec les consommateurs externes

Les points précédents ont suggéré des méthodes pour vous entraîner à effectuer les bons types de vérification et de validation de l'intégrité. Mais partager avec un pair est l'un des meilleurs moyens de vous forcer à faire toutes ces choses. Un pair compétent peut fournir des commentaires qualitativement différents de ceux des consommateurs de vos données, d'autant plus que ceux-ci ont généralement un ordre du jour. Les pairs sont utiles à plusieurs points tout au long de l'analyse. Très tôt, vous pouvez découvrir les pièges connus de vos pairs, des suggestions de choses à mesurer et les recherches passées dans ce domaine. Vers la fin, les pairs sont très doués pour signaler les anomalies, les incohérences ou d'autres confusions.

Idéalement, vous devriez obtenir les commentaires d'un pair qui connaît quelque chose sur les données que vous examinez, mais même un pair qui ne dispose que d'une expérience générale de l'analyse de données est extrêmement précieux.

Attendez-vous à l'ignorance et aux erreurs, et acceptez-les

Il existe de nombreuses limites à ce que nous pouvons apprendre des données. Dans l'étude Le signal et le bruit, Nate Silver souligne l'importance que nous pouvons faire progresser la prédiction en admettant les limites de notre certitude. Admettre l'ignorance est une force qui n'est généralement pas récompensée immédiatement. C'est mauvais pour le moment, mais c'est un avantage non négligeable pour vous et votre équipe à long terme. C'est encore pire lorsque vous faites une erreur et que vous la découvrez plus tard (ou même trop tard !), mais savoir reconnaître vos erreurs de manière proactive vous fait respecter. Ce respect se traduit par une crédibilité et un impact.

Conclusion

Une grande partie du travail pour effectuer une bonne analyse des données n'est pas immédiatement évidente pour les utilisateurs de votre analyse. Le fait que vous ayez soigneusement vérifié la taille de la population et vérifié que l'effet était cohérent sur tous les navigateurs ne vous informera probablement pas des personnes qui essaient de prendre des décisions à partir de ces données. Cela explique également pourquoi une bonne analyse des données prend plus de temps qu'il n'y paraît pour la plupart des utilisateurs (en particulier lorsqu'ils ne voient que le résultat final). Une partie de notre travail en tant qu'analystes consiste à éduquer progressivement les consommateurs d'informations basées sur les données sur ce que sont ces étapes et pourquoi elles sont importantes.

La nécessité de toutes ces manipulations et explorations de vos données implique également les exigences pour un langage et un environnement d'analyse de données de qualité. Nous disposons de nombreux outils pour examiner les données. Différents outils et langages sont mieux adaptés aux diverses techniques abordées ci-dessus. Choisir le bon outil est une compétence importante pour un analyste. Vous ne devez pas être limité par les capacités de l'outil avec lequel vous êtes le plus à l'aise. Votre travail consiste à fournir une véritable information et non à appliquer un outil particulier.

 


  1. Cette technique est parfois appelée "analyse initiale de données". Consultez l' article Wikipédia sur l'analyse de données .

  2. Techniquement, il ne doit être itératif que si vous effectuez une analyse exploratoire, et non une analyse de confirmation.