İyi Veri Analizi

Koleksiyonlar ile düzeninizi koruyun İçeriği tercihlerinize göre kaydedin ve kategorilere ayırın.

Yazar: Patrick Riley

Özel teşekkürler: Diane Tang, Rehan Khan, Elizabeth Tucker, Amir Najmi, Hilary Hutchinson, Joel Darnauer, Dale Neal, Aner Ben-Artzi, Sanders Kleinfeld, David Westbrook ve Barry Rosenberg.

İzledikleriniz

Genel bakış

Bir veri yığınından gerçekleri ve içgörüleri türetmek, güçlü ancak hataya açık bir iştir. En iyi veri analistleri ve veri inceleme odaklı mühendisler, verilerden güvenilir veriler ürettiği için itibar kazanıyor. Peki müşterilerin güvenini kazanmak için ne yapıyorlar? Sık sık dikkatli ve metodolojik gibi sıfatlar duyuyorum, ancak en dikkatli ve metodolojik analistler gerçekten ne yapıyor?

Özellikle Google'da düzenli olarak topladığımız veri türü göz önünde bulundurulduğunda bu, kolay bir soru değildir. Genellikle çok büyük veri kümeleriyle çalışmakla kalmıyor, bu veri kümeleri son derece zengin oluyor. Diğer bir deyişle, her veri satırında genellikle çok sayıda özellik bulunur. Bunu belirli bir kullanıcının geçici etkinlik dizisiyle birleştirdiğinizde, verilere bakmanın çok sayıda yolu vardır. Bu durumu, araştırmacının her bir veri noktasını incelemekte zorlandığı sıradan bir akademik psikoloji deneyiyle karşılaştırın. Büyük ve yüksek boyutlu veri kümelerimizin ortaya koyduğu sorunlar, bilimsel çalışmalar tarihinin büyük bölümünde karşılaşılan sorunlardan çok farklı.

Bu belgede, dikkatli ve metodolojili analistlerin büyük ve yüksek boyutlu veri kümelerinde kullandığı fikirler ve teknikler özetlenmektedir. Bu doküman, günlüklerden ve deneysel analizlerden elde edilen verilere odaklansa da bu tekniklerin çoğu daha geniş bir kitleye hitap etmektedir.

Belgenin geri kalanında, veri analizinin farklı yönlerini ele alan üç bölüm bulunmaktadır:

  • Teknik: Verilerinizi manipüle etmeye ve incelemeye yönelik fikirler ve teknikler.
  • Süreç: Verilerinize nasıl yaklaştığınız, hangi soruları sormanız ve neleri kontrol etmeniz gerektiği ile ilgili öneriler.
  • Düşünme: Başkalarıyla çalışma ve analizleri aktarma.

Teknik

Verilerinizi incelemek için kullanabileceğiniz tekniklere göz atalım.

Dağılımlarınıza bakın

Serbest çalışanların çoğu, dağılımlarla ilgili iletişim kurmak için özet metriklerini (örneğin, ortalama, ortanca değer, standart sapma vb.) kullanır. Bununla birlikte, genellikle histogramlar, kümülatif dağılım işlevleri (CDF'ler), Çeyrek Çeyrek (Q-Q) grafikleri vb. oluşturarak çok daha zengin dağıtım temsillerini incelemeniz gerekir. Bu zengin ifadeler, verilerin çok modlu davranış veya aykırı değerlere sahip önemli bir sınıf gibi önemli özelliklerini tespit etmenizi sağlar.

Aykırı değerleri göz önünde bulundurun

Analizinizdeki daha temel sorunları gösteren kömür madeninde kanarya olabilecekleri için aykırı değerleri dikkatlice inceleyin. Olağan dışı verileri verilerinizden hariç tutmak veya bir araya getirmek sorun yaratmaz ancak verilerin bu kategoriye neden girdiğini bildiğinizden emin olmalısınız.

Örneğin, en düşük tıklama sayısına sahip sorgulara bakmak, sayamadığınız öğelerin tıklamalarını ortaya çıkarabilir. En yüksek tıklama sayısına sahip sorgulara bakmak, sayılmaması gereken tıklamaları ortaya çıkarabilir. Öte yandan, hiçbir zaman açıklayamayacağınız aykırı değerler olabilir. Bu nedenle, bu işleme ne kadar zaman ayırdığınız konusunda dikkatli olmanız gerekir.

Gürültü göz önünde bulundurulsun

Rastgelelik var ve bizi kandırıyor. Bazıları "Google'ın elimizde çok fazla veri var, gürültü yok oluyor" diyor. Bu doğru değil. Ürettiğiniz her verinin veya sayı özetinin, bu tahmine duyulan güvene dair bir fikri de olmalıdır (güven aralıkları ve p değerleri gibi ölçümler aracılığıyla).

Örnekleri inceleyin

Yeni analiz kodu oluşturduğunuzda her zaman temeldeki örneklere bakmanız ve kodunuzun bu örnekleri nasıl yorumladığına bakmanız gerekir. Bu adımı gerçekleştirmeden herhangi bir karmaşıklıkta işe yarayan bir kod üretmek neredeyse imkansızdır. Analiziniz, temel verilerden birçok ayrıntıyı soyutluyor ve yararlı özetler oluşturuyor. Örneklerin tam karmaşıklığına bakarak, özetlemenizin makul olduğuna güvenebilirsiniz.

Bu örnekleri nasıl örneklediğiniz önemlidir:

  • Temel verileri sınıflandırıyorsanız her bir sınıfa ait örnekleri inceleyin.
  • Daha büyük bir sınıfsa daha fazla örneğe göz atın.
  • Bir sayı (örneğin, sayfa yüklenme süresi) hesaplıyorsanız, ölçümler arasındaki noktaların yanı sıra aşırı sayıda örneğin (belki en hızlı% 5'lik ve dağılımınızın nasıl olduğunu biliyorsunuzdur) incelediğinizden emin olun.

Verilerinizi bölme

Dilimleme, verilerinizi alt gruplara bölmek ve her bir alt grubun metrik değerlerine ayrı ayrı bakmaktır. Genellikle tarayıcı, yerel ayar, alan, cihaz türü gibi boyutlara göre parçalara ayrılırız. Temeldeki fenomen büyük olasılıkla alt gruplarda farklı çalışacaksa bunun gerçekten olup olmadığını onaylamak için verileri dilimlere ayırmalısınız. Dilimlemenin farklı sonuçlar yaratmasını beklemiyor olsanız bile, dahili tutarlılık için birkaç dilime bakmak doğru şeyi ölçtüğünüzden emin olmanızı sağlar. Bazı durumlarda belirli bir dilim hatalı veriler veya bozuk kullanıcı etkileşimi ya da bir şekilde çok farklı olabilir.

Verileri iki grubu karşılaştırmak için incelediğinizde (örneğin, deneme ve kontrol, hatta "A zamanı" ile "B zamanı" gibi) karışıklıklara dikkat etmeniz gerekir. Karışık değişim, her bir gruptaki dilimlerdeki veri miktarı farklı olduğunda gerçekleşir. Simpson paradoksu nedeniyle başka kafa karışıklıkları meydana gelebilir. Genel olarak, bir dilimdeki göreli veri miktarı iki grubunuz arasında aynıysa güvenli bir karşılaştırma yapabilirsiniz.

Pratik önemi değerlendirin

Yüksek hacimli veriler söz konusu olduğunda, yalnızca istatistiksel açıdan önemli olana odaklanmak veya her veri bitinin ayrıntılarına odaklanmak cazip gelebilir. Ancak kendinize şunu sormanız gerekir: "X değerinin Y değerinden% 0,1 fazla olduğu doğru olsa bile, önemli midir?" Bu, özellikle verilerinizin bir kısmını anlayamıyor veya kategorilere ayıramıyorsanız önemlidir. Günlüklerinizdeki bazı kullanıcı aracısı dizelerini anlamlandıramıyorsanız verilerin% 0, 1 veya% 10'u temsil etmesi bu durumları ne kadar araştırmanız gerektiği konusunda büyük bir fark yaratır.

Alternatif olarak, bazen az miktarda veriniz olabilir. Birçok değişiklik istatistiksel açıdan anlamlı olmaz ancak bu değişikliklerin"yönlendirmesiz"olduğunu iddia etmekten farklıdır. Kendinize şunu sormanız gerekir: "Hâlâ makinesel açıdan anlamlı bir değişiklik olma olasılığı nedir?"

Zaman içinde tutarlılığı kontrol etme

Sistemlerimiz zaman içinde geliştikçe temel verilerde çeşitli aksaklıklar oluştuğundan, neredeyse her zaman verileri zaman dilimlerine göre ayırmayı denemelisiniz. (Genellikle günleri kullanırız, ancak diğer zaman birimleri de yararlı olabilir.) Bir özelliğin veya yeni veri toplamanın ilk kullanıma sunulması sırasında, uygulayıcılar her şeyin beklendiği gibi çalışıp çalışmadığını genellikle dikkatlice kontrol eder. Bununla birlikte, zaman içinde birçok kesinti veya beklenmedik davranış ortaya çıkabilir.

Belirli bir günün veya gün grubunun aykırı değer olması, ilgili verileri silmeniz gerektiği anlamına gelmez. Verileri çıkarmadan önce günün veya günlerin farklı olmasının nedensel bir nedenini belirlemek için kanca olarak verileri kullanın.

Günlük verileri incelemek, verilerde oluşan ve nihayetinde güven aralıklarına veya istatistiksel açıdan önemli iddialara yol açabilecek değişkenlik hakkında da bilgi verir. Bu, genellikle titiz güven aralığı hesaplamasının yerini almamalıdır, ancak büyük değişikliklerle, yalnızca günlük grafiklerden istatistiksel olarak önemli olduklarını görebilirsiniz.

Filtrelemenizi onaylayın ve sayın

Hemen hemen her büyük veri analizi, verilerin çeşitli aşamalarda filtrelenmesiyle başlar. Yalnızca ABD'deki kullanıcıları, web aramalarını veya reklam içeren aramaları değerlendirebilirsiniz. Durum ne olursa olsun şunları yapmanız gerekir:

  • Hangi filtrelemeyi yaptığınızı onaylayın ve net bir şekilde belirtin.
  • Her adımda filtrelenen veri miktarını sayın.

İkinci yöntemde genellikle, hariç tuttuğunuz nüfus için bile tüm metriklerinizi hesaplamak iyi bir yöntemdir. Ardından, bu verilere bakıp "Spam filtrelemenin ne kadarlık bir kısmı kaldırıldı?" gibi soruları cevaplayabilirsiniz. (Filtreleme nedeninize bağlı olarak, bu tür analizler her zaman mümkün olmayabilir.)

Oran, net payda ve paydalar içermelidir

En ilginç metrikler, temel önlemlerin oranlarıdır. Çoğu zaman, ilgi çekici filtreleme veya diğer veri seçimleri, payda ve paydanın net tanımlarında gizlenir. Örneğin, "Sorgular / Kullanıcı" aslında aşağıdakilerden hangisini ifade eder?

  • Sorgular / Sorgu İçeren Kullanıcılar
  • Sorgular / Bugün Google'ı ziyaret eden kullanıcılar
  • Sorgular / Etkin bir hesaba sahip kullanıcılar (evet, aktif tanımlamam gerekir)

Burada gerçekten açık olmak, kendinizin ve başkalarının kafasını karıştırmamalıdır.

Diğer bir özel durum, verilerinizin yalnızca bir kısmı üzerinde hesaplanabilen metriklerdir. Örneğin, "Tıklama Süresi", genellikle bir tıklama bulunması koşuluyla "Tıklama Süresi" anlamına gelir. Buna benzer bir metriği incelediğinizde, söz konusu filtrelemeyi kabul etmeniz ve karşılaştırdığınız gruplar arasında filtrelemede bir değişiklik olup olmadığına bakmanız gerekir.

İşleme

Bu bölümde verilerinize nasıl erişileceği, verilerinizle ilgili hangi soruların sorulacağı ve kontrol edilmesi gereken konularda öneriler yer alır.

Ayrı Doğrulama, Açıklama ve Değerlendirme

Veri analizini birbiriyle ilişkili üç aşama olarak görüyorum:

  1. Doğrulama1: Verilerin tutarlı olduğunu, doğru şekilde toplandığını ve ne yaptığını düşündüğünü düşünüyor muyum?
  2. Açıklama: Bu verilerin tarafsız yorumu nedir? Örneğin, "Kullanıcılar X olarak sınıflandırılmış daha az sorgu oluşturur", "Deneme grubunda, X ile Y arasındaki süre% 1 daha fazladır" ve "Daha az kullanıcı sonraki sonuç sayfasına gider"
  3. Değerlendirme: Açıklama bize göre verilerin kullanıcı, Google veya dünya için iyi bir şey olduğunu mu gösteriyor?

Bu aşamaları ayırarak diğer kullanıcılarla daha kolay sözleşme yapabilirsiniz. Açıklama, veriler üzerinde herkesin anlaşabileceği unsurlar olmalıdır. Değerlendirme çok daha fazla tartışmaya neden olabilir. Açıklama ve Değerlendirmeyi birbirinden ayırmazsanız yalnızca görmeyi umduğunuz verilerin yorumlanmasını görme ihtimaliniz artar. Dahası, değerlendirme genellikle daha zor olur. Çünkü bir metriğin standart değerini belirlemek, genellikle diğer özellik ve metriklerle titiz karşılaştırmalar yaparak büyük bir yatırım gerektirir.

Bu aşamalar doğrusal olarak ilerlemez. Verileri keşfederken aşamalar arasında geçiş yapabilirsiniz ancak hangi aşamada olduğunuzu net bir şekilde bilmelisiniz.

Deneme ve veri toplama ayarlarını onaylama

Herhangi bir veriyi incelemeden önce, verilerin toplandığı bağlamı anladığınızdan emin olun. Veriler denemeden geliyorsa denemenin yapılandırmasına bakın. Verilerin kaynağı yeni müşteri araçları ise verilerin nasıl toplandığını en azından anladığınızdan emin olun. Olağan dışı/kötü yapılandırmaları veya nüfus kısıtlamalarını (ör. yalnızca Chrome için geçerli veriler) fark edebilirsiniz. Buradaki önemli noktalar, teorileri daha sonra oluşturup doğrulamanıza yardımcı olabilir. Göz önünde bulundurulması gereken bazı noktalar:

  • Deneme çalışıyorsa kendiniz deneyin. Yapabiliyorsanız en azından ekran görüntülerine/davranış açıklamalarına bakın.
  • Denemenin çalıştırıldığı zaman aralığında olağan dışı bir durum olup olmadığını kontrol edin (tatiller, büyük lansmanlar vb.).
  • Hangi kullanıcı popülasyonlarının denemeye tabi olduğunu belirleyin.

Nelerin değişmemesi gerektiğini kontrol edin

"Doğrulama" aşaması kapsamında, ilgilendiğiniz soruyu cevaplamadan önce (örneğin, "Bir yüz resmi eklendi mi, tıklama sayısı arttı mı, yoksa azaldı mı?") önce, verilerde denemeyi etkileyebilecek diğer değişiklikleri devre dışı bırakın. Örneğin:

  • Kullanıcı sayısı değişti mi?
  • Tüm alt gruplarımda, etkilenen sorgu sayısı doğru muydu?
  • Hata oranları değişti mi?

Bu sorular hem deneme/kontrol karşılaştırmaları için hem de zaman içindeki trendleri incelerken anlamlıdır.

Standart birinci, özel ikinci

Yeni özelliklere ve yeni verilere bakarken, özellikle de bu yeni özellikle ilgili yeni veya özel metriklere hemen geçmek istersiniz. Ancak bunların değişmesini bekliyor olsanız bile her zaman önce standart metriklere bakmanız gerekir. Örneğin, sayfaya yeni bir evrensel blok eklerken, bu yeni sonuçla ilgili özel metrikleri ayrıntılı olarak incelemeden önce "web sonuçlarına yapılan tıklamalar" gibi standart metrikler üzerindeki etkisini anladığınızdan emin olun.

Standart metrikler, özel metriklere kıyasla çok daha iyi doğrulanmış ve doğru olma olasılığı daha yüksektir. Özel metrikleriniz standart metrikleriniz için anlamlı değilse özel metrikleriniz muhtemelen yanlıştır.

İki veya daha fazla ölçüm yapın

Özellikle yeni bir olguyu yakalamaya çalışıyorsanız aynı temel şeyi başka yöntemlerle ölçmeye çalışın. Ardından, bu birden fazla ölçümün tutarlı olup olmadığını belirleyin. Birden çok ölçüm kullanarak ölçüm veya günlük kaydı kodlarındaki hataları, temel verilerin beklenmedik özelliklerini veya önemli filtreleme adımlarını tanımlayabilirsiniz. Ölçümler için farklı veri kaynakları kullanmanız daha iyi olur.

Yeniden üretilebilirliği kontrol etme

Hem dilimleme hem de zaman içindeki tutarlılık, tekrarlanabilirliği kontrol etmenin belirli örnekleridir. Bir olgu önemli ve anlamlıysa bunu farklı kullanıcı popülasyonları ve süre içinde görmeniz gerekir. Ancak kopyalanabilirliği doğrulamak, bu iki kontrolü gerçekleştirmekten daha fazlasını ifade eder. Veri modelleri oluşturuyorsanız bu modellerin, altındaki verilerde bulunan küçük karmaşalarda kararlı olmasını istersiniz. Verilerinizin farklı zaman aralıklarını veya rastgele alt örneklerini kullanmak, bu modelin ne kadar güvenilir/yeniden oluşturulabildiğini de gösterir.

Bir model tekrarlanabilir değilse muhtemelen verileri oluşturan temel süreç hakkında temel bir bilgi yakalayamazsınız.

Geçmiş ölçümlerle tutarlılık kontrolü

Çoğu zaman, geçmişte sayılanlara benzer bir metrik hesaplarsınız. Metriklerinizi, geçmişte bildirilen metriklerle karşılaştırmanız gerekir. Bunun için bu ölçümler farklı kullanıcı popülasyonlarında olsa bile yapılır.

Örneğin, özel bir popülasyondaki sorgu trafiğine bakıyorsanız ve ortalama sayfa yükleme süresinin 5 saniye olduğunu ölçerseniz ancak tüm kullanıcıların geçmiş analizleri ortalama 2 saniyelik sayfa yükleme süresi sağladıysa bu durumu araştırmanız gerekir. Numaranız bu nüfus için doğru olabilir, ancak şimdi bunu doğrulamak için daha fazla işlem yapmanız gerekiyor.

Kesin bir anlaşma yapmanız gerekmez ancak aynı beyzbol sahasında olmanız gerekir. Doğru değilseniz kendinizi tam olarak ikna edene kadar yanlış olduğunuzu varsayın. Şaşırtıcı yeni bir analiz değil, çoğu şaşırtıcı veri bir hata olacaktır.

Yeni metrikler önce eski verilere/özelliklere uygulanmalıdır

Yeni metrikler oluşturursanız (muhtemelen yeni bir veri kaynağı toplayarak) ve yeni bir şeyler öğrenmeye çalışırsanız yeni metriğinizin doğru olup olmadığını bilemezsiniz. Yeni metriklerle ilgili olarak, bilinen bir özelliğe veya verilere uygulanmaları gerekir. Örneğin, kullanıcı memnuniyeti için yeni bir metriğiniz varsa en iyi özelliklerinizi sağladığınızdan emin olmanız gerekir. Kullanıcıların dikkatini sayfanın odağına yönlendirdiği yeni bir metriğiniz varsa, göz izleme veya değerlendirici çalışmalarına bakarak resimlerin sayfa dikkatini nasıl etkilediğine dair bulduğumuz bilgilerle eşleştiğinden emin olun. Bu işlem, siz yeni bir şeyler öğrenmek için gittiğinizde doğrulama sağlar.

Hipotezler geliştirin ve kanıtları arayın

Karmaşık bir sorun için veri analizi genellikle tekrarlıdır.2 Verilerin anormalliklerini, trendleri veya diğer özelliklerini keşfedersiniz. Doğal olarak, bu verileri açıklayan teoriler geliştireceksiniz. Bir teoriyi geliştirip gerçek olduğunu söylemeyin. Bu teoriyi doğrulamak veya reddetmek için kanıtlara (verilerin içinde veya dışında) bakın. Örneğin:

  • Bir öğrenme trendi gibi görünen bir şey görürseniz bu trendin yüksek sıklıklı kullanıcılarda en etkili olup olmadığını kontrol edin.
  • Anormalliğin bazı özelliklerin kullanıma sunulmasından kaynaklandığını düşünüyorsanız özelliğin kullanıma sunulduğu popülasyonun anormallikten etkilenen tek kişi olduğundan emin olun. Alternatif olarak, değişikliğin büyüklüğünün lansmanın beklentileriyle tutarlı olduğundan emin olun.
  • Bir yerel ayarda kullanıcıların artış oranlarının değiştiğini görürseniz kullanıcı doldurma oranının değişiklik oranını doğrulayan bir harici kaynak bulmaya çalışın.

İyi veri analizinin anlatacağı bir hikaye vardır. Bunun doğru hikaye olduğundan emin olmak için hikayeyi kendinize anlatmanız ve ardından bunun yanlış olduğuna dair kanıt bulmanız gerekir. Bunu yapmanın bir yolu kendinize "Anlattığım hikayeyi doğrulayacak/geçersiz kılacak hangi denemeleri çalıştırırdım?" diye sormaktır. Bu denemeleri yapmasanız veya yapamasanız bile, elinizdeki verilerle nasıl doğrulama yapacağınıza dair fikir verebilir.

Neyse ki bu teoriler ve olası denemeler, belirli bir özellik veya veri hakkında bilgi edinmeye denk gelen yeni soru satırları oluşturabilir. Daha sonra yalnızca bu verileri anlamakla kalmayıp her tür analiz için yeni metrikler ve teknikler edinirsiniz.

Uçtan uca tekrarlamanın keşif analizi avantajları

Keşif analizi yaparken, analizin mümkün olduğunca fazlasını tekrar edin. Genellikle sinyal toplama, işleme, modelleme vb. birden fazla adımınız olur. İlk sinyallerinizin ilk aşamasını mükemmel bir şekilde tamamlayacak kadar çok vakit harcarsanız aynı sürede daha fazla tekrarlama yapma fırsatını kaçırmış olursunuz. Ayrıca, sonunda verilerinize bakarken yönünüzü değiştiren keşifler yapabilirsiniz. Bu nedenle, başlangıçtaki odağınız mükemmellik değil, tamamıyla makul bir şey elde etmek olmalıdır. Notlarınızı kendinize bırakın ve filtreleme adımları ve ayrıştırılamayan veya alışılmadık istekler gibi şeylere izin verin. Ancak, keşif analizinin başında tüm bunlardan kurtulmak için zaman harcamayın.

Geri bildirime dikkat edin

Genellikle kullanıcı başarısıyla ilgili çeşitli metrikler tanımlarız. Örneğin, kullanıcılar bir sonucu tıkladı mı? Bu verileri tekrar sisteme beslerseniz (bu işlemi aslında birçok yerde yaparız), aksi takdirde değerlendirme karmaşası için birçok fırsat oluşturursunuz.

Değişikliğinizi değerlendirmek için temel olarak sisteminize aktarılan metriği kullanamazsınız. Daha fazla tıklama alırsanız daha fazla reklam gösterirseniz, daha mutlu olduğunuzu belirlemenin temeli olarak "daha fazla tıklama"yı kullanamazsınız. Bununla birlikte, "daha fazla tıklama" genellikle "mutlu" anlamına gelir. Bununla birlikte, beslediğiniz ve çıkardığınız değişkenleri parçalara ayırmamalısınız. Aksi takdirde, karışıklıkların değişmesi veya anlaşılması zor olacaktır.

Düşünce yapısı

Bu bölümde, diğer kullanıcılarla birlikte nasıl çalışacağınız ve analizleri nasıl iletebileceğiniz açıklanmaktadır.

Veri analizi bir veri veya teknikle değil sorularla başlar

Her zaman verilerin analizi için bir motivasyon vardır. İhtiyaçlarınızı soru veya hipotez olarak formüle etmek, toplamanız gereken verileri toplamanızı ve verilerdeki olası boşlukları düşünmenizi sağlar. Sorduğunuz sorular elbette verilere baktığınızda gelişmelidir. Ancak soru sorulmadan yapılan analizler gereksiz hale gelir.

Sıkı bir teknik bulma ve ardından bu tekniğin üzerinde çalıştığı bölümleri bulma sorunundan kaçının. Tekrar belirtmek gerekirse, bu tuzaklardan kaçınmanıza yardımcı olacaktır.

Hem şüpheci hem de şampiyon olun

Verilerle çalışırken hem elde ettiğiniz analizlerin şampiyonu hem de bu tahminlere şüpheyle yaklaşmanız gerekir. Baktığınız verilerde ilginç fenomenler bulacağınızı umuyoruz. İlginç bir fenomen tespit ettiğinizde kendinize şu soruları sorun:

  • Bunun ne kadar mükemmel olduğunu göstermek için başka hangi verileri toplayabilirim?
  • Bunu geçersiz kılacak ne buldum?"

Özellikle, belirli bir yanıt isteyen birisi için analiz yapıyorsanız (örneğin, "Özelliğim muhteşem!",) hata yapmamak için şüpheyle oynamanız gerekir.

Bağıntı != Neden

Verilerle ilgili teoriler geliştirirken genellikle "X"in Y'ye neden olduğunu iddia etmek isteriz. Örneğin, sayfanın yavaşladığı kullanıcılar daha az tıklama gerçekleştirmiştir." xkcd'yi bile bilirseniz korelasyondan dolayı sadece nedensellik bağdaştıramazsınız. Bir neden teorisini nasıl doğrulayacağınızı düşünerek, genellikle bir neden teorisinin ne kadar güvenilir olduğuna dair iyi bir fikir edinebilirsiniz.

Bazen, A ile B arasında nedensel bir ilişki olmasa bile bir bağıntıyı anlamlı olarak tutmaya çalışır. Böylece, bir sinyalin diğeri için iyi bir gösterge veya proxy olması için tesadüfi bir şeylerin olması gerektiğini iddia eder. Bu alan, birden fazla hipotez testi sorunu için tehlikelidir; xkcd'nin de bildiği gibi, yeterli deneme ve yeterli boyut dikkate alındığında, bazı sinyallerin belirli bir denemeyle uyumlu olmasını sağlayabilirsiniz. Bu, aynı sinyallerin gelecekte uyumlu olacağı anlamına gelmez. Bu yüzden, "A ve B'ye neden olan gizli bir C etkisi vardır" gibi nedensel bir teoriyi göz önünde bulundurma yükümlülüğünüz vardır. Böylece bunun ne kadar makul olduğunu doğrulayabilirsiniz.

Veri analisti, verileri kullanmak isteyen kişiler için genellikle bu nedensel sorularda yol açmalıdır. Bu tüketicilere, nedensellik hakkında

Önce benzerlerle, ardından harici tüketicilerle paylaşın

Önceki noktalarda, doğru ses kontrolü ve doğrulama işlemlerini kendinize gerçekleştirmeniz için bazı yöntemler öneriliyordu. Ancak kendinizi bir arkadaşınızla paylaşmak, tüm bunları yapmaya zorlanmanın en iyi yollarından biridir. Yetenekli bir meslektaş, özellikle tüketicilerin gündemi yaygın olduğundan, veri kullanan tüketicilerden farklı niteliklerde geri bildirim sağlayabilir. Benzerler, analiz aracılığıyla birden fazla noktada faydalıdır. İlk etapta iş arkadaşlarınızın bildiği bilgiler, ölçülecek şeyler için öneriler ve bu alandaki geçmiş araştırmalar hakkında bilgi edinebilirsiniz. Sona yaklaşıldığında benzerler, gariplikleri, tutarsızlıkları veya diğer karışıklıkları öne çıkarma konusunda çok başarılıdır.

İdeal olarak, görüntülediğiniz verilerle ilgili bilgi sahibi olan bir iş arkadaşınızdan geri bildirim almanız gerekir ancak yalnızca genel veri analizi deneyimine sahip bir şahsen bile son derece değerlidir.

Yoksunluk ve hataları kabul edip kabul edin

Verilerden öğrenebileceğimiz birçok şey vardır. Nate Silver, Sinyal ve Gürültü'de sadece kesinliğimizin sınırlarını kabul ederek daha iyi tahminlerde bulunabileceğimiz güçlü bir örnek oluşturur. Bilgisizliği kabul etmek, genellikle hemen ödüllendirilmeyen bir güçtür. O an için kendini kötü hissetseniz de, uzun vadede size ve ekibinize büyük fayda sağlıyor. Bir hata yapıp daha sonra (hatta geç saatte) keşfettiğinizde daha da kötü bir durum yaşanıyor; ancak sorunlarınızı önceden proaktif bir şekilde ele almak size saygı kazandırır. Bu saygı, itibar ve etki anlamına gelir.

Düşünceleri kapatma

İyi veri analizi yapmaya yönelik çalışmaların çoğu, analizinizin tüketicilerinde hemen fark edilmez. Nüfus boyutlarını dikkatli bir şekilde kontrol etmeniz ve etkinin tarayıcılar arasında tutarlı olduğunu doğrulamanız, muhtemelen bu verilerden kararlar almaya çalışan kullanıcıların farkındalığına ulaşmayacaktır. Bu veriler ayrıca, iyi veri analizinin çoğu kişi için neden olması gerekenden daha uzun sürdüğünü (özellikle yalnızca son çıkışı gördüklerinde) açıklar. Analist olarak işimizin bir parçası da tüketicileri, bu adımların neler olduğu ve neden önemli oldukları konusunda veri tabanlı analizleri kademeli olarak eğitmektir.

Tüm bu manipülasyonlara ve verilerinizin keşfedilmesine ihtiyaç duyulması, iyi bir veri analizi dili ve ortamıyla ilgili koşulları da ortaya çıkarır. Verileri incelemek için kullanabileceğimiz birçok araç var. Farklı araçlar ve diller, yukarıda bahsedilen çeşitli tekniklere daha uygundur. Doğru aracı seçmek bir analist için önemli bir beceridir. En rahat olduğunuz aracın kapasitesiyle sınırlı kalmamalısınız. Göreviniz, belirli bir aracı uygulamak yerine gerçek içgörü sağlamaktır.

 


  1. Buna bazen "ilk veri analizi" denir. Veri analiziyle ilgili wikipedia makalesine bakın

  2. Teknik olarak, açıklayıcı analiz değil, yalnızca keşif analizi yaptığınızda tekrarlamanız gerekir.