İyi Veri Analizi

Yazar: Patrick Riley

Özel teşekkürler: Diane Tang, Rehan Khan, Elizabeth Tucker, Amir Najmi, Hilary Hutchinson, Joel Darnauer, Dale Neal, Aner Ben-Artzi, Sanders Kleinfeld, David Westbrook ve Barry Rosenberg.

İzledikleriniz

Genel bakış

Bir veri yığınından doğruları ve içgörüleri türetmek, güçlü ancak hataya yatkın bir iştir. En iyi veri analistleri ve veri odaklı mühendisler, verilerden güvenilir telaffuz ettikleriyle ün kazanır. Peki ama güvenilir olmasını sağlayan neler yapıyorlar? Sık sık dikkatli ve metodolojik gibi sıfatlar duyuyorum, ama en dikkatli ve yöntemli analistler aslında ne yapıyor?

Özellikle Google'da düzenli olarak topladığımız veri türü göz önüne alındığında, bu önemsiz bir soru değildir. Genellikle çok büyük veri kümeleriyle çalışmakla kalmıyor, bu veri kümeleri de son derece zengindir. Yani, her veri satırında genellikle çok ama çok sayıda özellik vardır. Bunu belirli bir kullanıcı için etkinliklerin geçici sıralarıyla birleştirdiğinizde, verilere bakmanın çok sayıda yolu olur. Bunu, araştırmacının her bir veri noktasına bakmasının çok basit olduğu tipik bir akademik psikoloji deneyiyle karşılaştırın. Büyük, yüksek boyutlu veri kümelerimizin ortaya çıkardığı sorunlar, bilimsel çalışma tarihinin büyük bölümünde karşılaşılanlardan çok farklıdır.

Bu belge, dikkatli ve yöntemli analistlerin büyük, yüksek boyutlu veri kümelerinde kullandığı fikir ve teknikleri özetlemektedir. Bu belge günlüklerden ve deneysel analizlerden elde edilen verilere odaklansa da bu tekniklerin birçoğu daha yaygın şekilde uygulanabilir.

Belgenin geri kalanında, veri analizinin farklı yönlerini kapsayan üç bölümden oluşur:

  • Teknik: Verilerinizi işleme ve incelemeyle ilgili fikirler ve teknikler.
  • Süreç: Verilerinize yaklaşımınız, sorulacak sorular ve kontrol edilmesi gerekenler hakkında öneriler.
  • Düşünce yapısı: Başkalarıyla birlikte çalışma ve analizleri paylaşma.

Teknik

Verilerinizi incelemek için bazı tekniklere göz atalım.

Dağılımlarınıza bakın

Çoğu uygulayıcı, dağılımlar hakkında bilgi vermek için özet metrikleri (örneğin, ortalama, ortanca değer, standart sapma vb.) kullanır. Ancak genellikle histogramlar, kümülatif dağılım fonksiyonları (CDF), Quantile-Quantile (Q-Q) grafikleri vb. oluşturarak çok daha zengin dağılım temsillerini incelemeniz gerekir. Bu daha zengin gösterimler, verilerin çok modlu davranış veya önemli bir aykırı değer sınıfı gibi önemli özelliklerini tespit etmenizi sağlar.

Dikkat çeken içerikleri düşünün

Kömür madenindeki kanaryalar olabileceğinden, analizinizle ilgili daha temel sorunlara işaret edebilecekleri aykırı değerleri dikkatle inceleyin. Aykırı değerleri verilerinizden hariç tutmak veya "olağan dışı" bir kategoride toplamakta sorun yoktur. Ancak verilerin neden bu kategoriye girdiğini bildiğinizden emin olmalısınız.

Örneğin, en düşük tıklama sayısına sahip sorgulara bakmak, sayamadığınız öğelerin tıklamalarını ortaya çıkarabilir. En fazla tıklama sayısına sahip sorgulara baktığınızda, saymamanız gereken tıklamalar ortaya çıkabilir. Diğer yandan, hiçbir zaman açıklayamayacağınız bazı aykırılıklar olabilir. Bu nedenle, bu göreve ne kadar zaman ayırdığınıza dikkat etmeniz gerekir.

Gürültüyü düşünün

Rastgele şeyler var ve bizi kandıracak. Kimileri de "Google'da çok fazla veri var, ortalık giderdi." diye düşünür. Bu doğru değildir. Ürettiğiniz her veri sayısı veya özeti, bu tahmine duyduğunuz güvene dair bilgi içermelidir (güven aralıkları ve p-values gibi ölçümlerle).

Örneklere bakın

Yeni analiz kodu oluşturduğunuzda temel verilerden örneklere ve kodunuzun bu örnekleri nasıl yorumladığına bakmanız gerekir. Bu adımı gerçekleştirmeden herhangi bir karmaşıklıkta çalışan kod üretmek neredeyse imkansızdır. Analiziniz yararlı özetler üretebilmek için temel verilerden birçok ayrıntıyı soyutlar. Tek tek örneklerin tam karmaşıklığına bakarak, özetlemenizin makul olduğundan emin olabilirsiniz.

Bu örnekleri nasıl kullandığınız önemlidir:

  • Temel verileri sınıflandırıyorsanız her bir sınıfa ait örneklere bakın.
  • Daha büyük bir sınıfsa daha fazla örneğe bakın.
  • Bir sayı (örneğin, sayfa yükleme süresi) hesaplıyorsanız aşırı örneklere (belki en hızlı ve en yavaş% 5; dağılımınızın nasıl göründüğünü biliyorsunuzdur, değil mi?) ve ölçüm alanındaki noktalara baktığınızdan emin olun.

Verilerinizi bölümlere ayırma

Dilimleme, verilerinizi alt gruplara ayırmak ve her bir alt grubun metrik değerlerine ayrı ayrı bakmak anlamına gelir. Genellikle tarayıcı, yerel ayar, alan adı, cihaz türü gibi boyutları dilimlere ayırırız. Altta yatan olgu, alt gruplarda farklı şekilde çalışacaksa bunun gerçekten doğru olup olmadığını doğrulamak için verileri dilimlere ayırmanız gerekir. Dilimlemenin farklı sonuçlar üretmesini beklemeseniz bile, dahili tutarlılık için birkaç dilime bakmak doğru şeyi ölçtüğünüze dair size daha fazla güven verir. Bazı durumlarda, belirli bir dilim bozuk verilere, bozuk bir kullanıcı etkileşimine sahip olabilir veya bir şekilde temelden farklı olabilir.

İki grubu karşılaştırmak için verileri her kesitinizde (örneğin, deneme - kontrol grubu veya "A zamanı" ile "B zamanı" gibi) karma kaymalarının farkında olmanız gerekir. Karışık kayma, her bir grup için dilimlerdeki veri miktarının farklı olduğu durumdur. Simpson paradoksu ve başka karışıklıklar yaşanabilir. Genel olarak, bir dilimdeki verilerin göreli miktarı iki grubunuzda aynıysa güvenli bir karşılaştırma yapabilirsiniz.

Pratik önemi göz önünde bulundurun

Büyük hacimli veriler söz konusu olduğunda, yalnızca istatistiksel anlamlılığa odaklanmak veya her bir veri bitinin ayrıntılarına odaklanmak cazip gelebilir. Ancak kendinize şunu sormanız gerekir: "X değerinin Y değerinden% 0,1 fazla olduğu doğru olsa bile, önemli midir?" Bu, özellikle verilerinizin bir bölümünü anlaşamıyorsanız/kategoriye ayıramıyorsanız önemli olabilir. Günlüklerinizde bazı kullanıcı aracısı dizelerini anlayamıyorsanız verilerin% 0, 1'ini veya% 10'unu temsil ediyor olması fark etmeksizin bu durumları ne kadar araştırmanız gerektiği konusunda büyük bir fark yaratır.

Alternatif olarak, bazen az miktarda veriniz olabilir. Çoğu değişiklik istatistiksel olarak önemli görünmese de bu, bu değişikliklerin "nötr" olduğunu iddia etmekten farklıdır. Kendinize, "Hâlâ pratik açıdan anlamlı bir değişiklik olma olasılığı ne kadar?"

Zaman içinde tutarlılığı kontrol edin

Neredeyse her zaman verileri zaman birimlerine göre bölmeyi denemelisiniz. Çünkü sistemlerimiz zaman içinde geliştikçe temel verilerde birçok kesinti yaşanır. (Genellikle gün sayısını kullanırız ancak diğer zaman birimleri de yararlı olabilir.) Uzmanlar, bir özelliğin ya da yeni veri toplamanın ilk lansmanı sırasında her şeyin beklendiği gibi çalışıp çalışmadığını genellikle dikkatli bir şekilde kontrol eder. Ancak zaman içinde birçok kesinti veya beklenmedik davranışlar ortaya çıkabilir.

Belirli bir günün veya gün grubunun aykırı olması, ilgili verileri silmeniz gerektiği anlamına gelmez. Silmeden önce söz konusu günün veya günlerin farklı olmasının nedensel nedenini belirlemek için verileri bir çengel olarak kullanın.

Günlük verilere bakmak, verilerde nihayetinde güven aralıklarına veya istatistiksel anlamlılık iddialarına yol açabilecek değişimler hakkında da fikir verir. Bu, genellikle titiz güven aralığı hesaplamasının yerine geçmez; ancak çoğu zaman, büyük değişikliklerle bunların yalnızca günden güne grafiklere bakıldığında istatistiksel olarak önemli olduğunu görebilirsiniz.

Filtrelemenizi onaylama ve sayma

Neredeyse her büyük veri analizi, verilerin çeşitli aşamalarda filtrelenmesiyle başlar. Yalnızca ABD'deki kullanıcıları, web aramalarını veya reklam içeren aramaları dikkate almak isteyebilirsiniz. Durum ne olursa olsun:

  • Hangi filtreleme yaptığınızı onaylayın ve açık bir şekilde belirtin.
  • Her adımda filtrelenen veri miktarını sayın.

İkincisini yapmanın en iyi yolu, hariç tuttuğunuz nüfus dahil olmak üzere tüm metriklerinizi hesaplamaktır. Ardından bu verilere bakarak "Spam filtrelemesi, sorguların yüzde kaçını kaldırdı?" (Filtreleme yapma nedeninize bağlı olarak bu tür bir analiz her zaman mümkün olmayabilir.)

Oranların payları ve paydaları net olmalıdır

En ilginç metrikler, temel ölçümlerin oranlarıdır. İlgi çekici filtreleme veya diğer veri seçenekleri çoğu zaman pay ve paydanın kesin tanımları arasında gizlidir. Örneğin, aşağıdakilerden hangisi "Sorgular / Kullanıcı" anlamına gelir?

  • Sorgular / Sorgu İçeren Kullanıcılar
  • Sorgu sayısı / Bugün Google'ı ziyaret eden kullanıcı sayısı
  • Sorgular / Etkin bir hesabı olan kullanıcılar (evet, etkin'i tanımlamam gerekirdi)

Burada çok açık olmanız hem kendinizin hem de başkalarının kafasının karışmasını önleyebilir.

Diğer bir özel durum da verilerinizin yalnızca bir kısmı üzerinde hesaplanabilen metriklerdir. Örneğin, "Tıklama Süresi" genellikle "Bir tıklama olduğu için Tıklama Süresi" anlamına gelir. Buna benzer bir metriğe bakarken, filtrelemenin yapıldığını onaylamanız ve karşılaştırdığınız gruplar arasında filtrelemede bir kayma olup olmadığına bakmanız gerekir.

İşleme

Bu bölümde, verilerinize nasıl yaklaşacağınıza, verilerinizle ilgili sorulacak sorulara ve kontrol edileceklere dair öneriler yer alır.

Doğrulama, açıklama ve değerlendirmeyi ayırma

Veri analizini birbiriyle bağlantılı üç aşama olarak düşünüyorum:

  1. Doğrulama1: Verilerin kendinden tutarlı olduğunu, doğru şekilde toplandığını ve düşündüğümü yansıttığını düşünüyor muyum?
  2. Açıklama: Bu verilerin objektif yorumu nedir? Örneğin, "Kullanıcılar X olarak sınıflandırılmış daha az sorgu yapar", "Deneme grubunda X ile Y arasındaki süre% 1 daha fazladır" ve "Daha az kullanıcı sonuç sayfasına gider".
  3. Değerlendirme: Açıklamaya göre veriler kullanıcı, Google ya da dünya için iyi bir şeyler olduğunu söylüyor mu?

Bu aşamaları ayırarak diğerleriyle daha kolay bir şekilde anlaşmaya varabilirsiniz. Açıklama, veriler için herkesin hemfikir olabileceği şeyler olmalıdır. Değerlendirme büyük olasılıkla çok daha fazla tartışmayı tetikleyebilir. Açıklama ve Değerlendirmeyi ayırmazsanız yalnızca görmek umduğunuz verilerin yorumlanmasını görme olasılığınız çok daha yüksek olur. Ayrıca değerlendirme yapmak daha zor olabilir çünkü genellikle diğer özellik ve metriklerle yapılan titiz karşılaştırmalarla bir metriğin normatif değerini belirlemek büyük yatırım gerektirir.

Bu aşamalar doğrusal olarak ilerlemez. Verileri keşfederken aşamalar arasında gidip gelebilirsiniz, ancak her zaman hangi aşamada olduğunuzu net bir şekilde anlamanız gerekir.

Deneme ve veri toplama ayarlarını onaylayın

Herhangi bir veriye bakmadan önce, verilerin hangi bağlamda toplandığını anladığınızdan emin olun. Veriler bir denemeden geliyorsa denemenin yapılandırmasına bakın. Sorun yeni istemci araçlarından geliyorsa verilerin nasıl toplandığını en azından kabaca anladığınızdan emin olun. Olağan dışı/kötü yapılandırmalar veya nüfus kısıtlamaları (yalnızca Chrome için geçerli veriler gibi) tespit edebilirsiniz. Burada dikkate değer bir şey daha sonra teorileri oluşturup doğrulamanıza yardımcı olabilir. Göz önünde bulundurulması gereken bazı noktalar:

  • Deneme çalışıyorsa kendiniz deneyin. Yapamıyorsanız en azından ekran görüntülerine/davranış açıklamalarına bakın.
  • Denemenin çalıştırıldığı zaman aralığında olağan dışı bir durum olup olmadığını kontrol edin (tatiller, büyük lansmanlar vb.).
  • Hangi kullanıcı popülasyonlarının denemeye tabi tutulduğunu belirleme.

Nelerin değişmemesi gerektiğini kontrol edin

"Doğrulama" aşamasının bir parçası olarak, ilgilendiğiniz soruyu (örneğin, "Bir yüz resmi eklemek tıklamaları artırdı mı yoksa azalttı mı?") gerçekten yanıtlamadan önce, verilerde denemeyi etkileyebilecek diğer değişkenlikleri ortadan kaldırın. Örneğin:

  • Kullanıcı sayısı değişti mi?
  • Tüm alt gruplarımda etkilenen sorgu sayısı doğru mu?
  • Hata oranları değişti mi?

Bu sorular, hem deneme/kontrol karşılaştırmaları hem de zaman içindeki trendleri incelerken mantıklı olur.

Standart önce, özel ikinci

Yeni özellikleri ve verileri incelerken, özellikle bu yeni özellik için yeni veya özel olan metriklere girmek çok cazip gelebilir. Ancak değişmesini bekliyor olsanız bile, daima standart metriklere bakmanız gerekir. Örneğin, sayfaya yeni bir evrensel blok eklerken, bu yeni sonuçla ilgili özel metrikleri incelemeye başlamadan önce, söz konusu işlemin "web sonuçlarına yapılan tıklamalar" gibi standart metrikler üzerindeki etkisini anladığınızdan emin olun.

Standart metrikler, özel metriklerden çok daha iyi doğrulanır ve doğru olma olasılıkları daha yüksektir. Özel metrikleriniz standart metriklerinizle alakalı değilse özel metrikleriniz büyük olasılıkla yanlıştır.

İki veya daha fazla ölçüm yapın

Özellikle yeni bir fenomeni yakalamaya çalışıyorsanız altta yatan aynı şeyi birden çok şekilde ölçmeye çalışın. Ardından, bu birden çok ölçümün tutarlı olup olmadığını belirleyin. Birden fazla ölçüm kullanarak ölçüm veya günlük kaydı kodundaki hataları, temel verilerin beklenmeyen özelliklerini ya da önemli filtreleme adımlarını belirleyebilirsiniz. Ölçümler için farklı veri kaynakları kullanabiliyorsanız daha iyi olacaktır.

Yeniden oluşturulabilir olup olmadığını kontrol edin

Hem dilimleme hem de zaman içinde tutarlılık, yeniden oluşturulabilirliği denetlemeye örnek olarak verilebilir. Bir fenomen önemli ve anlamlıysa farklı kullanıcı popülasyonları ve zamanlarında görmeniz gerekir. Ancak, çoğaltılabilirliği doğrulamak bu iki kontrolü yapmaktan daha fazlası anlamına gelir. Verilerin modellerini oluşturuyorsanız bu modellerin temel verilerdeki küçük değişimlerde kararlı olmasını istersiniz. Farklı zaman aralıkları veya verilerinizin rastgele alt örneklerini kullanmak, bu modelin ne kadar güvenilir/yeniden oluşturulabilir olduğunu da gösterir.

Bir model yeniden oluşturulabilir değilse muhtemelen verileri oluşturan temel süreç hakkında temel bir bilgiye sahip değilsinizdir.

Geçmiş ölçümlerle tutarlılığı kontrol edin

Çoğu zaman geçmişte sayılanlara benzer bir metrik hesaplarsınız. Bu ölçümler farklı kullanıcı nüfuslarında olsa bile, metriklerinizi geçmişte raporlanan metriklerle karşılaştırmanız gerekir.

Örneğin, belirli bir popülasyondaki sorgu trafiğine bakıyorsanız ortalama sayfa yüklenme süresinin 5 saniye olduğunu ancak tüm kullanıcıların geçmiş analizlerinde ortalama sayfa yükleme süresinin 2 saniye olduğunu ölçerseniz araştırma yapmanız gerekir. Numaranız bu nüfus için doğru olabilir, ancak şimdi bu sayıyı doğrulamak için daha fazla çalışmanız gerekiyor.

Tam bir anlaşma sağlamanıza gerek yoktur ama aynı sahada olmalısınız. Değilseniz kendinizi tam olarak ikna edene kadar yanıldığınızı varsayın. En şaşırtıcı veriler, ortaya çok iyi bir yeni analiz çıkarılmadan hatalardan ibaret olmayacaktır.

Yeni metrikler öncelikle eski verilere/özelliklere uygulanmalıdır

Yeni metrikler oluşturur (muhtemelen yeni bir veri kaynağı toplayarak) ve yeni bilgiler öğrenmeye çalışırsanız yeni metriğinizin doğru olup olmadığını bilemezsiniz. Yeni metriklerle bunları önce bilinen bir özelliğe veya verilere uygulamanız gerekir. Örneğin, kullanıcı memnuniyeti için yeni bir metriğiniz varsa kullanıcı memnuniyetine yardımcı olacak en iyi özellikleri belirttiğinden emin olmalısınız. Kullanıcıların dikkatlerini sayfaya yönlendirdiği yerle ilgili yeni bir metriğiniz varsa bu metriğin, resimlerin sayfaya verilen ilgiyi nasıl etkilediğine dair göz izleme veya değerlendirici çalışmalarından bildiklerimizle eşleştiğinden emin olun. Bu sayede yeni bir şey öğrenmeye çalıştığınızda doğrulama yapmış olursunuz.

Hipotezler geliştirme ve kanıt arama

Karmaşık bir problem için veri analizi genellikle yinelemeli bir işlemdir.2 Verilerin anormalliklerini, trendlerini veya diğer özelliklerini keşfedersiniz. Doğal olarak bu verileri açıklamak için teoriler geliştireceksiniz. Bir teori geliştirip doğru olduğunu ilan etmekle yetinmeyin. Bu teoriyi onaylamak/reddetmek için kanıtları arayın (verilerin içinde veya dışında). Örneğin:

  • Öğrenme trendi gibi görünen bir durum görürseniz bu durumun, yüksek sıklık kullanıcılarda en güçlü şekilde kendini gösterip göstermediğine bakın.
  • Bir anormalliğin, bazı özelliklerin kullanıma sunulmasından kaynaklandığını düşünüyorsanız özelliğin kullanıma sunulduğu popülasyonun bu anormallikten etkilenen tek kitle olduğundan emin olun. Alternatif olarak, değişikliğin büyüklüğünün lansman beklentileriyle tutarlı olduğundan emin olun.
  • Bir yerel ayarda kullanıcı artış oranlarının değiştiğini görürseniz bu kullanıcı popülasyonu değişim oranını doğrulayan harici bir kaynak bulmaya çalışın.

İyi bir veri analizinin anlatacak bir hikayesi vardır. Doğru hikâyenin oluşturulduğundan emin olmak için hikayeyi kendinize anlatmalı ve ardından hikâyenin yanlış olduğuna dair kanıt aramalısınız. Bunu yapmanın bir yolu da kendinize şu soruyu sormaktır: “Anlattığım hikayeyi doğrulamak/geçersiz kılmak için hangi denemeleri çalıştırırım?” Bu denemeleri yapamıyor/yapamayacak olsanız bile, elinizdeki verilerle nasıl doğrulama yapacağınıza dair fikirler edinebilirsiniz.

Neyse ki bu teoriler ve olası denemeler, belirli bir özellik veya veri hakkında bilgi edinme çabasının ötesine geçen yeni sorgu biçimlerine yol açabilir. Ardından, sadece bu verileri değil, her türlü gelecek analiz için yeni metrikler ve teknikler türetmenin yanı sıra anlama alanına da giriyorsunuz.

Keşfedici analizin uçtan uca yinelemeden faydaları

Keşif analizi yaparken bütün analizin mümkün olduğunca çok sayıda yinelemesini gerçekleştirin. Genellikle sinyal toplama, işleme, modelleme gibi birden fazla adımınız olur. İlk sinyallerinizin ilk aşamasını mükemmel hale getirmek için çok uzun zaman harcarsanız aynı sürede daha fazla yineleme yapma fırsatını kaçırırsınız. Dahası, son olarak verilerinize baktığınızda yönünüzü değiştiren keşifler yapabilirsiniz. Bu nedenle, ilk hedefiniz mükemmellik değil, süreç boyunca makul bir şey elde etmek olmalıdır. Kendiniz için notlar bırakın ve filtreleme adımları ve ayrıştırılamayan ya da alışılmadık istekler gibi konuları kabul edin. Ancak keşif analizinin başında tüm bunları yok etmeye çalışarak zaman kaybetmeyin.

Geri bildirimlere dikkat edin

Genellikle kullanıcı başarısıyla ilgili çeşitli metrikler tanımlarız. Örneğin, kullanıcılar bir sonucu tıkladı mı? Daha sonra bu verileri sisteme geri aktarırsanız (bunu birkaç yerde yapıyoruz) değerlendirmede kafa karışıklığına yol açabilecek birçok fırsat yaratmış olursunuz.

Sisteminize geri aktarılan metriği, değişikliğinizi değerlendirmede temel olarak kullanamazsınız. Daha fazla tıklama alan daha fazla reklam gösterdiğinizde, "daha fazla tıklama" genellikle "daha fazla tıklama" anlamına gelse bile, "daha fazla tıklama"yı kullanıcıların daha mutlu olduğuna karar vermek için temel olarak kullanamazsınız. Bununla birlikte, geri besleyip manipüle ettiğiniz değişkenleri bölmemelisiniz.

Düşünce yapısı

Bu bölümde, başkalarıyla nasıl çalışacağınız ve analizleri nasıl paylaşacağınız açıklanmaktadır.

Veri analizi verilerle ya da teknikle değil, sorularla başlar

Verileri analiz etmek her zaman bir motivasyon kaynağıdır. İhtiyaçlarınızı sorular ya da hipotezler olarak ortaya koymak, toplamanız gereken verileri topladığınızdan ve verilerdeki olası boşlukları düşündüğünüzden emin olmanıza yardımcı olur. Sorduğunuz sorular da elbette verilere baktıkça değişmelidir. Ancak, soru olmadan yapılan analizler anlamsız kalır.

Sık kullanılan bir teknik bulma tuzağına düşmeyin ve sonra sorunların yalnızca bu tekniğin işe yaradığı kısımları bulun. Aynı şekilde net sorular oluşturmak da bu tuzaktan kaçınmanıza yardımcı olur.

Hem şüpheci hem de şampiyon olun

Verilerle çalışırken hem elde ettiğiniz analizlerin lideri hem de bu analizlere şüpheci olmanız gerekir. Baktığınız verilerde ilginç fenomenler bulacağınızı umuyoruz. İlginç bir olgu fark ettiğinizde kendinize aşağıdaki soruları sorun:

  • Bunun ne kadar mükemmel olduğunu göstermek için başka hangi verileri toplayabilirim?
  • Bunu geçersiz kılmak için ne bulabilirim?"

Özellikle, gerçekten belirli bir yanıtı almak isteyen biri için analiz yapıyorsanız (örneğin, "Benim özelliğim harika!" gibi), hata yapmamak için şüpheci yaklaşımınızı ortaya koymanız gerekir.

Bağıntı != Neden

Verilerle ilgili teoriler oluştururken genellikle "X'in Y'ye neden olduğunu" iddia etmek isteriz. Örneğin, "sayfa yavaşlıyorsa kullanıcıların daha az tıklamasına neden oluyor". xkcd bile korelasyon nedeniyle basitçe nedensellik oluşturamayacağınızı bilir. Bir nedensellik teorisini nasıl doğrulayacağınızı düşünerek, genellikle neden sonuç teorisinin ne kadar güvenilir olduğuna dair iyi bir fikir edinebilirsiniz.

Bazen insanlar, A ve B arasında nedensel ilişki olmasa bile, bir sinyalin diğeri için iyi bir gösterge veya proxy olması için bu tesadüfün altında bir şeyin olması gerektiğini iddia ederek anlamlı bir ilişkiyi sürdürmeye çalışır. Bu alan, birden fazla hipotez testi problemi için tehlikelidir. xkcd'nin de bildiği gibi, yeterli deneme ve yeterli boyut verildiğinde sinyallerden bazıları belirli bir deneme için uyumlu olacaktır. Bu, aynı sinyallerin gelecekte uyumlu olacağı anlamına gelmez. Bu nedenle, ne kadar mantıklı olduğunu doğrulamaya çalışabilmek için "hem A hem de B'ye neden olan gizli bir C etkisi vardır" gibi bir nedensellik teorisini göz önünde bulundurma yükümlülüğünüz vardır.

Veri analistleri genellikle verileri tüketmek isteyenler için bu nedensel sorulara yanıt vermek zorundadır. Bu tüketicilere nedensellik hakkında neleri söyleyip söyleyemeyeceğinizi net bir şekilde belirtmelisiniz.

Önce meslektaşlarınızla, sonra harici tüketicilerle paylaşın

Önceki noktalarda, ses kalitesi kontrolü ve doğrulama yapmak için bazı yöntemler önermiştik. Ancak bir arkadaşınızla paylaşımda bulunmak, kendinizi tüm bunları yapmaya zorlamanın en iyi yollarından biridir. Özellikle tüketicilerin gündemi olduğu için, yetenekli bir meslektaş, verilerinizi kullanan kişilerden nitel olarak farklı geri bildirimler sağlayabilir. Benzerler, analiz boyunca birçok noktada faydalıdır. Meslektaşlarınızın bildiği başarıları, ölçülecek şeylerle ilgili önerileri ve bu alandaki geçmiş araştırmaları erkenden öğrenebilirsiniz. Sona doğru, sınıf arkadaşlarımız tuhaflıkları, tutarsızlıkları veya diğer kafa karışıklıklarını göstermede oldukça başarılıdır.

İdeal olarak, baktığınız veriler hakkında bilgi sahibi olan bir meslektaşınızdan geri bildirim almanız gerekir, ancak genel veri analizi deneyimine sahip bir arkadaşınız bile son derece değerlidir.

Cehaleti ve hataları beklemek ve kabullenmek

Verilerden öğrenebileceğimiz birçok şey vardır. Nate Silver, The Signal and the Noise'da (Sinyal ve Gürültü) yalnızca kesinliğimizin sınırlarını kabul ederek daha iyi tahminde ilerleme kaydedebileceğimizi öne sürüyor. Cehaleti kabullenmek, genellikle hemen ödüllendirilmeyen bir güçtür. Şu an kulağa kötü gelebilir ama uzun vadede siz ve ekibiniz için büyük bir faydadır. Hata yapıp daha sonra (hatta çok geç) keşfetmek daha da kötü hissettirir, ancak proaktif olarak hatalarınızın üstesinden gelmek size saygı gösterir. Bu saygı inandırıcılık ve etki anlamına gelir.

Bitirirken

İyi veri analizi yapmak için gerçekleştirilen çalışmaların çoğu, analizinizi yapan tüketiciler tarafından hemen görülmez. Popülasyon boyutlarını dikkatlice kontrol etmeniz ve etkinin tarayıcılar arasında tutarlı olduğunu doğrulamanız, muhtemelen bu verilerden karar vermeye çalışan kişilerin dikkatini çekmeyecektir. Bu aynı zamanda, iyi veri analizinin neden çoğu insana göre olması gerektiğinden daha uzun sürdüğünü de açıklar (özellikle de yalnızca nihai sonucu gördüklerinde). Analistler olarak işimizin bir parçası da, bu adımların neler olduğu ve neden önemli olduğu konusunda tüketicileri veri tabanlı analizler konusunda kademeli olarak eğitmektir.

Verilerinizin manipülasyon ve keşiflerine yönelik tüm bu ihtiyaçlar, iyi bir veri analizi dili ve ortamının gerekliliklerini de ortaya çıkarır. Verileri incelemek için elimizdeki pek çok araç mevcut. Yukarıda tartışılan çeşitli teknikler için farklı araçlar ve diller daha uygundur; doğru aracı seçmek analistler için önemli bir beceridir. Kendinizi en rahatça kullandığınız aracın olanaklarıyla sınırlanmamalısınız. Sizin göreviniz belirli bir aracı uygulamak değil, gerçek bilgiler sunmaktır.

 


  1. Buna bazen "ilk veri analizi" de denir. Veri analiziyle ilgili Vikipedi makalesini inceleyin

  2. Teknik olarak, doğrulayıcı analiz değil, keşif amaçlı analiz yapıyorsanız tekrarlamalı olmalıdır.