Perangkap analisis

"Semua model salah, tetapi ada beberapa model yang bermanfaat". — George Box, 1978

Meskipun efektif, teknik statistik memiliki keterbatasan. Memahami batasan ini dapat membantu peneliti menghindari kesalahan dan klaim yang tidak akurat, seperti pernyataan BF Skinner bahwa Shakespeare tidak menggunakan aliterasi lebih dari yang diprediksi oleh keacakan. (Studi Skinner kurang memadai.1)

Batas ketidakpastian dan error

Anda harus menentukan ketidakpastian dalam analisis. Penting juga untuk mengukur ketidakpastian dalam analisis orang lain. Titik data yang tampaknya membuat plot tren pada grafik, tetapi memiliki batang error yang tumpang-tindih, mungkin tidak menunjukkan pola apa pun. Ketidakpastian mungkin juga terlalu tinggi untuk menarik kesimpulan yang berguna dari studi atau pengujian statistik tertentu. Jika studi riset memerlukan akurasi tingkat persil, set data geospasial dengan ketidakpastian +/- 500 m memiliki terlalu banyak ketidakpastian untuk dapat digunakan.

Atau, tingkat ketidakpastian dapat berguna selama proses pengambilan keputusan. Data yang mendukung pengolahan air tertentu dengan ketidakpastian sebesar 20% dalam hasilnya dapat menghasilkan rekomendasi untuk penerapan pengolahan air tersebut dengan pemantauan berkelanjutan terhadap program untuk mengatasi ketidakpastian tersebut.

Jaringan saraf Bayesian dapat mengukur ketidakpastian dengan memprediksi distribusi nilai, bukan nilai tunggal.

Tidak relevan

Seperti yang telah dibahas dalam pengantar, selalu ada setidaknya kesenjangan kecil antara data dan realitas. Praktisi ML yang cerdas harus menentukan apakah set data relevan dengan pertanyaan yang diajukan.

Huff menjelaskan studi opini publik awal yang menemukan bahwa jawaban orang Amerika kulit putih terhadap pertanyaan tentang seberapa mudah orang Amerika kulit hitam memperoleh penghasilan yang baik secara langsung dan terbalik terkait dengan tingkat empati mereka terhadap orang Amerika kulit hitam. Seiring meningkatnya animus rasial, respons tentang peluang ekonomi yang diharapkan menjadi semakin optimis. Hal ini mungkin disalahartikan sebagai tanda progres. Namun, studi ini tidak dapat menunjukkan apa pun tentang peluang ekonomi yang sebenarnya tersedia bagi orang Amerika keturunan Afrika-Amerika pada saat itu, dan tidak cocok untuk menarik kesimpulan tentang realitas pasar kerja—hanya pendapat responden survei. Data yang dikumpulkan sebenarnya tidak relevan dengan kondisi pasar kerja.2

Anda dapat melatih model pada data survei seperti yang dijelaskan di atas, dengan output yang sebenarnya mengukur optimisme, bukan peluang. Namun, karena peluang yang diprediksi tidak relevan dengan peluang yang sebenarnya, jika Anda mengatakan bahwa model memprediksi peluang yang sebenarnya, Anda akan menyalahrepresentasikan apa yang diprediksi model.

Faktor yang mengacaukan

Variabel pengacau, pengacauan,atau kofaktor adalah variabel yang tidak sedang dipelajari yang memengaruhi variabel yang sedang dipelajari dan dapat mendistorsi hasilnya. Misalnya, pertimbangkan model ML yang memprediksi rasio kematian untuk negara input berdasarkan fitur kebijakan kesehatan masyarakat. Misalkan usia median bukan merupakan fitur. Selanjutnya, anggaplah beberapa negara memiliki populasi yang lebih tua daripada negara lainnya. Dengan mengabaikan variabel pengacau usia median, model ini mungkin memprediksi rasio kematian yang salah.

Di Amerika Serikat, ras sering kali berkorelasi kuat dengan kelas sosial ekonomi, meskipun hanya ras, bukan kelas, yang dicatat dengan data mortalitas. Konflik terkait kelas, seperti akses ke layanan kesehatan, nutrisi, pekerjaan berbahaya, dan perumahan yang aman, mungkin memiliki pengaruh yang lebih kuat terhadap rasio kematian daripada ras, tetapi diabaikan karena tidak disertakan dalam set data.3 Mengidentifikasi dan mengontrol faktor-faktor yang mengganggu ini sangat penting untuk membuat model yang berguna dan mengambil kesimpulan yang bermakna dan akurat.

Jika model dilatih dengan data mortalitas yang ada, yang mencakup ras tetapi tidak mengarah pada kelas, model tersebut dapat memprediksi mortalitas berdasarkan ras, meskipun kelas adalah prediktor mortalitas yang lebih kuat. Hal ini dapat menyebabkan asumsi yang tidak akurat tentang kausalitas dan prediksi yang tidak akurat tentang mortalitas pasien. Praktisi ML harus bertanya apakah ada gangguan dalam data mereka, serta variabel bermakna yang mungkin hilang dari set data mereka.

Pada tahun 1985, Nurses' Health Study, sebuah studi kohor observasional dari Harvard Medical School dan Harvard School of Public Health, menemukan bahwa anggota kohor yang menjalani terapi penggantian estrogen memiliki insiden serangan jantung yang lebih rendah dibandingkan dengan anggota kohor yang tidak pernah mengonsumsi estrogen. Akibatnya, dokter meresepkan estrogen kepada pasien mereka yang mengalami menopause dan pascap menopause selama beberapa dekade, hingga studi klinis pada tahun 2002 mengidentifikasi risiko kesehatan yang ditimbulkan oleh terapi estrogen jangka panjang. Praktik meresepkan estrogen kepada wanita pascapascamenopause dihentikan, tetapi tidak sebelum menyebabkan perkiraan puluhan ribu kematian prematur.

Beberapa faktor yang dapat menyebabkan asosiasi. Epidemiologis menemukan bahwa wanita yang menjalani terapi penggantian hormon, dibandingkan dengan wanita yang tidak, cenderung lebih kurus, lebih berpendidikan, lebih kaya, lebih sadar akan kesehatan mereka, dan lebih cenderung berolahraga. Dalam berbagai studi, pendidikan dan kekayaan ditemukan dapat mengurangi risiko penyakit jantung. Efek tersebut akan mengacaukan korelasi yang jelas antara terapi estrogen dan serangan jantung.4

Persentase dengan angka negatif

Hindari penggunaan persentase jika ada angka negatif,5 karena semua jenis keuntungan dan kerugian yang signifikan dapat dikaburkan. Asumsikan, demi matematika sederhana, bahwa industri restoran memiliki 2 juta pekerjaan. Jika industri kehilangan 1 juta pekerjaan tersebut pada akhir Maret 2020, tidak mengalami perubahan bersih selama sepuluh bulan, dan mendapatkan kembali 900.000 pekerjaan pada awal Februari 2021, perbandingan tahun ke tahun pada awal Maret 2021 hanya akan menunjukkan penurunan 5% pada pekerjaan restoran. Dengan asumsi tidak ada perubahan lain, perbandingan tahun ke tahun pada akhir April 2021 akan menunjukkan peningkatan 90% dalam pekerjaan restoran, yang merupakan gambaran yang sangat berbeda dari kenyataan.

Lebih memilih angka sebenarnya, yang dinormalisasi sebagaimana mestinya. Lihat Bekerja dengan Data Numerik untuk mengetahui informasi selengkapnya.

Fallacy post-hoc dan korelasi yang tidak dapat digunakan

Logika post-hoc adalah asumsi bahwa, karena peristiwa A diikuti oleh peristiwa B, peristiwa A menyebabkan peristiwa B. Secara lebih sederhana, hal ini mengasumsikan hubungan sebab-akibat yang tidak ada. Lebih sederhana lagi: korelasi tidak membuktikan kausalitas.

Selain hubungan sebab-akibat yang jelas, korelasi juga dapat berasal dari:

  • Kebetulan murni (lihat Spurious correlations Tyler Vigen untuk ilustrasi, termasuk korelasi yang kuat antara rasio perceraian di Maine dan konsumsi margarin).
  • Hubungan nyata antara dua variabel, meskipun masih belum jelas variabel mana yang menyebabkan dan mana yang terpengaruh.
  • Penyebab ketiga yang terpisah yang memengaruhi kedua variabel, meskipun variabel yang berkorelasi tidak saling terkait. Misalnya, inflasi global dapat menaikkan harga kapal pesiar dan seledri.6

Mengekstrapolasi korelasi di luar data yang ada juga berisiko. Huff menunjukkan bahwa hujan yang cukup akan meningkatkan hasil panen, tetapi hujan yang terlalu banyak akan merusaknya; hubungan antara hujan dan hasil panen bersifat nonlinier.7 (Lihat dua bagian berikutnya untuk mengetahui lebih lanjut tentang hubungan nonlinier.) Jones mencatat bahwa dunia penuh dengan peristiwa yang tidak dapat diprediksi, seperti perang dan kelaparan, yang menyebabkan perkiraan data deret waktu pada masa mendatang menjadi sangat tidak pasti.8

Selain itu, bahkan korelasi yang sebenarnya berdasarkan sebab dan akibat mungkin tidak berguna untuk membuat keputusan. Huff memberikan, sebagai contoh, korelasi antara kemampuan menikah dan pendidikan perguruan tinggi pada tahun 1950-an. Wanita yang kuliah mungkin tidak akan menikah, tetapi mungkin saja wanita yang kuliah memang tidak ingin menikah sejak awal. Jika demikian, pendidikan perguruan tinggi tidak mengubah kemungkinan mereka menikah.9

Jika analisis mendeteksi korelasi antara dua variabel dalam set data, ajukan pertanyaan:

  • Apa jenis korelasi ini: hubungan sebab-akibat, palsu, tidak diketahui, atau disebabkan oleh variabel ketiga?
  • Seberapa berisiko ekstrapolasi dari data? Setiap prediksi model pada data yang tidak ada dalam set data pelatihan pada dasarnya merupakan interpolasi atau ekstrapolasi dari data.
  • Dapatkah korelasi digunakan untuk membuat keputusan yang berguna? Misalnya, optimisme dapat sangat berkorelasi dengan peningkatan gaji, tetapi analisis sentimen dari beberapa korpus besar data teks, seperti postingan media sosial oleh pengguna di negara tertentu, tidak akan berguna untuk memprediksi peningkatan gaji di negara tersebut.

Saat melatih model, praktisi ML umumnya mencari fitur yang sangat berkorelasi dengan label. Jika hubungan antara fitur dan label tidak dipahami dengan baik, hal ini dapat menyebabkan masalah yang dijelaskan di bagian ini, termasuk model berdasarkan korelasi palsu dan model yang mengasumsikan tren historis akan berlanjut di masa mendatang, padahal sebenarnya tidak.

Bias linear

Dalam "Pemikiran Linear di Dunia Non-Linear", Bart de Langhe, Stefano Puntoni, dan Richard Larrick mendeskripsikan bias linear sebagai kecenderungan otak manusia untuk mengharapkan dan mencari hubungan linear, meskipun banyak fenomena yang bersifat non-linear. Hubungan antara sikap dan perilaku manusia, misalnya, adalah kurva cembung, bukan garis. Dalam makalah Journal of Consumer Policy tahun 2007 yang dikutip oleh de Langhe et al., Jenny van Doorn dkk. membuat model hubungan antara kekhawatiran responden survei tentang lingkungan dan pembelian produk organik oleh responden. Mereka yang memiliki perhatian paling ekstrem terhadap lingkungan membeli lebih banyak produk organik, tetapi ada sedikit perbedaan antara semua responden lainnya.

Pembelian produk organik versus skor kepedulian terhadap lingkungan,
  yang sebagian besar menunjukkan garis datar dengan kurva cembung yang tajam ke atas di ujung kanan
Grafik pembelian organik versus skor kepedulian terhadap lingkungan yang disederhanakan dan diadaptasi dari makalah van Doorn et al.

Saat mendesain model atau studi, pertimbangkan kemungkinan hubungan nonlinear. Karena pengujian A/B mungkin melewatkan hubungan nonlinier, sebaiknya uji juga kondisi pertengahan ketiga, C. Pertimbangkan juga apakah perilaku awal yang tampak linear akan terus linear, atau apakah data mendatang mungkin menunjukkan perilaku yang lebih logaritmik atau non-linear lainnya.

Kesesuaian linear untuk data logaritmik yang menunjukkan kesesuaian yang baik untuk paruh
  pertama data dan kesesuaian yang semakin buruk setelahnya.
Contoh kecocokan linear yang buruk dengan data logaritmik

Contoh hipotetis ini menunjukkan kecocokan linear yang salah untuk data logaritmik. Jika hanya beberapa titik data pertama yang tersedia, akan sangat menggoda dan salah untuk mengasumsikan hubungan linear yang berkelanjutan antara variabel.

Interpolasi linear

Periksa interpolasi apa pun di antara titik data, karena interpolasi memperkenalkan titik fiktif, dan interval antara pengukuran sebenarnya dapat berisi fluktuasi yang signifikan. Sebagai contoh, pertimbangkan visualisasi empat titik data berikut yang terhubung dengan interpolasi linear:

Amplitudo dari waktu ke waktu yang menunjukkan empat titik yang terhubung dengan garis lurus.
Contoh interpolasi linear.

Kemudian, pertimbangkan contoh fluktuasi antara titik data yang dihapus oleh interpolasi linear:

Titik yang sama seperti sebelumnya, tetapi dengan fluktuasi yang sangat besar antara titik kedua dan ketiga.
Contoh fluktuasi yang signifikan (gempa bumi) di antara titik data.

Contoh ini dibuat-buat karena seismograf mengumpulkan data secara berkelanjutan, sehingga gempa ini tidak akan terlewatkan. Namun, hal ini berguna untuk mengilustrasikan asumsi yang dibuat oleh interpolasi, dan fenomena sebenarnya yang mungkin terlewatkan oleh praktisi data.

Fenomena Runge

Fenomena Runge, juga dikenal sebagai "polynomial wiggle", adalah masalah di ujung yang berlawanan dari spektrum dari interpolasi linear dan bias linear. Saat menyesuaikan interpolasi polinomial dengan data, Anda dapat menggunakan polinomial dengan derajat yang terlalu tinggi (derajat, atau urutan, yang merupakan eksponen tertinggi dalam persamaan polinomial). Hal ini menghasilkan osilasi aneh di tepi. Misalnya, menerapkan interpolasi polinomial derajat 11, yang berarti bahwa istilah dengan urutan tertinggi dalam persamaan polinomial memiliki \(x^{11}\), ke data yang kira-kira linear, menghasilkan prediksi yang sangat buruk di awal dan akhir rentang data:

Data yang kira-kira linear
  dan disesuaikan dengan interpolasi polinomial derajat 11, yang menunjukkan lonjakan
  tajam ke atas antara dua titik data pertama dan lonjakan tajam ke bawah
  antara dua titik data terakhir
Contoh gerakan polinomial

Dalam konteks ML, fenomena yang serupa adalah overfitting.

Kegagalan statistik untuk mendeteksi

Terkadang, pengujian statistik mungkin terlalu lemah untuk mendeteksi dampak kecil. Kekuatan yang rendah dalam analisis statistik berarti peluang yang rendah untuk mengidentifikasi peristiwa yang benar dengan benar, sehingga peluang negatif palsu tinggi. Katherine Button dkk. menulis di Nature: "Jika studi di bidang tertentu dirancang dengan daya 20%, artinya jika ada 100 efek non-null yang sebenarnya akan ditemukan di bidang tersebut, studi ini diharapkan hanya menemukan 20 efek tersebut." Meningkatkan ukuran sampel terkadang dapat membantu, begitu juga dengan desain studi yang cermat.

Situasi yang serupa dalam ML adalah masalah klasifikasi dan pilihan nilai minimum klasifikasi. Pilihan nilai minimum yang lebih tinggi menghasilkan lebih sedikit positif palsu dan lebih banyak negatif palsu, sedangkan nilai minimum yang lebih rendah menghasilkan lebih banyak positif palsu dan lebih sedikit negatif palsu.

Selain masalah terkait kekuatan statistik, karena korelasi dirancang untuk mendeteksi hubungan linear, korelasi non-linear antara variabel dapat terlewatkan. Demikian pula, variabel dapat saling terkait, tetapi tidak berkorelasi secara statistik. Variabel juga dapat berkorelasi negatif tetapi sama sekali tidak terkait, dalam hal yang dikenal sebagai paradoks Berkson atau kekeliruan Berkson. Contoh klasik dari kekeliruan Berkson adalah korelasi negatif palsu antara faktor risiko dan penyakit berat saat melihat populasi pasien rawat inap rumah sakit (dibandingkan dengan populasi umum), yang muncul dari proses seleksi (kondisi yang cukup parah sehingga memerlukan perawatan di rumah sakit).

Pertimbangkan apakah salah satu situasi berikut berlaku.

Model yang sudah tidak berlaku dan asumsi yang tidak valid

Bahkan model yang baik dapat menurun kualitasnya seiring waktu karena perilaku (dan dunia, secara umum) dapat berubah. Model prediktif awal Netflix harus dihentikan karena basis pelanggan mereka berubah dari pengguna muda yang paham teknologi menjadi populasi umum.10

Model juga dapat berisi asumsi yang tidak terlihat dan tidak akurat yang mungkin tetap tersembunyi hingga kegagalan besar model, seperti dalam keruntuhan pasar tahun 2008. Model Value at Risk (VaR) industri keuangan mengklaim dapat memperkirakan kerugian maksimum pada portofolio trader dengan akurat, misalnya kerugian maksimum $100.000 yang diharapkan 99% dari waktu. Namun, dalam kondisi abnormal keruntuhan, portofolio dengan perkiraan kerugian maksimum $100.000 terkadang kehilangan $1.000.000 atau lebih.

Model VaR didasarkan pada asumsi yang salah, termasuk hal-hal berikut:

  • Perubahan pasar sebelumnya dapat memprediksi perubahan pasar pada masa mendatang.
  • Distribusi normal (ekor tipis, sehingga dapat diprediksi) menjadi dasar pengembalian yang diprediksi.
Distribusi von Mises dengan k=5, menyerupai distribusi Gaussian, dan k=1 dan k=.2 yang lebih datar.
Grafik distribusi von Mises, yang memiliki ekor tipis pada K tinggi dan ekor tebal pada K rendah.

Faktanya, distribusi yang mendasarinya adalah distribusi ekor tebal, "liar", atau fraktal, yang berarti bahwa ada risiko yang jauh lebih tinggi untuk peristiwa longtail, ekstrem, dan yang dianggap langka daripada yang diprediksi oleh distribusi normal. Sifat fat-tailed distribusi sebenarnya sudah diketahui, tetapi tidak ditindaklanjuti. Yang kurang dikenal adalah betapa kompleks dan erat kaitannya berbagai fenomena, termasuk perdagangan berbasis komputer dengan penjualan otomatis.11

Masalah agregasi

Data yang digabungkan, yang mencakup sebagian besar data demografis dan epidemologis, tunduk pada serangkaian perangkap tertentu. Paradoks Simpson, atau paradoks penggabungan, terjadi dalam data gabungan saat tren yang terlihat hilang atau terbalik saat data digabungkan di tingkat yang berbeda, karena faktor yang mengacaukan dan hubungan sebab akibat yang disalahpahami.

Logika ekologis melibatkan kesalahan dalam mengekstrapolasi informasi tentang populasi di satu tingkat agregasi ke tingkat agregasi lain, dengan klaim yang mungkin tidak valid. Penyakit yang menyerang 40% pekerja pertanian di satu provinsi mungkin tidak memiliki prevalensi yang sama di populasi yang lebih besar. Ada kemungkinan besar juga bahwa akan ada peternakan terpencil atau kota pertanian di provinsi tersebut yang tidak mengalami prevalensi penyakit yang sama tingginya. Mengasumsikan prevalensi 40% di tempat yang kurang terpengaruh juga akan menjadi kekeliruan.

Masalah unit area yang dapat diubah (MAUP) adalah masalah yang umum terjadi dalam data geospasial, yang dijelaskan oleh Stan Openshaw pada tahun 1984 di CATMOG 38. Bergantung pada bentuk dan ukuran area yang digunakan untuk menggabungkan data, praktisi data geospasial dapat menetapkan hampir semua korelasi antara variabel dalam data. Menggambar distrik voting yang mendukung satu partai atau lainnya adalah contoh MAUP.

Semua situasi ini melibatkan ekstrapolasi yang tidak tepat dari satu level agregasi ke level agregasi lainnya. Tingkat analisis yang berbeda mungkin memerlukan agregasi yang berbeda atau bahkan set data yang sama sekali berbeda.12

Perhatikan bahwa data sensus, demografi, dan epidemiologi biasanya digabungkan menurut zona karena alasan privasi, dan zona ini sering kali arbitrer, yang berarti, tidak didasarkan pada batas dunia nyata yang bermakna. Saat menangani jenis data ini, praktisi ML harus memeriksa apakah performa dan prediksi model berubah bergantung pada ukuran dan bentuk zona yang dipilih atau tingkat agregasi, dan jika ya, apakah prediksi model dipengaruhi oleh salah satu masalah agregasi ini.

Referensi

Button, Katharine et al. "Power failure: why small sample size undermines the reliability of neuroscience." Nature Reviews Neuroscience vol 14 (2013), 365–376. DOI: https://doi.org/10.1038/nrn3475

Cairo, Alberto. How Charts Lie: Getting Smarter about Visual Information. NY: W.W. Norton, 2019.

Davenport, Thomas H. "A Predictive Analytics Primer". Dalam HBR Guide to Data Analytics Basics for Managers (Boston: HBR Press, 2018) 81-86.

De Langhe, Bart, Stefano Puntoni, dan Richard Larrick. "Pemikiran Linear di Dunia Non-Linear". Dalam HBR Guide to Data Analytics Basics for Managers (Boston: HBR Press, 2018) 131-154.

Ellenberg, Yordania. How Not to Be Wrong: The Power of Mathematical Thinking. NY: Penguin, 2014.

Huff, Darrell. How to Lie with Statistics. NY: W.W. Norton, 1954.

Jones, Ben. Menghindari Perangkap Data. Hoboken, NJ: Wiley, 2020.

Openshaw, Stan. "The Modifiable Areal Unit Problem," CATMOG 38 (Norwich, Inggris: Geo Books 1984) 37.

The Risks of Financial Modeling: VaR and the Economic Meltdown, Kongres ke-111 (2009) (kesaksian Nassim N. Taleb dan Richard Bookstaber).

Ritter, David. "Kapan Harus Bertindak Berdasarkan Korelasi, dan Kapan Tidak Harus Bertindak". Dalam Panduan HBR untuk Dasar-Dasar Analisis Data bagi Pengelola (Boston: HBR Press, 2018) 103-109.

Tulchinsky, Theodore H. dan Elena A. Varavikova. "Chapter 3: Measuring, Monitoring, and Evaluating the Health of a Population" dalam The New Public Health, edisi ke-3. San Diego: Academic Press, 2014, hlm. 91-147. DOI: https://doi.org/10.1016/B978-0-12-415766-8.00003-3.

Van Doorn, Jenny, Peter C. Verhoef, dan Tammo H. A. Bijmolt. "Pentingnya hubungan non-linear antara sikap dan perilaku dalam riset kebijakan." Journal of Consumer Policy 30 (2007) 75–90. DOI: https://doi.org/10.1007/s10603-007-9028-3

Referensi gambar

Berdasarkan "Distribusi Von Mises". Rainald62, 2018. Sumber


  1. Ellenberg 125. 

  2. Huff 77-79. Huff mengutip Office of Public Opinion Research di Princeton, tetapi mungkin ia memikirkan laporan April 1944 oleh National Opinion Research Center di University of Denver. 

  3. Tulchinsky dan Varavikova. 

  4. Gary Taubes, Do We Really Know What Makes Us Healthy?" di The New York Times Magazine, 16 September 2007. 

  5. Ellenberg 78. 

  6. Huff 91-92. 

  7. Huff 93. 

  8. Jones 157-167. 

  9. Huff 95. 

  10. Davenport 84. 

  11. Lihat kesaksian Nassim N. di Kongres Taleb dan Richard Bookstaber dalam The Risks of Financial Modeling: VaR and the Economic Meltdown, Kongres ke-111 (2009) 11-67. 

  12. Kairo 155, 162.