Podsumowanie

W tym kursie omówiliśmy wiele typowych pułapek związanych z danymi, od jakości zbioru danych po sposób myślenia, wizualizację i analizę statystyczną.

Praktycy ML powinni zadać sobie następujące pytania:

  • Jak dobrze rozumiem charakterystykę moich zbiorów danych i warunki, w jakich zostały one zebrane?
  • Jakie problemy z jakością lub odchyleniem występują w moich danych? Czy występują czynniki zakłócające?
  • Jakie potencjalne problemy mogą wyniknąć z używania tych konkretnych zbiorów danych?
  • Podczas trenowania modelu, który dokonuje prognoz lub klasyfikacji: czy zbiór danych, na którym jest trenowany model, zawiera wszystkie istotne zmienne?

Niezależnie od wyników praktycy ML powinni zawsze sprawdzać, czy nie ulegli efektowi potwierdzenia, a następnie porównywać wyniki z intuicją i zdrowym rozsądkiem oraz badać przypadki, w których dane są z nimi sprzeczne.

Materiały dodatkowe

Cairo, Alberto. How Charts Lie: Getting Smarter about Visual Information (Jak kłamią wykresy: jak lepiej rozumieć informacje wizualne). NY: W.W. Norton, 2019.

Huff, Darrell. How to Lie with Statistics. NY: W.W. Norton, 1954.

Monmonier, Mark. How to Lie with Maps,wyd. 3. Chicago: U of Chicago P, 2018.

Jones, Ben. Unikanie pułapek związanych z danymi Hoboken, NJ: Wiley, 2020.

Wheelan, Charles. Naked Statistics: Stripping the Dread from the Data NY: W.W. Norton, 2013