W tym kursie omówiliśmy wiele typowych pułapek związanych z danymi, od jakości zbioru danych po sposób myślenia, wizualizację i analizę statystyczną.
Praktycy ML powinni zadać sobie następujące pytania:
- Jak dobrze rozumiem charakterystykę moich zbiorów danych i warunki, w jakich zostały one zebrane?
- Jakie problemy z jakością lub odchyleniem występują w moich danych? Czy występują czynniki zakłócające?
- Jakie potencjalne problemy mogą wyniknąć z używania tych konkretnych zbiorów danych?
- Podczas trenowania modelu, który dokonuje prognoz lub klasyfikacji: czy zbiór danych, na którym jest trenowany model, zawiera wszystkie istotne zmienne?
Niezależnie od wyników praktycy ML powinni zawsze sprawdzać, czy nie ulegli efektowi potwierdzenia, a następnie porównywać wyniki z intuicją i zdrowym rozsądkiem oraz badać przypadki, w których dane są z nimi sprzeczne.
Materiały dodatkowe
Cairo, Alberto. How Charts Lie: Getting Smarter about Visual Information (Jak kłamią wykresy: jak lepiej rozumieć informacje wizualne). NY: W.W. Norton, 2019.
Huff, Darrell. How to Lie with Statistics. NY: W.W. Norton, 1954.
Monmonier, Mark. How to Lie with Maps,wyd. 3. Chicago: U of Chicago P, 2018.
Jones, Ben. Unikanie pułapek związanych z danymi Hoboken, NJ: Wiley, 2020.
Wheelan, Charles. Naked Statistics: Stripping the Dread from the Data NY: W.W. Norton, 2013