Correttezza: identificazione degli errori

Quando esplori i tuoi dati per determinare il modo migliore per rappresentarli nel tuo modello, è importante anche tenere a mente i problemi di correttezza e controllare in modo proattivo le potenziali fonti di bias.

Dove potresti notare il bias? Di seguito sono riportati tre flag rosso che devi cercare nel tuo set di dati.

Valori mancanti della caratteristica

Se il tuo set di dati ha una o più funzionalità a cui mancano valori per un numero elevato di esempi, ciò potrebbe indicare che alcune caratteristiche chiave del set di dati sono sottorappresentate.

Ad esempio, la tabella seguente mostra un riepilogo delle statistiche principali per un sottoinsieme di funzionalità del set di dati della California Housing, archiviato in un panda DataFrame e generato tramite DataFrame.describe. Tieni presente che tutte le funzionalità hanno un count di 17.000, che indica che non ci sono valori mancanti:

longitude latitude stanze_totali popolazione nuclei familiari reddito_mediano valore_casa_mediano
numero 17.000,0 17.000,0 17.000,0 17.000,0 17.000,0 17.000,0 17.000,0
medio -119,6 35,6 116,1 1429,6 501,2 3,9 117,1
std 2,0 2.1 1179,9 1147,9 384,5 1.9 116,0
min -124,3 32,5 2,0 3,0 1,0 0,5 15,0
25% -121,8 33,9 1462,0 790,0 282,0 2.6 119,4
50% -118,5 34,2 2127,0 1167,0 409,0 3,5 180,4
75% -118,0 37,7 1151,2 1721,0 605,2 4,8 265,0
max -114,3 42,0 37.937,0 35.682,0 6082,0 15,0 500,0

Supponiamo invece che tre funzionalità (population, households e median_income) conteggino solo 3000, in altre parole, mancano 14.000 valori per ogni caratteristica:

longitude latitude stanze_totali popolazione nuclei familiari reddito_mediano valore_casa_mediano
numero 17.000,0 17.000,0 17.000,0 3000,0 3000,0 3000,0 17.000,0
medio -119,6 35,6 116,1 1429,6 501,2 3,9 117,1
std 2,0 2.1 1179,9 1147,9 384,5 1.9 116,0
min -124,3 32,5 2,0 3,0 1,0 0,5 15,0
25% -121,8 33,9 1462,0 790,0 282,0 2.6 119,4
50% -118,5 34,2 2127,0 1167,0 409,0 3,5 180,4
75% -118,0 37,7 1151,2 1721,0 605,2 4,8 265,0
max -114,3 42,0 37.937,0 35.682,0 6082,0 15,0 500,0

Questi 14.000 valori mancanti renderebbero molto più difficile correlare con precisione il reddito medio delle famiglie con i prezzi medi delle abitazioni. Prima di addestrare un modello su questi dati, sarebbe prudente esaminare la causa di questi valori mancanti per garantire che non ci siano bias latenti responsabili di dati mancanti relativi a reddito e popolazione.

Valori delle caratteristiche imprevisti

Quando esplori i dati, dovresti anche cercare esempi che contengono valori relativi alle caratteristiche che si distinguono in modo particolarmente insolito o insolito. Questi valori imprevisti potrebbero indicare problemi che si sono verificati durante la raccolta dei dati o altre inesattezze che potrebbero introdurre bias.

Ad esempio, dai un'occhiata ai seguenti esempi estratti dal set di dati relativi agli alloggi in California:

longitude latitude stanze_totali popolazione nuclei familiari reddito_mediano valore_casa_mediano
1 -121,7 38,0 7105,0 3523,0 1088,0 5,0 0,2
2 -122,4 37,8 2479,0 1816,0 496,0 3.1 0,3
3 -122,0 37,0 2813,0 1337,0 477,0 3,7 0,3
4 -103,5 43,8 2212,0 803,0 144,0 5.3 0,2
5 -117,1 32,8 2963,0 1162,0 556,0 3.6 0,2
6 -118,0 33,7 3396,0 1542,0 472,0 8.4 0,4

Riesci a identificare eventuali valori imprevisti delle funzionalità?

Disallineamento dati

Qualsiasi disallineamento nei dati in cui determinati gruppi o caratteristiche possano essere sottorappresentati o sottorappresentati rispetto alla loro prevalenza nel mondo reale possono introdurre bias nel modello.

Se hai completato l'esercizio di programmazione di convalida, potresti ricordare di aver scoperto che un errore di randomizzazione del set di dati relativi alle abitazioni in California prima di suddividerlo in set di addestramento e convalida ha generato un pronunciato disallineamento dei dati. La figura 1 mostra un sottoinsieme di dati ricavati dal set di dati completo che rappresenta esclusivamente l'area geografica del nord-ovest della California.

Una mappa dello stato della California sovrapposta ai dati del set di dati della California Housing.
          Ogni punto rappresenta un blocco residenziale. I punti sono tutti raggruppati nella California nord-occidentale,
          senza punti nella California meridionale, a indicare la disallineamento geografico dei dati

Figura 1. Mappa dello stato della California sovrapposta ai dati del set di dati della California Housing. Ogni punto rappresenta un blocco residenziale, con colori che vanno dal blu al rosso, corrispondenti al prezzo medio della casa, rispettivamente dal più basso al più alto.

Se questo campione non rappresentativo fosse utilizzato per addestrare un modello per prevedere i prezzi degli alloggi in California, la mancanza di dati relativi agli alloggi nelle porzioni meridionali della California sarebbe problematica. Il bias geografico codificato nel modello potrebbe incidere negativamente sugli acquirenti di case nelle community non rappresentate.