Funzione di perdita per regressione logistica
La funzione di perdita per la regressione lineare è la perdita al quadrato. La funzione di perdita per la regressione logistica è Perdita log, definita come segue:
dove:
- \((x,y)\in D\) è il set di dati contenente molti esempi etichettati, che sono \((x,y)\) coppie.
- \(y\) è l'etichetta in un esempio etichettato. Poiché questa è una regressione logistica, ogni valore di \(y\) deve essere 0 o 1.
- \(y'\) è il valore previsto (tra 0 e 1), in base all'insieme di funzionalità in \(x\).
Regolarizzazione in regressione logistica
La regolarizzazione è estremamente importante nella modellazione della regressione logistica. Senza la regolarizzazione, la natura asintotica della regressione logistica significherebbe continuare a perdere 0 nelle dimensioni elevate. Di conseguenza, la maggior parte dei modelli di regressione logistica utilizza una delle seguenti due strategie per attenuare la complessità dei modelli:
- L2.
- La prima fase è l'interruzione del numero di passaggi di formazione o della frequenza di apprendimento.
Ne discuteremo di una terza strategia, la regolazione L1, in un modulo successivo.
Immagina di assegnare un ID univoco a ogni esempio e di mappare ogni ID alla propria funzionalità. Se non specifichi una funzione di regolarizzazione, il modello diventerà completamente overfit. Questo succede perché il modello proverà a ridurre a zero la perdita su tutti gli esempi e non ci arriverà mai, aumentando i pesi di ogni indicatore a +infinito o infinito. Questo può accadere in dati ad alta dimensione con incroci, quando un'enorme massa di incroci rari si verifica solo in un esempio.
Fortunatamente, l'uso di L2 o di interruzione anticipata impedirà il problema.