Regressione logistica: perdita e regolarizzazione

Funzione di perdita per regressione logistica

La funzione di perdita per la regressione lineare è la perdita al quadrato. La funzione di perdita per la regressione logistica è Perdita log, definita come segue:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

dove:

  • \((x,y)\in D\) è il set di dati contenente molti esempi etichettati, che sono \((x,y)\) coppie.
  • \(y\) è l'etichetta in un esempio etichettato. Poiché questa è una regressione logistica, ogni valore di \(y\) deve essere 0 o 1.
  • \(y'\) è il valore previsto (tra 0 e 1), in base all'insieme di funzionalità in \(x\).

Regolarizzazione in regressione logistica

La regolarizzazione è estremamente importante nella modellazione della regressione logistica. Senza la regolarizzazione, la natura asintotica della regressione logistica significherebbe continuare a perdere 0 nelle dimensioni elevate. Di conseguenza, la maggior parte dei modelli di regressione logistica utilizza una delle seguenti due strategie per attenuare la complessità dei modelli:

  • L2.
  • La prima fase è l'interruzione del numero di passaggi di formazione o della frequenza di apprendimento.

Ne discuteremo di una terza strategia, la regolazione L1, in un modulo successivo.

Immagina di assegnare un ID univoco a ogni esempio e di mappare ogni ID alla propria funzionalità. Se non specifichi una funzione di regolarizzazione, il modello diventerà completamente overfit. Questo succede perché il modello proverà a ridurre a zero la perdita su tutti gli esempi e non ci arriverà mai, aumentando i pesi di ogni indicatore a +infinito o infinito. Questo può accadere in dati ad alta dimensione con incroci, quando un'enorme massa di incroci rari si verifica solo in un esempio.

Fortunatamente, l'uso di L2 o di interruzione anticipata impedirà il problema.