Regressão logística

Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Em vez de prever exatamente 0 ou 1, a regressão logística gera uma probabilidade, um valor entre 0 e 1, exclusivo. Por exemplo, considere um modelo de regressão logística para detecção de spam. Se o modelo inferir um valor de 0,932 em uma determinada mensagem de e-mail, isso implica uma probabilidade de 93,2% de que a mensagem seja spam. Mais precisamente, isso significa que, no limite de exemplos de treinamento infinito, o conjunto de exemplos para os quais o modelo prevê 0,932 será, na verdade, spam 93,2% das vezes, e os 6,8% restantes não.

Regressão logística

  • Imagine o problema de prever a probabilidade de cara para moedas curvadas
  • É possível usar atributos como ângulo de curvatura, massa da moeda etc.
  • Qual é o modelo mais simples que você pode usar?
  • O que pode dar errado?
Duas moedas dobradas
  • Muitos problemas exigem uma estimativa de probabilidade como saída
  • Digite Regressão logística.
  • Muitos problemas exigem uma estimativa de probabilidade como saída
  • Digite Regressão logística.
  • Útil porque as estimativas de probabilidade são calibradas
    • por exemplo, p(house venderá) * price = resultado esperado
  • Muitos problemas exigem uma estimativa de probabilidade como saída
  • Digite Regressão logística.
  • Útil porque as estimativas de probabilidade são calibradas
    • por exemplo, p(house venderá) * price = resultado esperado
  • Também é útil quando precisamos de uma classificação binária
    • é spam ou não é spam? → p(Spam)

$$ y' = \frac{1}{1 + e^{-(w^Tx+b)}} $$

\(\text{Where:} \) \(x\text{: Provides the familiar linear model}\) \(1+e^{-(...)}\text{: Squish through a sigmoid}\)

Gráfico da equação de regressão logística

$$ LogLoss = \sum_{(x,y)\in D} -y\,log(y') - (1 - y)\,log(1 - y') $$

Dois gráficos de perda de registro x valor previsto: um para um valor de objetivo de 0,0 (que se inclina para cima e para a direita) e um para um valor desejado de 1,0 (que se arredonda para baixo e para a esquerda)
  • A regularização é muito importante para a regressão logística.
    • Lembre-se das assíntotas
    • Ele continuará tentando gerar perda para zero em dimensões altas
  • A regularização é muito importante para a regressão logística.
    • Lembre-se das assíntotas
    • Ele continuará tentando gerar perda para zero em dimensões altas
  • Duas estratégias são especialmente úteis:
    • Regularização de L2 (também conhecida como redução de peso L2): penaliza grandes pesos.
    • Interrupção antecipada: limita as etapas de treinamento ou a taxa de aprendizado.
  • A regressão logística linear é extremamente eficiente.
    • Tempos de treinamento e previsão muito rápidos
    • Modelos curtos ou amplos usam muita RAM.