邏輯迴歸

邏輯迴歸不會預測確切的 0 或 1,而是產生機率。介於 0 和 1 之間 (不含 0 和 1) 的值。舉例來說,建議您使用邏輯迴歸模型偵測垃圾內容。如果模型推斷特定電子郵件的值為 0.932,這表示電子郵件是垃圾郵件的可能性為 93.2%。更準確地說,這表示在「無限」訓練範例的限制中,模型預測 0.932 的模型範例實際上是 93.2% 的垃圾內容,其餘 6.8% 則不會。

邏輯迴歸

  • 想像一下如果用頭預測彎曲硬幣的機率
  • 你可以使用彎曲角度、投幣等。
  • 您最可以使用的模式是什麼?
  • 這時可能出現什麼問題?
2 枚硬幣
  • 許多問題都需要預估機率做為輸出
  • 輸入「邏輯邏輯迴歸」
  • 許多問題都需要預估機率做為輸出
  • 輸入「邏輯邏輯迴歸」
  • 方便,因為預估值是校正
    • 例如,p(house) 會出售) * price = 預期結果
  • 許多問題都需要預估機率做為輸出
  • 輸入「邏輯邏輯迴歸」
  • 估算結果顯示,由於預估值已校正
    • 例如,p(house) 會出售) * price = 預期結果
  • 適用於需要二進位檔分類的情況
    • 是不是垃圾內容?→ p(垃圾內容)

$$ y' = \frac{1}{1 + e^{-(w^Tx+b)}} $$

\(\text{Where:} \) \(x\text{: Provides the familiar linear model}\) \(1+e^{-(...)}\text{: Squish through a sigmoid}\)

邏輯迴歸方程式

$$ LogLoss = \sum_{(x,y)\in D} -y\,log(y') - (1 - y)\,log(1 - y') $$

兩份對數損失的預測結果與預測值:一張分別代表 0.0 的目標值 (由上而往右的弧形),一張為目標值 1.0 (弧形與左側) 的目標
  • 正規化對於邏輯迴歸來說十分重要。
    • 記住中階者
    • 裝置會繼續嘗試將高維度的部分損失為 0
  • 正規化對於邏輯迴歸來說十分重要。
    • 記住中階者
    • 裝置會繼續嘗試將高維度的部分損失為 0
  • 以下兩種策略特別實用:
    • L2 正規化 (也就是 L2 權重衰減) - 會大量懲罰。
    • 提前停止 - 限制訓練步驟或學習率。
  • 線性邏輯迴歸效率極高。
    • 訓練和預測速度非常快。
    • 短 / 廣模型會使用大量 RAM。