分類

這個模組顯示如何將邏輯迴歸用於分類工作,並探索如何評估分類模型的效果。

分類

  • 有時候,我們會為機率輸出使用邏輯迴歸,也就是 (0, 1) 中的迴歸
  • 在其他時候,我們會分離二元分類的值
  • 選擇閾值是重要的選擇,您可以進行調整
  • Google 如何評估分類模型?
  • Google 如何評估分類模型?
  • 可能的其中一種情況:準確率
    • 預測的預測結果比例
  • 在多數情況下,準確率偏低或具誤導性的指標
    • 最常見的錯誤是各種錯誤的費用不同
    • 一般情況包括類別不平衡 (極正面或負面的情況極少發生)
  • 針對不平衡的類別問題,有助於區分不同類型的錯誤
真陽性
我們正確稱呼「狼」!
我們拯救了城鎮。

偽陽性
錯誤:我們稱之為「狼」。
我們全心投入。

偽陰性
有一顆狼,但我們沒有找到它。吃掉所有雞肉!
真陰性
沒有狼,沒有鬧鐘。
沒關係。

  • 精確度: (真陽性) / (所有正面預測)
    • 模型顯示「正面」類別時,對嗎?
    • 直覺:模型是否過於常「哭泣」?
  • 精確度: (真陽性) / (所有正面預測)
    • 模型顯示「正面」類別時,對嗎?
    • 直覺:模型是否過於常「哭泣」?
  • 喚回度:(真實陽性) / (所有實際正面)
    • 在所有可能的正值中,有多少模式可以正確辨識?
    • 直覺:錯過任何狼嗎?

請查看下列選項。

考慮使用分類模型,將電子郵件分為以下兩個類別:「垃圾郵件」或「非垃圾郵件」。如果提高分類門檻,精確度會受到什麼影響?
絕對增加。
提高分類門檻通常可提升精確度;不過,提高門檻時,並不保證會遞增。
有可能增加。
一般來說,提高分類門檻會減少偽陽性,導致精確度提高。
有可能減少。
一般來說,提高分類門檻會減少偽陽性,導致精確度提高。
絕對減少。
一般來說,提高分類門檻會減少偽陽性,導致精確度提高。

每個資料點都是以一個決定門檻的 TP 和 FP 費率。

ROC 曲線顯示不同分類門檻的 TP 費率與 FP 費率。
  • AUC:「ROC 曲線下的區域」
  • AUC:「ROC 曲線下的區域」
  • 解釋:
    • 如果您選取隨機隨機和隨機負號,我的模型以正確順序排名的機率為何?
  • AUC:「ROC 曲線下的區域」
  • 解釋:
    • 如果您選取隨機隨機和隨機負號,我的模型以正確順序排名的機率為何?
  • 直覺:匯總所有可能的分類門檻匯總效能
  • 邏輯迴歸預測結果不可偏誤。
    • 預測平均值 == 平均值
  • 邏輯迴歸預測結果不可偏誤。
    • 預測平均值 == 平均值
  • 偏誤是初期測試階段。
    • 無偏誤並不代表系統中的所有設定完成,
    • 但這只是比較好的完整性檢查
  • 如果您設有偏誤,就會遇到問題。
    • 功能組合不完整?
    • 錯誤管道?
    • 偏誤訓練範例?
  • 請勿修正校正層的偏誤,而是修正模型。
  • 請留意資料區塊的偏誤,這可能有助於改善服務品質。
校正圖表