如何判斷導入機器學習是否值得?您應該何時開始慶祝:模型投入生產並提供第一項預測後,還是只有在量化業務指標開始朝正確方向發展時?
在開始專案之前,請務必先定義成功指標,並確認交付項目。您需要定義並追蹤下列兩種類型的指標:
業務指標
業務指標最重要。這是您使用機器學習的原因:您想要改善業務。
首先,請從可量化的產品或業務指標著手。指標應盡可能細緻且具體。以下是可量化的業務指標範例:
- 將資料中心的每月電費降低 30%。
- 產品推薦帶來的收益增加 12%。
- 點閱率提高 9%。
- 選擇加入問卷調查的顧客情緒提升 20%。
- 網頁停留時間增加 4%。
追蹤業務指標
如果您未追蹤想改善的商家指標,請先導入相關基礎架構。如果您目前未評估點閱率,設定點閱率提高 15% 的目標並不合理。
更重要的是,請務必評估問題的正確指標。 舉例來說,如果推薦內容帶來的收益是更重要的指標,就不要花時間編寫插碼來追蹤點閱率。
隨著專案進展,您會發現目標成功指標是否實際可行。在某些情況下,您可能會根據定義的成功指標,判斷專案不可行。
模型指標
何時應將模型投入實際運作?當 AUC 達到特定值時?模型達到特定 F1 分數時,這個問題的答案取決於您要解決的問題類型,以及您認為需要改善業務指標的預測品質。
決定要使用哪些指標評估模型時,請考慮下列事項:
決定要最佳化的單一指標。舉例來說,分類模型可根據各種指標 (AUC、AUC-PR 等) 進行評估。如果不同指標偏好不同模型,選擇最佳模型可能會很困難。因此,請同意使用單一指標來評估模型。
決定要達成的可接受目標。可接受度目標與模型評估指標不同。這些指標是指模型必須達成的目標,才能符合預期用途。舉例來說,可接受度目標可能是「錯誤輸出內容的比例低於 0.1%」,或是「前五大類別的召回率高於 97%」。
舉例來說,假設二元分類模型會偵測詐欺交易。最佳化指標可能是喚回度,而可接受目標可能是精確度。換句話說,我們會優先考量召回率 (大部分時間都能正確識別詐欺行為),同時希望精確度維持在特定值以上 (識別出真正的詐欺交易)。
模型指標與業務指標之間的關聯
從根本上來說,您要開發的模型預測品質,與業務指標之間存在因果關係。出色的模型指標不一定代表業務指標有所改善。您的團隊可能會開發出指標表現亮眼的模型,但模型的預測結果可能無法改善業務指標。
如果對模型的預測品質感到滿意,請嘗試判斷模型的指標對業務指標有何影響。通常團隊會將模型部署給 1% 的使用者,然後監控業務指標。
舉例來說,假設您的團隊開發出可預測顧客流失情況的模型,以提高收益。從理論上來說,如果可以預測顧客是否可能離開平台,就能鼓勵他們繼續使用。
您的團隊建立的模型預測品質達 95%,並針對一小部分使用者進行測試。但收益並未增加。客戶流失率實際上會增加。可能原因如下:
預測結果出現的時間太晚,無法採取行動。模型只能預測七天內的顧客流失情況,無法及時提供獎勵,讓顧客繼續使用平台。
功能不完整。可能還有其他因素導致顧客流失,但這些因素並未納入訓練資料集。
門檻不夠高。模型可能需要達到 97% 以上的預測品質,才能發揮效用。
這個簡單的範例凸顯了兩點:
- 請務必及早進行使用者測試,證明 (並瞭解) 模型指標與業務指標之間的關聯。
- 模型指標表現良好,並不保證業務指標會有所改善。
生成式 AI
評估生成式 AI 輸出內容時,會遇到獨特的挑戰。在許多情況下,例如開放式或創意輸出內容,評估難度會比傳統機器學習輸出內容更高。
LLM 可根據各種指標進行評估。評估模型時要使用哪些指標,取決於您的用途。
注意事項
請勿將模型成效與業務成效混為一談。換句話說,指標表現出色的模型不一定能保證業務成功。
許多技術精湛的工程師都能建立指標出色的模型。訓練出足夠好的模型通常不是問題,而是模型無法改善業務指標。如果業務指標和模型指標不一致,機器學習專案就可能失敗。