機器學習管線總覽

恭喜!模型已準備好部署至實際工作環境機器學習管線。這一節會說明機器學習管線的測試規範。不過,本節「不會」示範這些指南,因為在沙箱環境中無法使用這類示範。

你可以瞭解:

  • 為發布與正式版撰寫合適的測試。
  • 使用測試來偵測機器學習管線中的失敗模式。
  • 評估實際工作環境中的模型品質。

什麼是機器學習管線?

如一個圖所示,機器學習管線包含多個元件。我們稍後會介紹這些元件。目前請注意,「模型」(黑色方塊) 是生產環境機器學習必要管道基礎架構的一小部分。

典型機器學習管線的示意圖。結構定義顯示了多個方塊,每個管道各元件一個方塊。標有「model」方塊的方塊位於結構定義的中心。其他方塊則會排列在「model」模型的附近。這些方塊包括:資料收集、資料驗證、機器資源管理、服務基礎架構、功能擷取、分析工具、程序管理工具、設定和監控功能。
圖 1:典型機器學習管線的示意圖。

機器學習管線中的測試角色

在軟體開發中,理想的工作流程會遵循以測試為準的開發作業 (TDD)。不過,在機器學習中,從測試著手並不簡單。測試內容取決於資料、模型和問題。舉例來說,在訓練模型之前,您可以撰寫測試來驗證損失。您將會找出模型開發期間可達成的損失,然後測試新的模型版本與可達成的損失。

您需要測試以下項目:

  • 正在驗證輸入資料。
  • 驗證特徵工程。
  • 正在驗證新模型版本的品質。
  • 正在驗證供應基礎架構。
  • 測試管道元件之間的整合。