製作

如要準備實際工作環境的機器學習管道,請完成下列步驟:

  • 為管道佈建運算資源
  • 導入記錄、監控和快訊功能

佈建運算資源

執行 ML 管道需要運算資源,例如 RAM、CPU 和 GPU/TPU。 如果運算資源不足,您就無法執行管道。因此,請務必取得足夠的配額,以佈建管道在正式環境中執行所需的資源。

  • 服務、訓練和驗證管道。這些管道需要 TPU、GPU 或 CPU。視用途而定,您可能會在不同硬體上訓練及提供服務,也可能使用相同硬體。舉例來說,訓練可能在 CPU 上進行,但服務可能使用 TPU,反之亦然。一般來說,在較大的硬體上訓練模型,然後在較小的硬體上提供服務,是很常見的做法。

    選擇硬體時,請考量下列事項:

    • 可以改用較便宜的硬體訓練模型嗎?
    • 改用其他硬體是否能提升效能?
    • 模型大小為何?哪種硬體可提升模型效能?
    • 根據模型架構,最適合的硬體為何?
  • 資料管道。資料管道需要 RAM 和 CPU 的配額 您需要估算管道生成訓練和測試資料集所需的配額。

您可能不會為每個管道分配配額。而是分配管道共用的配額。在這種情況下,請確認您有足夠配額來執行所有管道,並設定監控和警示,避免單一錯誤管道耗用所有配額。

預估配額

如要估算資料和訓練管道所需的配額,請找出類似專案做為估算依據。如要估算服務配額,請嘗試預測服務的每秒查詢次數。這些方法可做為基準。在實驗階段開始製作解決方案原型時,您會開始取得更精確的配額預估值。

估算配額時,請記得將生產管線和持續進行的實驗配額納入考量。

隨堂測驗

選擇用於提供預測的硬體時,請務必選用比訓練模型時更強大的硬體。
沒錯。一般來說,訓練需要比服務更大的硬體。

記錄、監控和快訊

記錄及監控正式模型行為至關重要。完善的監控基礎架構可確保模型提供可靠的高品質預測。

良好的記錄和監控做法有助於主動找出 ML 管道中的問題,並減輕潛在的業務影響。發生問題時,系統會發出快訊通知團隊成員,而詳盡的記錄則有助於診斷問題的根本原因。

您應實作記錄和監控功能,偵測機器學習管道的下列問題:

pipeline 監控
供應
  • 與訓練資料相比,服務資料出現偏移或漂移
  • 預測結果出現偏差或漂移
  • 資料類型問題,例如缺少或損毀的值
  • 配額使用量
  • 模型品質指標
資料
  • 特徵值中的偏斜和漂移
  • 標籤值中的偏差和漂移
  • 資料類型問題,例如缺少或損毀的值
  • 配額用量比率
  • 即將達到配額上限
訓練
  • 訓練時間
  • 訓練失敗
  • 配額使用量
驗證
  • 測試資料集中的偏斜或漂移

您也需要記錄、監控及快訊功能,以便掌握下列資訊:

  • 延遲時間。預測結果需要多久才能送達?
  • 服務中斷。模型是否已停止提供預測結果?

隨堂測驗

下列哪項是記錄及監控機器學習管道的主要原因?
在問題影響使用者前主動偵測
追蹤配額和資源用量
找出潛在的安全問題
以上皆是
沒錯。記錄及監控機器學習管道有助於預防及診斷問題,避免問題惡化。

部署模型

如要部署模型,建議您記錄下列事項:

  • 必須獲得核准才能開始部署及擴大推出範圍。
  • 如何將模型投入實際工作環境。
  • 模型部署位置,例如是否有暫存或 Canary 環境。
  • 部署作業失敗時的處理方式。
  • 如何復原已在正式環境中使用的模型。

自動化模型訓練後,您會想自動化驗證和部署作業。自動化部署可分散責任,並降低部署作業因單一人員而受阻的可能性。此外,這項功能還能減少潛在錯誤、提高效率和可靠性,並支援輪值和 SRE 支援。

通常您會將新模型部署至部分使用者,確認模型運作正常。如果是,請繼續部署。如果不是,請回溯部署作業,並開始診斷及偵錯問題。