實作模型時,請先從簡單的開始。機器學習的大部分工作都與資料有關,因此要讓複雜模型的完整管道運作,比起對模型本身進行疊代更為困難。設定資料管道並實作使用少數特徵的簡單模型後,您可以重複執行這項操作,以建立更優質的模型。
即使您最後沒有推出簡單模型,這類模型仍可提供良好的基準。事實上,使用簡單的模型可能比您想像的更有效。從簡單的模型開始,有助於您判斷複雜模型是否合理。
訓練自己的模型,而不是使用已訓練好的模型
經過訓練的模型可用於各種用途,且具備許多優點。不過,訓練完成的模型只有在標籤和特徵與資料集完全相符時才會運作。舉例來說,如果訓練完成的模型使用 25 項特徵,但資料集只包含其中 24 項,那麼訓練完成的模型很可能會做出錯誤的預測。
一般來說,機器學習專家會使用訓練模型的輸入內容相符的子區段,進行微調或轉移學習。如果沒有針對特定用途訓練的模型,請考慮在訓練自己的模型時,使用已訓練模型的子集。
如要瞭解經過訓練的模型,請參閱
監控
在問題定義期間,請考量機器學習解決方案所需的監控和快訊基礎架構。
模型部署
在某些情況下,新訓練的模型可能比目前在實際環境中使用的模型更差。如果是,您應該避免將其發布至實際環境,並收到自動部署作業失敗的警示。
訓練/應用偏差
如果用於推論的任何輸入特徵值超出訓練資料的分布範圍,系統會發出警示,因為模型可能會做出不準確的預測。舉例來說,如果模型是為了預測赤道海平面城市的溫度而訓練,那麼服務系統應會針對來自緯度、經度和/或海拔高度超出模型訓練範圍的資料發出警示。反之,如果模型做出的預測超出訓練期間觀察到的分布範圍,則提供系統應會發出警示。
推論伺服器
如果您是透過 RPC 系統提供推論,建議您監控 RPC 伺服器,並在該伺服器停止提供推論時收到快訊。