驗證集:其他分區

先前的模組引入了將資料集分區至訓練集和測試集。透過這個分區,您可以依據一組範例進行訓練,然後依據一組不同的範例測試模型。使用兩個分區時,工作流程可能如下所示:

包含三個階段的工作流程圖。1. 使用訓練集訓練模型。2. 用測試集評估模型。3. 根據測試集的結果調整模型。反覆疊代 1、2 和 3,最後挑選出最適合測試集的模型。

圖 1. 可能的工作流程?

在此範例中,「調整模型」是指針對您可夢想的模型調整任何設定,例如變更學習率、新增或移除特徵,以及從頭開始設計全新的模型。完成這個工作流程後,請在「測試集」中挑選最適合的模型。

建議您將資料集分成兩組,但成效不彰。將資料集分區為如下圖的三個子集,即可大幅降低過度配適的機率:

一個水平列分為三部分:70% 是訓練集,15% 驗證集,15% 測試集

圖 2. 將一個資料集分割成三個子集。

使用驗證集評估訓練集的結果。 接著,使用測試集在模型「通過」驗證集「通過」後再次檢查評估。下圖顯示這個新的工作流程:

與圖 1 類似的工作流程,差別在於工作流程不會根據測試集評估模型,而是根據驗證集評估模型。等到訓練集和驗證集更清楚好程度後,您就可以依據測試集確認模型。

圖 3. 更優質的工作流程

在這個改良的工作流程中:

  1. 針對驗證集挑選最合適的模型。
  2. 依據測試集再次檢查該模型。

這是更好的工作流程,因為這麼做會減少測試集的曝光。