資料集、泛化和過度擬合

簡介

本單元會先提出引導式問題。請選擇下列其中一個答案:

如果您必須優先改善機器學習專案中的下列任一項,哪項會帶來最大影響?
改善資料集品質
優先處理所有數據流量, 資料集的品質和大小比 您用於建構模型的創新演算法
以更聰明的損失函式訓練模型
雖然更優異的損失函式確實有助於加快模型訓練速度,但仍遠遠不及清單中的其他項目。

以下是更具引導性的提問:

猜猜看:在您的機器學習專案中, 您通常是否花在資料準備與轉換?
超過一半的專案時間
是,機器學習從業人員大部分的時間都在使用 建構資料集及進行特徵工程。
不到一半的專案時間
規劃更多資金!通常,在機器學習專案中,80% 的時間都花在建構資料集和轉換資料。

在本單元中,您將進一步瞭解機器學習的特性 以及如何準備資料,確保在短時間內取得高品質結果 來訓練及評估模型