資料準備與特徵工程的程序

這項程序如何?

如先前所述,本課程旨在說明如何建構資料集及轉換資料。

建立資料集包含下列工作:1. 收集原始資料。2. 識別功能和標籤來源。3. 選取取樣策略。
4. 將資料分割。轉換資料包含下列工作:
1. 探索及清理資料。2. 執行特徵工程。

注意事項:

  • 此圖顯示了「一般」程序,可能不適合部分專案。本課程主要適用於線性迴歸和類神經網路。
  • 請注意,顯示的程序不一定每次都會依序。例如,您可能在轉換「之後」分割資料。您可能需要收集更多資料。即使在訓練開始後,你可能需要修改特徵集,因為過程中會學習哪些方法有效與哪些方法無效。

需要多久時間?

針對以下問題,按一下想要的箭頭即可查看答案:

猜猜看:在你的機器學習專案中,您通常會花多少時間來準備資料及進行轉換?
超過一半的專案時間
沒錯:您會將大部分的時間用於機器學習專案,用於建構資料集及轉換資料。
不到專案時間的一半
規劃更多內容!一般而言,機器學習專案有 80% 的時間是用來建構資料集及轉換資料。