本頁面由 Cloud Translation API 翻譯而成。

機器學習中的資料準備與特徵工程

機器學習技術可協助我們找出資料模式，也就是我們用來預測新資料點的模式。為取得正確的預測結果，我們必須建構資料集和轉換資料。本課程將說明以下兩個關鍵步驟。我們也會看到訓練/放送注意事項的執行步驟。

機器學習專案分為五個階段。1. 定義機器學習問題並提出解決方案。2. 建立資料集。3. 轉換資料。4. 訓練模型。5. 使用模型進行預測。這個課程說明如何建構資料集並轉換資料。

必要條件

本課程假設了：

已完成機器學習密集課程

為什麼要瞭解資料準備與功能工程？

您可以將特徵工程視為協助模型理解資料集的方式。學習者通常會參加以模型建構為主的機器學習課程，但有時可能會花費更多時間專注於資料。

針對以下問題，按一下該箭頭以檢查答案：

如果需要優先改善您在機器學習專案中的一項領域，下列哪一項最有幫助？

資料的品質和大小

數據全都在手上。更新學習演算法或模型架構確實可讓您瞭解不同類型的模式，但如果資料不易，最後就會打造出錯的函式。相較於您使用的演算法，資料集的品質和大小更為重要。

使用最新的最佳化演算法

推送最佳化工具確實會為您帶來某些優勢，但這並不會對您的模型產生其他影響。

更深層的網路

一般網路雖然能夠改善模型品質，但影響程度不受這份清單中的其他項目影響。

更聰明的損失函式

很接近，優質的失真函式可以為您提供大獲成功，但這個商品仍然是這份清單上的其他項目。

為什麼收集「重要資料集」很重要？

Google 翻譯

「...由於類神經機器翻譯已識別出使用的最佳訓練資料子集，因此影響力最大的之一

- Google 翻譯軟體工程師

Google 翻譯團隊使用的訓練資料超過所能使用的量。團隊不調整模型，而是運用資料中的最佳功能贏得更多獎勵。

「...在我嘗試手動對有趣的錯誤錯誤進行偵錯時，系統可能會追溯到訓練資料的問題。」 - Google 翻譯軟體工程師

「有趣外觀」錯誤通常是由資料所造成。無論你嘗試哪種模擬技巧，錯誤資料可能會導致模型學習錯誤的模式。

大腦糖尿病計畫

Google Brain 的糖尿病視網膜病變專案採用類神經網路架構 (稱為 Inception)，透過將圖片分類來偵測疾病。團隊並未調整模型。而是成功建立一組資料集，內含 120,000 個由眼科醫師加上標籤的資料集。(詳情請參閱 https://research.google.com/pubs/pub43022.html)。

流程