機器學習中的資料準備與特徵工程

機器學習技術可協助我們找出資料模式,也就是我們用來預測新資料點的模式。為取得正確的預測結果,我們必須建構資料集轉換資料。本課程將說明以下兩個關鍵步驟。我們也會看到訓練/放送注意事項的執行步驟。

機器學習專案分為五個階段。1. 定義機器學習問題並提出解決方案。2. 建立資料集。3. 轉換資料。4. 訓練模型。5. 使用模型進行預測。這個課程說明如何建構資料集並轉換資料。

必要條件

本課程假設了:

為什麼要瞭解資料準備與功能工程?

您可以將特徵工程視為協助模型理解資料集的方式。學習者通常會參加以模型建構為主的機器學習課程,但有時可能會花費更多時間專注於資料。

針對以下問題,按一下該箭頭以檢查答案:

如果需要優先改善您在機器學習專案中的一項領域,下列哪一項最有幫助?
資料的品質和大小
數據全都在手上。更新學習演算法或模型架構確實可讓您瞭解不同類型的模式,但如果資料不易,最後就會打造出錯的函式。相較於您使用的演算法,資料集的品質和大小更為重要。
使用最新的最佳化演算法
推送最佳化工具確實會為您帶來某些優勢,但這並不會對您的模型產生其他影響。
更深層的網路
一般網路雖然能夠改善模型品質,但影響程度不受這份清單中的其他項目影響。
更聰明的損失函式
很接近,優質的失真函式可以為您提供大獲成功,但這個商品仍然是這份清單上的其他項目。

為什麼收集「重要資料集」很重要?

Google 翻譯

「...由於類神經機器翻譯已識別出使用的最佳訓練資料子集,因此影響力最大的之一

- Google 翻譯軟體工程師

Google 翻譯團隊使用的訓練資料超過所能使用的量。 團隊不調整模型,而是運用資料中的最佳功能贏得更多獎勵。

 

 

 

「...在我嘗試手動對有趣的錯誤錯誤進行偵錯時,系統可能會追溯到訓練資料的問題。」 - Google 翻譯軟體工程師

「有趣外觀」錯誤通常是由資料所造成。無論你嘗試哪種模擬技巧,錯誤資料可能會導致模型學習錯誤的模式。

 

 

大腦糖尿病計畫

Google Brain 的糖尿病視網膜病變專案採用類神經網路架構 (稱為 Inception),透過將圖片分類來偵測疾病。團隊並未調整模型。而是成功建立一組資料集,內含 120,000 個由眼科醫師加上標籤的資料集。(詳情請參閱 https://research.google.com/pubs/pub43022.html)。