數值資料:拖曳
透過集合功能整理內容
你可以依據偏好儲存及分類內容。
而蘋果樹會混合著大量的果實和惡劣。
而高級雜貨店的蘋果店卻顯示 100% 完美的水果。
有人穿著果園和雜貨店,有人花很多時間拆除
有不好的蘋果,或在可賺取的鹽水上噴出一根蠟筆。
身為機器學習工程師的你
找出不好的例子並清理可獲利的例子。
就算是少數壞蘋果,也可能會破壞大型資料集。
資料集的許多範例並不可靠
下列問題:
| 問題類別 | 範例 |
| 省略的值 |
人口普查家未能記錄居民的年齡。 |
| 重複的範例 |
伺服器上傳了兩次相同的記錄。 |
| 超出範圍的特徵值。 |
人類不小心輸入了額外數字。 |
| 標籤有誤 |
人工評估人員誤將橡樹的相片標示為
Maple. |
您可以編寫程式或指令碼來偵測下列問題:
例如,下列資料集含有六個重複的值:
圖 15。 前六個值會重複。
再舉一個例子,假設某項特徵的溫度範圍必須
介於 10 到 30 度 (含首尾) 之間。但意外發生了 - 或許是
溫度計會暫時曝露在陽光下,導致異常異常情況發生。
程式或指令碼必須標示小於 10 的溫度值
超過 30:
圖 16。 超出範圍的值。
如果標籤是由多位使用者產生,建議您計算統計數字
判斷每個評分者是否產生相等的標籤組合。
也許 一位評分者的評分者比其他評分者來得高
有一套不同的評分標準?
偵測到問題後,您通常必須「修正」包含錯誤功能的例子
或是錯誤標籤
詳情請參閱
資料特性
的
資料集、一般化和過度配適
後續課程我們將逐一介紹
預先訓練的 API、AutoML 和自訂訓練
除非另有註明,否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權,程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。
上次更新時間:2024-08-13 (世界標準時間)。
[[["容易理解","easyToUnderstand","thumb-up"],["確實解決了我的問題","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["缺少我需要的資訊","missingTheInformationINeed","thumb-down"],["過於複雜/步驟過多","tooComplicatedTooManySteps","thumb-down"],["過時","outOfDate","thumb-down"],["翻譯問題","translationIssue","thumb-down"],["示例/程式碼問題","samplesCodeIssue","thumb-down"],["其他","otherDown","thumb-down"]],["上次更新時間:2024-08-13 (世界標準時間)。"],[],[]]