使用分類資料
透過集合功能整理內容
你可以依據偏好儲存及分類內容。
「類別資料」包含
一組可能的值。例如:
- 國家公園內的不同動物
- 特定城市的街道名稱
- 電子郵件是否為垃圾郵件
- 房屋外牆的色彩上色
- 分箱數字,請參閱「使用數值資料」模組
數字也可以是類別資料
是數字資料
可以是有意義的乘數。舉例來說,假設您有一個模型,可根據房屋的面積來預測房屋價值。請注意,用於評估房價的實用模型通常會使用數百個特徵。不過,在其他條件相同的情況下,200 平方公尺的房子價值應是 100 平方公尺房子的兩倍。
通常,您應表示含有整數值的特徵,
而非數值資料舉例來說,假設郵遞區號特徵的值為整數,如果您代表
也就是以數值方式呈現特徵,而非類別
找出數值關係
換取不同的郵遞區號也就是說,您會要求模型
將郵遞區號 20004 視為郵遞區號的兩倍 (或一半)
10002。以郵遞區號表示郵遞區號後,模型就
分別為每個郵遞區號加權。
編碼
編碼是指將類別或其他資料轉換成數值向量
以便訓練模型這種轉換是必要的,因為模型可以
只能在浮點值上訓練無法訓練
"dog"
或 "maple"
。本單元會說明類別資料的不同編碼方法。
除非另有註明,否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權,程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。
上次更新時間:2025-07-27 (世界標準時間)。
[[["容易理解","easyToUnderstand","thumb-up"],["確實解決了我的問題","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["缺少我需要的資訊","missingTheInformationINeed","thumb-down"],["過於複雜/步驟過多","tooComplicatedTooManySteps","thumb-down"],["過時","outOfDate","thumb-down"],["翻譯問題","translationIssue","thumb-down"],["示例/程式碼問題","samplesCodeIssue","thumb-down"],["其他","otherDown","thumb-down"]],["上次更新時間:2025-07-27 (世界標準時間)。"],[],[]]