本頁面由 Cloud Translation API 翻譯而成。

表示法：清理資料

蘋果樹會結出一些很棒的水果和惡劣的混凝土。然而，高級雜貨店裡的蘋果則展示了 100% 的完美水果。在果園和雜貨店之間，有人花費大量時間移除壞的蘋果，或對可回收的蘋果丟些微蠟。機器學習工程師會花大量時間找出不良示例，並清除可回收的例子。就算是好幾個「糟糕的蘋果」，還是可能會破壞龐大的資料集。

縮放特徵值

「資源調度」是指將浮點特徵值從自然範圍 (例如 100 到 900) 轉換成標準範圍 (例如，0 到 1 或 -1 到 +1)。如果功能集只包含單一功能，資源調度幾乎沒有實質效益。但是，如果特徵集包含多個功能，特徵縮放功能可提供下列優點：

協助梯度下降法加速收斂。
防止出現「NaN 陷阱」，讓模型中的一個數字變成 NaN (例如在訓練期間超過浮點精確度限制) 並基於數學運算，讓模型中的所有其他數字最終成為 NaN。
協助模型學習每個特徵的適當權重。如果沒有特徵縮放功能，模型會過度關注範圍較廣的特徵。

您不必為每個浮點特徵指定相同的比例。如果功能 B 從 -1 提高到 +1，而功能 B 從 -3 提高至 +3，則不會造成任何嚴重影響。不過，如果特徵 B 從 5000 調整為 100000，模型的反應就會不佳。

按一下加號圖示，進一步瞭解如何縮放。

將數值資料縮放顯而易見的方法之一，就是將 [最小值、最大值] 線性對應到小尺寸，例如 [-1, +1]。

另一個常見的資源調度策略是計算每個值的 Z 分數。Z 分數與平均值之間的標準差數相關。換句話說：

$$scaled value = (value - mean) / stddev.$$

舉例來說，假設有：

平均值 = 100
標準差 = 20
原始值 = 130

然後：

  scaled_value = (130 - 100) / 20
  scaled_value = 1.5

根據 Z 分數執行資源調度表示，比例最高的值介於 -3 和 +3 之間，但有幾個值略高於或低於該範圍。

處理極端離群值

下圖代表加州住宅資料集中名為 roomsPerPerson 的功能。roomsPerPerson 值的計算方式是將某區域的房產總數除以該區域的人口數。圖顯示加州的大部分區域，每人都有一到兩個房間。但建議你沿著 X 軸查看

RoomPerPerson 的圖有幾乎所有值都聚集在 0 到 4 之間，但其實還有一道生氣的長尾，一路延伸到每人 55 間房間

圖 4 一隻憤怒的惡棍龍尾。

我們該如何盡可能降低這些極端離群值的影響？其中一種做法是擷取每個值的記錄：

顯示 99% 數值的 Log(roomsPerPerson) 圖中有 99% 的數值在 0.4 至 1.8 之間，但仍然有 4.2 以上的長尾長尾。

圖 5 對數縮放仍留下尾數。

記錄資源調度執行的工作有點更優質的工作，但離群值仍然存在很大的尾。我們再選擇一種方法。如果直接「大寫」或「clip」為任意值 (例如 4.0) 的 roomsPerPerson 最大值，該怎麼做？

RoomPerPerson 的圖表，所有值皆介於 -0.3 和 4.0 之間。路標是鐘形，但 4.0 時有異常山丘

圖 6 從 4.0 版剪輯特徵值

將特徵值裁剪為 4.0 並不代表系統會忽略所有大於 4.0 的值。而是所有大於 4.0 的值現在都會變為 4.0。這說明瞭 4.0 吋的有趣山丘。儘管山坡地勢很高，經過縮放的特徵集現在也比原始資料更加實用。

特徵分塊

下圖顯示加州不同緯度的房屋相對分佈情形。請注意，分群法約在緯度 34 度，而舊金山約在緯度 38 度。

按緯度顯示的房屋圖。土地上標示相當不規律，包含緯度 36 左右的許多燈，在緯度 34 和 38 左右會有大幅高峰。

圖 7. 每一層樓。

在資料集中，latitude 是浮點值。不過，在我們的模型中將 latitude 表示為浮點地圖項目並不合理。這是因為緯度值和居住值之間不存在線性關係。舉例來說，緯度 35 的房屋不比緯度 34 的房屋 $\frac{35}{34}$ 便宜 (或較低)。而個別緯度很可能是房屋價值的預測指標

如要將緯度設為實用的預測工具，讓我們將緯度分割成「特徵分塊」，如下圖所示：

圖 8. 特徵分塊值。

現在，我們不再擁有一個浮點地圖項目，而是有 11 個不同的布林地圖項目 (LatitudeBin1、LatitudeBin2、...、LatitudeBin11)。提供 11 個獨立的地圖項目有些可能的重要性，因此我們要將這些地圖項目合而為單一 11 元素向量。如此將使我們能以下列方式表示緯度 37.4：