下列問題有助於加深您對機器學習核心概念的瞭解。
預測能力
監督式機器學習模型會使用含有標籤範例的資料集進行訓練。模型會學習如何根據特徵預測標籤。不過,並非資料集中的所有特徵都具有預測能力。在某些情況下,只有少數特徵可做為標籤的預測因子。在下列資料集中,請將價格做為標籤,其餘資料欄則做為特徵。
你認為哪三項特徵最能預測車輛價格?
廠牌_型號、年份、里程數。
車輛的廠牌/型號、年份和里程數,很可能是車輛價格最強大的預測因子。
顏色、高度、品牌_型號。
車輛的高度和顏色並非車輛價格的強烈預測因子。
里程數、變速箱、製造商和型號。
變速箱並非價格的主要預測因素。
輪胎尺寸、輪距、年份。
輪胎尺寸和輪距並非預測車輛價格的可靠指標。
監督式學習與非監督式學習
視問題而定,您可以使用監督式或非監督式方法。 舉例來說,如果您預先知道要預測的值或類別,就會使用監督式學習。不過,如果您想瞭解資料集是否包含任何相關範例的區隔或分組,則會使用非監督式學習。
假設您有線上購物網站的使用者資料集,其中包含下列資料欄:
如果想瞭解網站訪客類型,你會使用監督式學習還是非監督式學習?
非監督式學習。
因為我們希望模型將相關顧客分組,因此會使用非監督式學習。模型將使用者分群後,我們會為每個群組建立自己的名稱,例如「折扣尋求者」、「特惠獵人」、「瀏覽者」、「忠實顧客」和「漫遊者」。
監督式學習,因為我嘗試預測使用者所屬的類別。
在監督式學習中,資料集必須包含您要預測的標籤。資料集中沒有參照使用者類別的標籤。
假設您有住家的能源使用量資料集,其中包含下列資料欄:
如果要預測新建房屋每年使用的千瓦小時數,您會使用哪種機器學習?
監督式學習。
監督式學習會使用加上標籤的範例進行訓練。在這個資料集中,「每年使用的千瓦時數」會是標籤,因為這是您希望模型預測的值。這些特徵包括「面積」、「位置」和「建造年份」。
非監督式學習。
非監督式學習會使用未加上標籤的範例。在本例中,「每年使用的千瓦時數」就是標籤,因為這是您希望模型預測的值。
假設您有一個航班資料集,其中包含下列資料欄:
如果想預測機票價格,您會使用迴歸還是分類?
迴歸
迴歸模型的輸出內容是數值。
分類
分類模型的輸出內容是離散值,通常是單字。在本例中,機票費用是數值。
根據資料集,您是否可以訓練分類模型,將機票價格分類為「高」、「平均」或「低」?
可以,但我們必須先將「
airplane_ticket_cost」欄中的數值轉換為類別值。您可以從資料集建立分類模型。
請執行下列類似動作:
- 找出從出發機場到目的地機場的平均票價。
- 判斷「高」、「平均」和「低」的門檻。
- 將預測費用與門檻進行比較,並輸出該值所屬的類別。
否,無法建立分類模型。這些
airplane_ticket_cost值是數值,而非類別。只要稍加努力,就能建立分類模型。
否。分類模型只會預測兩個類別,例如
spam 或 not_spam。這個模型需要預測三個類別。分類模型可以預測多個類別。這類模型稱為多元分類模型。
訓練與評估
訓練模型後,我們會使用含有標籤範例的資料集評估模型,並比較模型的預測值與標籤的實際值。
請選取兩個最合適的答案。
如果模型的預測結果與實際情況相差甚遠,您可能會採取哪些行動來改善預測結果?
重新訓練模型,但只使用您認為對標籤預測能力最強大的特徵。
使用較少的特徵重新訓練模型,但這些特徵的預測能力較強,這樣產生的模型就能做出更準確的預測。
如果模型的預測結果與實際情況相差甚遠,就無法修正。
如果模型預測結果不準確,可以修正。大多數模型都需要經過多輪訓練,才能做出有用的預測。
使用更大且更多元的資料集重新訓練模型。
如果訓練模型時使用的資料集包含更多範例和更廣泛的值,模型就能產生更準確的預測結果,因為模型能更妥善地概括特徵和標籤之間的關係。
嘗試其他訓練方式。舉例來說,如果您使用監督式方法,請嘗試非監督式方法。
不同的訓練方法不會產生更準確的預測結果。
現在,您已準備好在機器學習歷程中邁出下一步:
機器學習密集課程。如果您已準備好深入瞭解機器學習,並親自實作。
問題界定。如果您想尋找經過實地測試的方法,以建立機器學習模型並避免常見錯誤。
使用者 + AI 指南。如果您想尋找設計以人為本的 AI 產品實用指南。