瞭解問題

如要瞭解問題,請執行以下工作:

  • 請說明您要開發或重構的產品目標。
  • 使用預測式機器學習、生成式 AI 或非機器學習解決方案,判斷目標是否最適合解決。
  • 如果您使用預測式機器學習方法,請確認您具備訓練模型所需的資料。

說明目標

首先,以非機器學習的術語說明你的目標。我們的目標是透過 「我想要達成什麼目標?」這個問題

下表明確列出假設應用程式的目標:

應用程式 目標
「天氣」應用程式 計算特定地理區域的降水量 (以六小時為單位遞增)。
時尚應用程式 生成多款襯衫設計。
影片應用程式 推薦實用影片。
郵件應用程式
財務應用程式 匯總多個新聞來源的財務資訊。
地圖應用程式 計算交通時間。
銀行服務應用程式 識別詐欺交易。
餐廳應用程式 依餐廳菜單辨識料理類型。
電子商務應用程式 回覆評論並提供實用解答。

明確的機器學習用途

部分觀點是一套通用工具,可用來處理所有問題。實際上,機器學習是一種專門用於特定問題的特殊工具。您不希望實作複雜的機器學習解決方案,因為簡單的非機器學習解決方案能正常運作。

機器學習系統可分為兩大類別:預測機器學習生成式 AI。下表列出定義特性:

輸入內容 輸出內容 訓練技巧
預測式機器學習 文字
圖片
音訊
影片
數值
進行預測,例如將電子郵件分類為垃圾郵件或非垃圾郵件、猜測明天的雨水,或預測股票價格。輸出結果通常可以依據實際情況驗證。 通常會使用大量資料來訓練監督式、非監督式或強化學習模型,以執行特定工作。
生成式 AI 文字
圖片
音訊
影片
數值
根據使用者的意圖產生輸出內容,例如匯總文章,或是製作音訊片段或短片。 通常會使用大量的未加上標籤資料來訓練大型語言模型或圖片產生器,以便填補缺少的資料。接著,這個模型就能用於頁框內容為空白任務,或是針對某些特定任務 (例如分類) 使用加上標籤的資料進行訓練,藉此微調模型。

如要確認機器學習是否為適當的做法,請先確認目前的非機器學習解決方案已最佳化。如果您沒有實作非機器學習解決方案,請嘗試使用經驗法則手動解決問題。

非機器學習解決方案是您將用於判斷機器學習是否為問題用途的基準。比較非機器學習方法與機器學習方法時,請考慮以下問題:

  • 品質:您認為機器學習解決方案的影響力有多大?如果您認為機器學習解決方案只是一個微小的改善,可能表示目前的解決方案是最佳選擇。

  • 費用和維護。機器學習解決方案在短期和長期方面有多高?在某些情況下,所需運算資源和實作機器學習的成本會大幅增加。請考慮以下問題:

    • 機器學習解決方案是否能證明成本增加的正當性?請注意,大型系統的細微改善可以輕鬆證明實作機器學習解決方案的成本和維護成本。
    • 解決方案需要多少維護作業?在許多情況下,機器學習實作需要專屬的長期維護。
    • 您的產品是否擁有協助訓練或聘用具備機器學習專業知識的人員?

測驗您的瞭解程度

在分析機器學習解決方案前,先具備非機器學習解決方案或經驗法則的重要性?
非機器學習解決方案是衡量機器學習解決方案的基準。
非機器學習解決方案可協助您判斷機器學習解決方案的成本。

預測式機器學習和資料

資料是預測機器學習的驅動力。如要進行良好的預測,您需要包含具有預測能力的特徵的資料。資料必須具備以下特性:

  • 豐富資料集中相關且實用的範例,模型就會越好。

  • 穩定一致且可靠:提供持續可靠且可靠的資料,將產生更好的模型。舉例來說,以機器學習為基礎的天氣模型會使用多年來透過相同可靠設備收集到的資料。

  • 可信任:瞭解資料來源這些資料是由您控管的受信任來源 (例如產品中的記錄檔) 產生,還是來自您無法深入瞭解的來源 (例如其他機器學習系統的輸出內容)?

  • 可用。確認在預測時可用正確的格式取得所有輸入內容。如果無法在預測時間取得某些特徵值,請從資料集中省略這些功能。

  • 「答對」。在大型資料集中,部分標籤會出現不正確的值,但如果超過一小部分的標籤有誤,模型就會產生不佳的預測結果。

  • 代表性:資料集應盡可能代表真實世界。換句話說,資料集應準確反映模擬現實世界的事件、使用者行為及/或現象。系統要求模型進行實際的預測時,對缺乏代表性的資料集進行訓練可能會導致效能不佳。

如果您無法以所需格式取得所需資料,模型就會提供預測結果不準確。

預測能力

資料集內的特徵應具備預測能力,才能準確預測模型。特徵與標籤的關聯性越高,就越有可能進行預測。

部分功能的預測能力比其他功能更強大。例如,在天氣資料集中,cloud_coveragetemperaturedew_point 等特徵會比 moon_phaseday_of_week 更能預測雨勢。以影片應用程式範例來說,您可以假設 video_descriptionlengthviews 等功能是適合預測使用者想觀看的影片。

請注意,由於情境或網域變更,特徵的預測能力可能會改變。舉例來說,影片應用程式中的 upload_date 等功能可能 (通常來說) 與該標籤不太相關。不過,在遊戲影片的子網域中,upload_date 可能會與標籤密切相關。

判斷哪些特徵具有預測能力,可能需要耗費大量時間。您可以在訓練模型時移除及新增特徵,手動探索特徵的預測能力。您可以使用皮爾森相關性調整後的共同資訊 (AMI)Shapley 值等演算法,自動找出特徵的預測能力。

測驗您的瞭解程度

分析資料集時,您應查看哪三項重要屬性?
代表現實世界。
包含正確的值。
功能可預測標籤的效能。
體積小,可以載入本機電腦。
收集自多種不可預測的來源。

如需分析與準備資料集的更多指引,請參閱適用於機器學習的資料準備和特徵工程一文。

預測和動作

如果您無法將預測轉化為有助於使用者的動作,那麼預測作業就沒有任何價值。也就是說,您的產品應根據模型的輸出結果採取行動。

舉例來說,假如模型預測使用者是否會找到適合的影片,就應動態饋給到推薦實用影片的應用程式中。這個模型可預測是否會下雨到天氣應用程式。

測驗您的瞭解程度

根據下列情境,判斷使用機器學習是否為解決問題的最佳方法。

大型機構的工程團隊負責管理來電。

目標:指出來電者根據目前的通話音量,將通話等候的時間長度。

他們目前沒有提供任何解決方案,但他們認為有一個經驗法是,將目前保留中的客戶人數除以會接電話的員工人數,再乘以 10 分鐘。然而,他們知道有些客戶會在兩分鐘內解決問題,而有些客戶最久可能需要 45 分鐘以上的時間。

然而,他們的經驗法則可能無法取得準確的數字。他們可以建立含有下列資料欄的資料集:number_of_callcenter_phonesuser_issuetime_to_resolvecall_timetime_on_hold

使用機器學習。工程團隊明確訂立了目標。他們的經驗法則無法滿足他們的使用需求。資料集似乎具有「time_on_hold」標籤的預測特徵。
不要使用機器學習。雖然已有明確定義的目標,但他們仍應先實作非機器學習解決方案並進行最佳化。此外,這類資料集的資料集似乎不足以具備預測能力所需的足夠特徵。