什麼是機器學習?

機器學習 (ML) 技術是我們使用的重要技術之一,從翻譯應用程式到自駕車,都採用這項技術。本課程說明機器學習背後的基礎概念。

機器學習提供解決問題、回答複雜問題及建立新內容的新方法。機器學習可以預測天氣、估算行程時間、推薦歌曲、自動完成句子、摘要文章,以及生成前所未見的圖片。

簡單來說,機器學習是訓練軟體 (稱為模型) 的過程,目的是根據資料做出實用的預測或生成內容 (例如文字、圖片、音訊或影片)。

舉例來說,假設我們想建立一個應用程式來預測降雨量,我們可以採用傳統方法或機器學習方法。如果採用傳統做法,我們會建立地球大氣和地表的物理模型,並計算大量流體動力學方程式。這項作業非常困難。

我們採用機器學習方法,提供大量天氣資料給機器學習模型,直到模型最終學會產生不同雨量的天氣模式之間的數學關係。接著,我們會將目前的天氣資料提供給模型,模型就會預測降雨量。

隨堂測驗

在機器學習中,「模型」是指什麼?
模型是從資料衍生的數學關係,機器學習系統會使用模型進行預測
模型是電腦硬體
模型是您研究對象的縮小版。

機器學習系統類型

機器學習系統會根據學習預測或生成內容的方式,歸入下列一或多個類別:

  • 監督式學習
  • 非監督式學習
  • 強化學習
  • 生成式 AI

監督式學習

監督式學習模型在看過大量附有正確答案的資料後,就能進行預測,並找出資料中產生正確答案的元素之間的關聯。這就像學生透過研讀舊考題 (包含問題和答案) 學習新教材。學生練習過足夠的舊試題後,就能充分準備好參加新考試。這些機器學習系統會「受到監督」,也就是說,人類會提供已知正確結果的資料給機器學習系統。

監督式學習最常見的兩種用途是迴歸和分類。

迴歸

迴歸模型可預測數值。舉例來說,預測降雨量 (以英吋或毫米為單位) 的天氣模型就是迴歸模型。

下表列出更多迴歸模型範例:

情境 可能的輸入資料 數值預測
未來房價 平方英尺、郵遞區號、臥室和浴室數量、地塊大小、抵押貸款利率、房地產稅率、建造成本,以及該地區待售房屋數量。 房屋價格。
預約行程時間 歷史交通狀況 (從智慧型手機、交通感應器、叫車服務和其他導航應用程式收集)、與目的地的距離,以及天氣狀況。 抵達目的地的時間 (以分鐘和秒為單位)。

分類

分類模型會預測某個項目屬於某個類別的可能性。迴歸模型會輸出數字,而分類模型則會輸出值,指出某個項目是否屬於特定類別。舉例來說,分類模型可用於預測電子郵件是否為垃圾郵件,或相片是否含有貓。

分類模型分為兩類:二元分類和多類別分類。二元分類模型會從只包含兩個值的類別輸出值,例如輸出 rainno rain 的模型。多重類別分類模型會從包含兩個以上值的類別輸出值,例如可輸出 rainhailsnowsleet 的模型。

隨堂測驗

如果要使用機器學習模型預測商業建築的能源用量,您會使用哪種模型?
迴歸
能源用量是以千瓦時 (kWh) 為單位,屬於數值,因此您會想使用迴歸模型。
分類
分類模型會預測某個項目是否屬於某個類別,而迴歸模型則會預測數字。由於能源用量是以千瓦時 (kWh) 為單位,因此您會想使用迴歸模型。

非監督式學習

非監督式學習模型旨在找出資料集中的有意義模式。舉例來說,許多非監督式學習模型會採用稱為「分群」的技術,將類似資料歸入群組 (「叢集」)。

圖片:顯示叢集中的彩色點。

圖 1. 機器學習模型會將相似的資料點分群。

圖片:顯示以形狀和邊框彼此圍繞的叢集中的彩色點。

圖 2. 具有自然分界線的叢集群組。

分群與分類不同,因為類別不是由您定義。舉例來說,非監督式模型可能會根據溫度將天氣資料集分群,揭露定義季節的區隔。然後根據您對資料集的瞭解,嘗試為這些叢集命名。

圖片:顯示以顏色區分的點狀叢集,標示為下雪、下雨、下冰雹和無雨。

圖 3. 機器學習模型會將類似的天氣模式歸類為同一群組。

圖片:顯示以顏色區分的點狀叢集,分別標示為雪、雨、冰雹和無雨,並以形狀和邊框彼此區隔。

圖 4. 標示為下雪、雨夾雪、下雨和無雨的天氣模式叢集。

隨堂測驗

監督式做法與非監督式做法有何不同?
監督式方法會取得包含正確答案的資料。
監督式方法會取得包含正確答案的資料。 模型的工作是找出資料中的關聯,產生正確答案。 非監督式方法會收到沒有正確答案的資料。這項工作是找出資料中的分組。
監督式做法通常會使用分群。
非監督式方法會使用分群。
非監督式方法瞭解如何為資料叢集加上標籤。
非監督式方法無法瞭解資料叢集的意義。 您可以根據對資料的瞭解程度自行定義。

強化學習

增強學習模型會根據環境中執行的動作,獲得獎勵或懲罰,藉此進行預測。增強學習系統會產生政策,定義爭取最多獎勵的最佳策略。

強化學習可用於訓練機器人執行任務 (例如在房間內走動),以及訓練軟體程式 (例如 AlphaGo) 下圍棋。

生成式 AI

生成式 AI 是一類模型,可根據使用者輸入內容生成內容。例如,生成式 AI 可以創作獨特的圖像、音樂和笑話,也可以摘要文章、說明如何執行工作,或編輯相片。

生成式 AI 可接受各種輸入內容,並生成文字、圖片、音訊和影片等各種輸出內容。也可以擷取這些內容並建立組合。舉例來說,模型可以輸入圖片,然後輸出圖片和文字,也可以輸入圖片和文字,然後輸出影片。

我們可以根據生成模型的輸入和輸出內容來討論,通常會寫成「輸入類型」-「輸出類型」。舉例來說,以下是生成模型的部分輸入和輸出內容清單:

  • 文字轉文字
  • 文字轉圖片
  • 文字轉影片
  • 文字轉程式碼
  • 文字轉語音
  • 圖像和文字轉圖像

下表列出生成模型、輸入內容和可能的輸出內容範例:

型號 輸入 輸出範例
文字轉文字 利曼大賽是誰發明的? 勒芒 24 小時耐力賽由西方汽車俱樂部 (ACO) 創立,該汽車組織成立於 1906 年。第一場賽事於 1923 年 5 月 26 日和 27 日在薩爾特賽道舉行,這條 13.426 公里 (8.345 英里) 的公路賽道位於法國勒芒鎮附近。這項賽事最初的構想是為了宣傳 ACO 和薩爾特地區。
來源:Bard
文字轉圖片 外星章魚一邊看報紙,一邊穿過入口。 卡通章魚的圖片。
來源:Imagen
文字轉影片 一隻擬真泰迪熊在舊金山的海中游泳。 泰迪熊潛入水中。泰迪熊繼續在水下與色彩繽紛的魚群一起游泳。熊貓在水下游泳。 泰迪熊在水下游泳的影片。
來源:Phenaki
文字轉程式碼 編寫 Python 迴圈,疊代數字清單並列印質數。
for number in numbers:
  # Check if the number is prime.
  is_prime = True
  for i in range(2, number):
    if number % i == 0:
        is_prime = False
        break
  # If the number is prime, print it.
  if is_prime:
    print(number)

來源:Bard
圖片轉文字 火鶴的圖片。 這是火鶴。這種魚分布於加勒比海。
資料來源: Google DeepMind

生成式 AI 的運作方式為何?大致來說,生成式模型會學習資料中的模式,目標是產生類似的新資料。生成模型包括:

  • 觀察他人的行為和說話方式,並模仿這些特徵的喜劇演員
  • 藝術家透過研究大量特定風格的畫作,學會以該風格繪畫
  • 模仿樂團:透過聆聽特定樂團的大量音樂,學習如何發出類似的聲音

為生成獨特且富有創意的內容,生成模型一開始會採用非監督式方法訓練,讓模型學習模仿訓練資料。有時會使用監督式或強化學習,針對模型可能執行的工作 (例如摘要文章或編輯相片) 相關特定資料,進一步訓練模型。

生成式 AI 發展迅速,新的應用方式不斷湧現。舉例來說,生成模型可自動移除令人分心的背景,或提升低解析度圖片的品質,協助商家改善電子商務產品圖片。