Hồi quy tuyến tính: Mất

Mất mát là một chỉ số bằng số mô tả mức độ sai lệch của dự đoán của một mô hình. Mất mát đo lường khoảng cách giữa các dự đoán của mô hình và nhãn thực tế. Mục tiêu của việc huấn luyện một mô hình là giảm thiểu tổn thất, giảm xuống giá trị thấp nhất có thể.

Trong hình ảnh sau, bạn có thể hình dung tổn thất dưới dạng các mũi tên được vẽ từ các điểm dữ liệu đến mô hình. Các mũi tên cho biết mức độ chênh lệch giữa kết quả dự đoán của mô hình và giá trị thực tế.

Hình 9. Các đường tổn thất kết nối các điểm dữ liệu với mô hình.

Hình 9. Mức tổn thất được đo từ giá trị thực tế đến giá trị dự đoán.

Khoảng cách mất tín hiệu

Trong thống kê và học máy, tổn thất đo lường sự khác biệt giữa giá trị dự đoán và giá trị thực tế. Hàm mất mát tập trung vào khoảng cách giữa các giá trị, chứ không phải hướng. Ví dụ: nếu một mô hình dự đoán là 2, nhưng giá trị thực tế là 5, thì chúng ta không quan tâm đến việc tổn thất là âm ($ 2-5=-3 $). Thay vào đó, chúng ta quan tâm đến khoảng cách giữa các giá trị là $ 3 $. Do đó, tất cả các phương thức tính toán tổn thất đều loại bỏ dấu.

Sau đây là 2 phương pháp phổ biến nhất để xoá biển báo:

  • Lấy giá trị tuyệt đối của mức chênh lệch giữa giá trị thực tế và giá trị dự đoán.
  • Bình phương sự chênh lệch giữa giá trị thực tế và giá trị dự đoán.

Các loại tổn thất

Trong hồi quy tuyến tính, có 4 loại tổn thất chính được trình bày trong bảng sau.

Loại tổn thất Định nghĩa Phương trình
MấtL1 Tổng giá trị tuyệt đối của độ chênh lệch giữa giá trị dự đoán và giá trị thực tế. $ ∑ | actual\ value - predicted\ value | $
Sai số tuyệt đối trung bình (MAE) Giá trị trung bình của các tổn thất L1 trên một tập hợp gồm *N* ví dụ. $ \frac{1}{N} ∑ | giá\ trị\ thực\ tế - giá\ trị\ dự\ đoán | $
L2 loss Tổng của bình phương hiệu số giữa các giá trị dự đoán và giá trị thực tế. $ ∑(giá\ trị\ thực\ tế – giá\ trị\ dự\ đoán)^2 $
Sai số bình phương trung bình (MSE) Giá trị trung bình của các tổn thất L2 trên một tập hợp gồm *N* ví dụ. $ \frac{1}{N} ∑ (giá\ trị\ thực\ tế - giá\ trị\ dự\ đoán)^2 $

Sự khác biệt về chức năng giữa tổn thất L1 và tổn thất L2 (hoặc giữa MAE và MSE) là bình phương. Khi có sự khác biệt lớn giữa dự đoán và nhãn, việc bình phương sẽ khiến tổn thất lớn hơn nữa. Khi sự khác biệt nhỏ (dưới 1), việc bình phương sẽ làm cho tổn thất nhỏ hơn nữa.

Khi xử lý nhiều ví dụ cùng một lúc, bạn nên tính trung bình các tổn thất trên tất cả các ví dụ, cho dù sử dụng MAE hay MSE.

Ví dụ về cách tính tổn thất

Bằng cách sử dụng đường phù hợp nhất trước đó, chúng ta sẽ tính toán tổn thất L2 cho một ví dụ duy nhất. Từ đường phù hợp nhất, chúng ta có các giá trị sau cho trọng số và độ lệch:

  • $ \small{Trọng số: -4,6} $
  • $ \small{Độ lệch: 34} $

Nếu mô hình dự đoán rằng một chiếc ô tô nặng 2.370 pound đi được 23,1 dặm/gallon, nhưng thực tế là chiếc xe đó đi được 26 dặm/gallon, thì chúng ta sẽ tính tổn thất L2 như sau:

Giá trị Phương trình Kết quả
Dự đoán

$\small{bias + (weight * feature\ value)}$

$\small{34 + (-4.6*2.37)}$

$\small{23.1}$
Giá trị thực tế $ \small{ label } $ $ \small{ 26 } $
Tổn thất L2

$ \small{ (giá\ trị\ thực\ tế - giá\ trị\ dự\ đoán)^2 } $

$\small{ (26 – 23,1)^2 }$

$\small{8.41}$

Trong ví dụ này, tổn thất L2 cho điểm dữ liệu duy nhất đó là 8,41.

Chọn một trận thua

Việc quyết định sử dụng MAE hay MSE có thể phụ thuộc vào tập dữ liệu và cách bạn muốn xử lý một số dự đoán nhất định. Hầu hết các giá trị của đối tượng trong một tập dữ liệu thường nằm trong một dải giá trị riêng biệt. Ví dụ: ô tô thường có trọng lượng từ 2.000 đến 5.000 pound và tiêu thụ từ 8 đến 50 dặm/gallon. Một chiếc ô tô nặng 8.000 pound hoặc một chiếc ô tô đi được 100 dặm/gallon nằm ngoài phạm vi thông thường và sẽ được coi là giá trị ngoại lệ.

Giá trị ngoại lệ cũng có thể đề cập đến mức độ chênh lệch giữa kết quả dự đoán của một mô hình với giá trị thực. Ví dụ: 3.000 pound nằm trong phạm vi trọng lượng xe thông thường và 40 dặm/gallon nằm trong phạm vi hiệu suất nhiên liệu thông thường. Tuy nhiên, một chiếc ô tô nặng 3.000 pound và đi được 40 dặm/gallon sẽ là một giá trị ngoại lệ về dự đoán của mô hình vì mô hình sẽ dự đoán rằng một chiếc ô tô nặng 3.000 pound sẽ đi được khoảng 20 dặm/gallon.

Khi chọn hàm tổn thất phù hợp nhất, hãy cân nhắc cách bạn muốn mô hình xử lý các giá trị ngoại lệ. Ví dụ: MSE di chuyển mô hình nhiều hơn về phía giá trị ngoại lệ, trong khi MAE thì không. Thua L2 sẽ phải chịu mức phạt cao hơn nhiều so với thua L1. Ví dụ: các hình ảnh sau đây cho thấy một mô hình được huấn luyện bằng MAE và một mô hình được huấn luyện bằng MSE. Đường màu đỏ biểu thị một mô hình được huấn luyện đầy đủ sẽ được dùng để đưa ra dự đoán. Các giá trị ngoại lệ gần với mô hình được huấn luyện bằng MSE hơn là mô hình được huấn luyện bằng MAE.

Hình 10. Mô hình này có xu hướng nghiêng về các giá trị ngoại lệ.

Hình 10. Mô hình được huấn luyện bằng MSE sẽ di chuyển mô hình đến gần các giá trị ngoại lệ hơn.

Hình 11. Mô hình này càng nghiêng về phía các giá trị ngoại lệ.

Hình 11 Mô hình được huấn luyện bằng MAE sẽ cách xa các giá trị ngoại lệ hơn.

Lưu ý mối quan hệ giữa mô hình và dữ liệu:

  • MSE. Mô hình này gần với các giá trị ngoại lệ nhưng lại cách xa hầu hết các điểm dữ liệu khác.

  • MAE. Mô hình này nằm xa các giá trị ngoại lệ hơn nhưng gần với hầu hết các điểm dữ liệu khác.

Kiểm tra mức độ hiểu biết của bạn

Hãy xem xét 2 cốt truyện sau:

Một cốt truyện 10 điểm.
      Một đường thẳng đi qua 6 điểm. 2 điểm nằm trên đường 1 đơn vị; 2 điểm khác nằm dưới đường 1 đơn vị. Một cốt truyện 10 điểm. Một đường thẳng chạy qua 8 điểm. 1 điểm cách đường này 2 đơn vị; 1 điểm khác cách đường này 2 đơn vị.
Trong 2 tập dữ liệu xuất hiện trong các biểu đồ trước đó, tập dữ liệu nào có Sai số bình phương trung bình (MSE) cao hơn?
Tập dữ liệu ở bên trái.
Sáu ví dụ trên dòng này có tổng mức tổn thất là 0. 4 ví dụ không nằm trên đường thẳng không cách đường thẳng quá xa, nên ngay cả khi bình phương độ lệch của chúng, bạn vẫn nhận được giá trị thấp: $MSE = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 0^2} {10} = 0,4$
Tập dữ liệu ở bên phải.
8 ví dụ trên dòng này chịu tổng mức tổn thất là 0. Tuy nhiên, mặc dù chỉ có hai điểm nằm ngoài đường thẳng, nhưng cả hai điểm đó đều cách đường thẳng gấp đôi so với các điểm ngoại lai trong hình bên trái. Mất mát bình phương khuếch đại những khác biệt đó, vì vậy, độ lệch 2 sẽ gây ra tổn thất lớn gấp 4 lần so với độ lệch 1: $MSE = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} {10} = 0,8$