Học tập có giám sát

Các nhiệm vụ của công nghệ học có giám sát được xác định rõ và có thể áp dụng cho nhiều tình huống, chẳng hạn như xác định nội dung rác hoặc dự đoán lượng mưa.

Các khái niệm cơ bản về học tập có giám sát

Công nghệ học máy có giám sát hoạt động dựa trên các khái niệm chính sau đây:

  • Dữ liệu
  • Mô hình
  • Đào tạo
  • Đang đánh giá
  • Suy luận

Dữ liệu

Dữ liệu là động lực của công nghệ học máy. Dữ liệu xuất hiện ở dạng các từ và số được lưu trữ trong bảng hoặc dưới dạng giá trị của pixel và dạng sóng được thu thập trong tệp hình ảnh và âm thanh. Chúng tôi lưu trữ dữ liệu liên quan trong tập dữ liệu. Ví dụ: chúng ta có thể có một tập dữ liệu như sau:

  • Hình ảnh về mèo
  • Giá nhà ở
  • Thông tin thời tiết

Các tập dữ liệu được tạo thành từ các ví dụ riêng lẻ có chứa các tính năng và một nhãn. Bạn có thể xem một ví dụ tương tự với một hàng trong bảng tính. Tính năng là các giá trị mà mô hình được giám sát sử dụng để dự đoán nhãn. Nhãn là "câu trả lời" hoặc giá trị mà chúng ta muốn mô hình dự đoán. Trong mô hình thời tiết dự đoán lượng mưa, các đặc điểm có thể là vĩ độ, kinh độ, nhiệt độ, độ ẩm, độ che phủ của đám mây, hướng gióáp suất khí quyển. Nhãn sẽ là lượng mưa.

Các ví dụ chứa cả tính năng và nhãn được gọi là ví dụ có nhãn.

Ví dụ về 2 nhãn

Hình ảnh dùng để giữ chỗ.

Ngược lại, các ví dụ không được gắn nhãn chứa các tính năng nhưng không có nhãn. Sau khi bạn tạo mô hình, mô hình sẽ dự đoán nhãn từ các đối tượng.

Hai ví dụ về nhãn chưa được gắn nhãn

Hình ảnh dùng để giữ chỗ.

Đặc điểm của tập dữ liệu

Một tập dữ liệu được đặc trưng bởi kích thước và tính đa dạng của nó. Kích thước cho biết số lượng ví dụ. Tính đa dạng cho biết phạm vi mà các ví dụ này đề cập. Các tập dữ liệu tốt thường có kích thước lớn và rất đa dạng.

Một số tập dữ liệu vừa lớn vừa đa dạng. Tuy nhiên, một số tập dữ liệu lớn nhưng có tính đa dạng thấp và một số tập dữ liệu nhỏ nhưng rất đa dạng. Nói cách khác, một tập dữ liệu lớn không đảm bảo đủ tính đa dạng, và một tập dữ liệu có tính đa dạng cao cũng không đảm bảo có đủ ví dụ.

Ví dụ: một tập dữ liệu có thể chứa dữ liệu có giá trị 100 năm, nhưng chỉ cho tháng 7. Việc sử dụng tập dữ liệu này để dự đoán lượng mưa trong tháng 1 sẽ đưa ra các dự đoán kém. Ngược lại, một tập dữ liệu có thể chỉ bao gồm một vài năm nhưng chứa tất cả các tháng. Tập dữ liệu này có thể đưa ra thông tin dự đoán kém vì không có đủ số năm để tính đến sự thay đổi.

Kiểm tra hiểu biết của bạn

Đâu là thuộc tính lý tưởng của một tập dữ liệu để dùng cho công nghệ học máy?
Kích thước lớn / Tính đa dạng cao
Một số lượng lớn ví dụ bao gồm nhiều trường hợp sử dụng là điều cần thiết để hệ thống học máy hiểu được các mẫu cơ bản trong dữ liệu. Mô hình được huấn luyện về loại tập dữ liệu này có nhiều khả năng đưa ra dự đoán tốt hơn về dữ liệu mới.
Kích thước lớn / Ít đa dạng
Các mô hình học máy chỉ hiệu quả khi được dùng các ví dụ để huấn luyện chúng. Một mô hình sẽ đưa ra các dự đoán kém hơn về dữ liệu mới mà nó chưa từng được huấn luyện.
Kích thước nhỏ / Tính đa dạng cao
Hầu hết các mô hình không thể tìm thấy các mẫu đáng tin cậy trong một tập dữ liệu nhỏ. Các thông tin dự đoán sẽ thiếu độ tin cậy mà tập dữ liệu lớn hơn mang lại.
Quy mô nhỏ / ít đa dạng
Nếu tập dữ liệu của bạn nhỏ và không có nhiều biến thể, thì công nghệ học máy có thể sẽ không mang lại lợi ích cho bạn.

Một tập dữ liệu cũng có thể được đặc trưng bởi số lượng đối tượng của tập dữ liệu đó. Ví dụ: một số tập dữ liệu thời tiết có thể chứa hàng trăm tính năng, từ hình ảnh vệ tinh cho đến giá trị độ bao phủ của đám mây. Các tập dữ liệu khác có thể chỉ chứa 3 hoặc 4 tính năng, chẳng hạn như độ ẩm, áp suất khí quyển và nhiệt độ. Các tập dữ liệu có nhiều tính năng hơn có thể giúp một mô hình khám phá các mẫu bổ sung và đưa ra dự đoán tốt hơn. Tuy nhiên, các tập dữ liệu có nhiều tính năng hơn không luôn tạo ra các mô hình đưa ra dự đoán tốt hơn vì một số tính năng có thể không có mối liên hệ nhân quả với nhãn.

Mô hình

Trong công nghệ học có giám sát, mô hình là một tập hợp số phức tạp xác định mối quan hệ toán học từ các mẫu tính năng đầu vào cụ thể đến các giá trị nhãn đầu ra cụ thể. Mô hình này sẽ khám phá những mẫu này thông qua việc huấn luyện.

Đào tạo

Trước khi có thể đưa ra dự đoán, mô hình được giám sát phải được huấn luyện. Để huấn luyện một mô hình, chúng tôi cung cấp cho mô hình một tập dữ liệu với các ví dụ được gắn nhãn. Mục tiêu của mô hình là tìm ra giải pháp tốt nhất để dự đoán nhãn từ các tính năng. Mô hình này tìm ra giải pháp tốt nhất bằng cách so sánh giá trị dự đoán với giá trị thực tế của nhãn. Dựa trên sự khác biệt giữa giá trị dự đoán và giá trị thực tế (được định nghĩa là sự mất mát), mô hình này sẽ từng bước cập nhật giải pháp. Nói cách khác, mô hình này sẽ tìm hiểu mối quan hệ toán học giữa các tính năng và nhãn để có thể đưa ra thông tin dự đoán chính xác nhất về dữ liệu chưa nhìn thấy.

Ví dụ: nếu mô hình dự đoán sẽ có mưa vào 1.15 inches, nhưng giá trị thực tế là .75 inches, thì mô hình này sẽ sửa đổi giải pháp để thông tin dự đoán sẽ gần với .75 inches. Sau khi xem xét từng ví dụ trong tập dữ liệu (trong một số trường hợp là nhiều lần), mô hình sẽ đưa ra giải pháp đưa ra các dự đoán tốt nhất cho từng ví dụ.

Phần sau đây minh hoạ việc huấn luyện một mô hình:

  1. Mô hình này sẽ lấy một ví dụ được gắn nhãn duy nhất và cung cấp thông tin dự đoán.

    Hình ảnh một người mẫu đưa ra dự đoán.

    Hình 1 Một mô hình học máy đưa ra thông tin dự đoán từ một ví dụ được gắn nhãn.

     

  2. Mô hình này so sánh giá trị dự đoán với giá trị thực tế và cập nhật giải pháp.

    Hình ảnh một mô hình so sánh dự đoán với giá trị thực tế.

    Hình 2. Một mô hình học máy đang cập nhật giá trị dự đoán.

     

  3. Mô hình lặp lại quy trình này cho từng ví dụ được gắn nhãn trong tập dữ liệu.

    Hình ảnh một mô hình lặp lại quá trình dự đoán so với giá trị thực tế.

    Hình 3. Một mô hình học máy cập nhật thông tin dự đoán cho từng ví dụ được gắn nhãn trong tập dữ liệu huấn luyện.

     

Bằng cách này, mô hình sẽ dần tìm hiểu mối quan hệ chính xác giữa các tính năng và nhãn. Việc hiểu dần này cũng là lý do tại sao các tập dữ liệu lớn và đa dạng tạo ra mô hình tốt hơn. Mô hình này đã xem được nhiều dữ liệu hơn với nhiều giá trị hơn và đã điều chỉnh hiểu biết về mối quan hệ giữa các tính năng và nhãn.

Trong quá trình huấn luyện, chuyên viên học máy có thể tinh tế điều chỉnh các cấu hình và tính năng mà mô hình sử dụng để đưa ra dự đoán. Ví dụ: một số tính năng nhất định có khả năng dự đoán cao hơn các tính năng khác. Do đó, chuyên viên công nghệ học máy có thể chọn tính năng mà mô hình sử dụng trong quá trình huấn luyện. Ví dụ: giả sử một tập dữ liệu thời tiết có chứa time_of_day là một đối tượng. Trong trường hợp này, chuyên viên công nghệ học máy có thể thêm hoặc xoá time_of_day trong quá trình huấn luyện để xem mô hình có đưa ra các dự đoán chính xác hơn dù có hay không.

Đang đánh giá

Chúng tôi đánh giá mô hình đã qua đào tạo để xác định mức độ hiệu quả của mô hình đó. Khi đánh giá một mô hình, chúng tôi sử dụng tập dữ liệu được gắn nhãn, nhưng chúng tôi chỉ cung cấp cho mô hình các tính năng của tập dữ liệu đó. Sau đó, chúng tôi so sánh dự đoán của mô hình với giá trị đúng của nhãn.

Hình ảnh cho thấy một mô hình đã huấn luyện có các thông tin dự đoán so với giá trị thực tế.

Hình 4. Đánh giá một mô hình ML bằng cách so sánh thông tin dự đoán của mô hình đó với các giá trị thực tế.

 

Tuỳ thuộc vào các dự đoán của mô hình, chúng tôi có thể huấn luyện và đánh giá thêm trước khi triển khai mô hình trong một ứng dụng thực tế.

Kiểm tra hiểu biết của bạn

Tại sao một mô hình cần được huấn luyện thì mới có thể đưa ra dự đoán?
Mô hình cần được huấn luyện để tìm hiểu mối quan hệ toán học giữa các đối tượng và nhãn trong một tập dữ liệu.
Mô hình không cần được huấn luyện. Các mô hình hoạt động trên hầu hết các máy tính.
Một mô hình cần được huấn luyện để không yêu cầu dữ liệu để đưa ra thông tin dự đoán.

Suy luận

Khi đã hài lòng với kết quả đánh giá mô hình, chúng ta có thể sử dụng mô hình đó để đưa ra thông tin dự đoán, gọi là suy luận, trên các ví dụ chưa được gắn nhãn. Trong ví dụ về ứng dụng thời tiết, chúng tôi sẽ cung cấp cho mô hình điều kiện thời tiết hiện tại (chẳng hạn như nhiệt độ, áp suất khí quyển và độ ẩm tương đối) đồng thời dự đoán lượng mưa.