Công nghệ máy học là gì?

Công nghệ học máy (ML) hỗ trợ một số công nghệ quan trọng nhất mà chúng ta sử dụng, từ ứng dụng dịch thuật đến xe tự lái. Khoá học này giải thích các khái niệm cốt lõi đằng sau học máy.

Học máy (ML) mang đến một cách thức mới để giải quyết vấn đề, trả lời các câu hỏi phức tạp và tạo nội dung mới. Học máy có thể dự đoán thời tiết, ước tính thời gian di chuyển, đề xuất bài hát, tự động hoàn thành câu, tóm tắt bài viết và tạo ra những hình ảnh chưa từng xuất hiện.

Nói một cách đơn giản, học máy là quá trình huấn luyện một phần mềm (gọi là mô hình) để đưa ra dự đoán hữu ích hoặc tạo nội dung (chẳng hạn như văn bản, hình ảnh, âm thanh hoặc video) từ dữ liệu.

Ví dụ: giả sử chúng ta muốn tạo một ứng dụng để dự đoán lượng mưa. Chúng ta có thể sử dụng phương pháp truyền thống hoặc phương pháp học máy. Khi sử dụng phương pháp truyền thống, chúng ta sẽ tạo một bản trình bày dựa trên vật lý về bầu khí quyển và bề mặt của Trái Đất, tính toán một lượng lớn các phương trình động lực học chất lỏng. Điều này cực kỳ khó khăn.

Bằng cách sử dụng phương pháp học máy, chúng tôi sẽ cung cấp cho mô hình học máy một lượng lớn dữ liệu thời tiết cho đến khi mô hình học máy cuối cùng học được mối quan hệ toán học giữa các kiểu thời tiết tạo ra lượng mưa khác nhau. Sau đó, chúng tôi sẽ cung cấp cho mô hình dữ liệu thời tiết hiện tại và mô hình sẽ dự đoán lượng mưa.

Kiểm tra mức độ hiểu biết của bạn

"Mô hình" trong học máy là gì?
Mô hình là mối quan hệ toán học bắt nguồn từ dữ liệu mà hệ thống học máy sử dụng để đưa ra dự đoán
Mô hình là một phần của phần cứng máy tính
Mô hình là một phiên bản thu nhỏ của đối tượng mà bạn đang nghiên cứu.

Các loại hệ thống học máy

Các hệ thống học máy thuộc một hoặc nhiều danh mục sau đây dựa trên cách chúng học để đưa ra dự đoán hoặc tạo nội dung:

  • Học có giám sát
  • Học không có giám sát
  • Học tăng cường
  • AI tạo sinh

Học có giám sát

Các mô hình học có giám sát có thể đưa ra dự đoán sau khi xem nhiều dữ liệu có câu trả lời chính xác, sau đó khám phá các mối liên hệ giữa các phần tử trong dữ liệu tạo ra câu trả lời chính xác. Điều này giống như việc học viên học tài liệu mới bằng cách nghiên cứu các bài kiểm tra cũ có cả câu hỏi và câu trả lời. Sau khi luyện tập đủ các bài kiểm tra cũ, học viên sẽ chuẩn bị kỹ lưỡng để làm bài kiểm tra mới. Các hệ thống học máy này được "giám sát" theo nghĩa là con người cung cấp dữ liệu cho hệ thống học máy với kết quả chính xác đã biết.

Hai trường hợp sử dụng phổ biến nhất cho học có giám sát là hồi quy và phân loại.

Hồi quy

Mô hình hồi quy dự đoán một giá trị bằng số. Ví dụ: mô hình thời tiết dự đoán lượng mưa (tính bằng inch hoặc milimet) là một mô hình hồi quy.

Hãy xem bảng bên dưới để biết thêm ví dụ về các mô hình hồi quy:

Trường hợp Dữ liệu đầu vào có thể có Gợi ý dạng số
Giá nhà trong tương lai Diện tích, mã bưu chính, số phòng ngủ và phòng tắm, diện tích đất, lãi suất thế chấp, thuế suất tài sản, chi phí xây dựng và số lượng nhà đang bán trong khu vực. Giá của ngôi nhà.
Thời gian đi xe trong tương lai Tình trạng giao thông trong quá khứ (thu thập từ điện thoại thông minh, cảm biến giao thông, ứng dụng đi xe chung và các ứng dụng chỉ đường khác), khoảng cách từ điểm đến và điều kiện thời tiết. Thời gian tính bằng phút và giây để đến một điểm đến.

Phân loại

Mô hình phân loại dự đoán khả năng một đối tượng thuộc về một danh mục. Không giống như các mô hình hồi quy (có đầu ra là một số), các mô hình phân loại sẽ xuất ra một giá trị cho biết liệu một đối tượng có thuộc một danh mục cụ thể hay không. Ví dụ: các mô hình phân loại được dùng để dự đoán xem một email có phải là thư rác hay không hoặc một bức ảnh có chứa mèo hay không.

Mô hình phân loại được chia thành hai nhóm: phân loại nhị phân và phân loại nhiều lớp. Các mô hình phân loại nhị phân xuất ra một giá trị từ một lớp chỉ chứa hai giá trị, ví dụ: một mô hình xuất ra rain hoặc no rain. Các mô hình phân loại nhiều lớp sẽ xuất ra một giá trị từ một lớp chứa nhiều hơn 2 giá trị, chẳng hạn như một mô hình có thể xuất ra rain, hail, snow hoặc sleet.

Kiểm tra mức độ hiểu biết của bạn

Nếu muốn sử dụng một mô hình học máy để dự đoán mức tiêu thụ năng lượng của các toà nhà thương mại, bạn sẽ sử dụng loại mô hình nào?
Hồi quy
Mức sử dụng năng lượng được đo bằng kilowatt giờ (kWh), là một số, vì vậy bạn nên sử dụng mô hình hồi quy.
Phân loại
Mô hình phân loại dự đoán liệu một thứ gì đó có thuộc về một danh mục hay không, trong khi mô hình hồi quy dự đoán một con số. Vì mức sử dụng năng lượng được đo bằng kilowatt giờ (kWh), là một con số, nên bạn nên sử dụng mô hình hồi quy.

Học không có giám sát

Các mô hình học không giám sát đưa ra dự đoán bằng cách nhận dữ liệu không chứa câu trả lời chính xác. Mục tiêu của mô hình học không giám sát là xác định các mẫu có ý nghĩa trong dữ liệu. Nói cách khác, mô hình không có gợi ý về cách phân loại từng phần dữ liệu, mà thay vào đó, mô hình phải suy ra các quy tắc của riêng mình.

Một mô hình học không có giám sát thường dùng sử dụng một kỹ thuật gọi là phân cụm. Mô hình này tìm các điểm dữ liệu phân định các nhóm tự nhiên.

Hình ảnh cho thấy các chấm màu theo cụm.

Hình 1 Một mô hình học máy phân cụm các điểm dữ liệu tương tự.

Hình ảnh cho thấy các chấm màu theo cụm được bao quanh bởi một hình dạng và đường viền lẫn nhau.

Hình 2. Nhóm các cụm có ranh giới tự nhiên.

Phân cụ khác với phân loại vì bạn không xác định các danh mục. Ví dụ: một mô hình không được giám sát có thể phân cụm một tập dữ liệu thời tiết dựa trên nhiệt độ, cho thấy các phân đoạn xác định các mùa. Sau đó, bạn có thể cố gắng đặt tên cho các cụm đó dựa trên hiểu biết của mình về tập dữ liệu.

Hình ảnh cho thấy các chấm màu theo cụm được gắn nhãn là tuyết, mưa, mưa đá và không mưa.

Hình 3. Một mô hình học máy phân cụm các quy luật thời tiết tương tự.

Hình ảnh cho thấy các chấm màu theo cụm được gắn nhãn là tuyết, mưa, mưa đá và không mưa, nằm trong một hình dạng và có đường viền bao quanh.

Hình 4. Các cụm hình thái thời tiết được gắn nhãn là tuyết, mưa tuyết, mưa và không mưa.

Kiểm tra mức độ hiểu biết của bạn

Điểm khác biệt giữa phương pháp được giám sát và phương pháp không được giám sát là gì?
Phương pháp có giám sát được cung cấp dữ liệu chứa câu trả lời chính xác.
Phương pháp có giám sát được cung cấp dữ liệu chứa câu trả lời chính xác. Nhiệm vụ của mô hình là tìm ra các mối liên hệ trong dữ liệu để đưa ra câu trả lời chính xác. Phương pháp không giám sát là phương pháp đưa ra dữ liệu mà không có câu trả lời chính xác. Nhiệm vụ của nó là tìm các nhóm trong dữ liệu.
Phương pháp có giám sát thường sử dụng phương pháp phân cụm.
Phương pháp không giám sát sử dụng tính năng phân cụm.
Phương pháp không giám sát biết cách gắn nhãn cho các cụm dữ liệu.
Phương pháp học không giám sát không biết ý nghĩa của các cụm dữ liệu. Dựa trên hiểu biết của bạn về dữ liệu, bạn có thể tự xác định các chỉ số này.

Học tăng cường

Các mô hình học tăng cường đưa ra dự đoán bằng cách nhận phần thưởng hoặc hình phạt dựa trên các hành động được thực hiện trong một môi trường. Hệ thống học tăng cường tạo ra một chính sách xác định chiến lược tốt nhất để nhận được nhiều phần thưởng nhất.

Học tăng cường được dùng để huấn luyện robot thực hiện các nhiệm vụ, chẳng hạn như đi bộ quanh phòng và các chương trình phần mềm như AlphaGo để chơi cờ vây.

AI tạo sinh

AI tạo sinh là một lớp mô hình tạo nội dung từ thông tin đầu vào của người dùng. Ví dụ: AI tạo sinh có thể tạo ra hình ảnh, bản nhạc và câu chuyện cười độc đáo; AI tạo sinh có thể tóm tắt bài viết, giải thích cách thực hiện một việc hoặc chỉnh sửa ảnh.

AI tạo sinh có thể nhận nhiều loại dữ liệu đầu vào và tạo ra nhiều loại dữ liệu đầu ra, chẳng hạn như văn bản, hình ảnh, âm thanh và video. Công cụ này cũng có thể kết hợp và tạo ra các tổ hợp của những yếu tố này. Ví dụ: một mô hình có thể nhận hình ảnh làm dữ liệu đầu vào và tạo hình ảnh và văn bản làm dữ liệu đầu ra, hoặc nhận hình ảnh và văn bản làm dữ liệu đầu vào và tạo video làm dữ liệu đầu ra.

Chúng ta có thể thảo luận về các mô hình tạo sinh dựa trên thông tin đầu vào và đầu ra, thường được viết dưới dạng "loại thông tin đầu vào"-thành-"loại thông tin đầu ra". Ví dụ: sau đây là danh sách một phần gồm một số dữ liệu đầu vào và đầu ra cho các mô hình tạo sinh:

  • Chuyển văn bản thành văn bản
  • Chuyển văn bản thành hình ảnh
  • Chuyển văn bản thành video
  • Chuyển văn bản thành mã
  • Chuyển văn bản thành giọng nói
  • Hình ảnh và văn bản thành hình ảnh

Bảng sau đây chứa ví dụ về các mô hình tạo sinh, dữ liệu đầu vào và dữ liệu đầu ra có thể có của các mô hình đó:

Mô hình Đầu vào Kết quả ví dụ
Chuyển văn bản thành văn bản Ai là người sáng lập giải đua Le Mans? Giải đua 24 Hours of Le Mans được thành lập bởi Automobile Club de l'Ouest (ACO), một tổ chức về ô tô được thành lập vào năm 1906. Cuộc đua đầu tiên diễn ra vào ngày 26 và 27 tháng 5 năm 1923 trên Đường đua Sarthe, một đường đua dài 13,426 km (8,345 dặm) nằm gần thị trấn Le Mans ở Pháp. Ban đầu, cuộc đua này được tổ chức nhằm quảng bá ACO và vùng Sarthe.
Nguồn: Bard
Chuyển văn bản thành hình ảnh Một con bạch tuộc ngoài hành tinh đang đọc báo trong lúc trôi qua một cánh cổng. Hình ảnh một con bạch tuộc hoạt hình.
Nguồn: Imagen
Chuyển văn bản thành video Một chú gấu bông chân thực đang bơi ở đại dương tại San Francisco. Gấu bông chìm xuống nước. Chú gấu bông tiếp tục bơi dưới nước cùng những chú cá đầy màu sắc. Một chú gấu trúc đang bơi dưới nước. Video về một chú gấu bông đang bơi dưới nước.
Nguồn: Phenaki
Chuyển văn bản thành mã Viết một vòng lặp Python lặp lại một danh sách các số và in các số nguyên tố.
for number in numbers:
  # Check if the number is prime.
  is_prime = True
  for i in range(2, number):
    if number % i == 0:
        is_prime = False
        break
  # If the number is prime, print it.
  if is_prime:
    print(number)

Nguồn: Bard
Chuyển hình ảnh thành văn bản Hình ảnh một con chim hồng hạc. Đây là tiếng chim hồng hạc. Chúng sinh sống ở vùng Caribe.
Nguồn: Google DeepMind

AI tạo sinh hoạt động như thế nào? Ở cấp độ cao, các mô hình tạo sinh học các mẫu trong dữ liệu với mục tiêu tạo ra dữ liệu mới nhưng tương tự. Các mô hình tạo sinh như sau:

  • Những diễn viên hài học cách bắt chước người khác bằng cách quan sát hành vi và cách nói của mọi người
  • Những nghệ sĩ học vẽ theo một phong cách cụ thể bằng cách nghiên cứu nhiều bức tranh theo phong cách đó
  • Ban nhạc cover học cách tạo ra âm thanh giống như một nhóm nhạc cụ thể bằng cách nghe nhiều nhạc của nhóm đó

Để tạo ra những kết quả đầu ra độc đáo và sáng tạo, các mô hình tạo sinh ban đầu được huấn luyện bằng cách sử dụng phương pháp không giám sát, trong đó mô hình học cách bắt chước dữ liệu mà mô hình được huấn luyện. Đôi khi, mô hình này được huấn luyện thêm bằng cách sử dụng phương pháp học có giám sát hoặc học tăng cường trên dữ liệu cụ thể liên quan đến các nhiệm vụ mà mô hình có thể được yêu cầu thực hiện, chẳng hạn như tóm tắt một bài viết hoặc chỉnh sửa ảnh.

AI tạo sinh là một công nghệ phát triển nhanh chóng và các trường hợp sử dụng mới liên tục được khám phá. Ví dụ: các mô hình tạo sinh đang giúp doanh nghiệp tinh chỉnh hình ảnh sản phẩm thương mại điện tử bằng cách tự động xoá những phông nền gây mất tập trung hoặc cải thiện chất lượng của hình ảnh có độ phân giải thấp.