Trang này được dịch bởi Cloud Translation API.

Bảng thuật ngữ về công nghệ máy học: Kiến thức cơ bản về công nghệ học máy

Trang này chứa các thuật ngữ trong từ điển về Kiến thức cơ bản về học máy. Để xem tất cả các thuật ngữ trong từ điển, hãy nhấp vào đây.

A

độ chính xác

#fundamentals

#Metric

Số dự đoán phân loại chính xác chia cho tổng số dự đoán. Đó là:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ví dụ: một mô hình đưa ra 40 dự đoán chính xác và 10 dự đoán không chính xác sẽ có độ chính xác là:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Phân loại nhị phân cung cấp tên cụ thể cho các danh mục dự đoán chính xác và dự đoán không chính xác. Vì vậy, công thức độ chính xác cho phương pháp phân loại nhị phân như sau:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

trong đó:

TP là số dương tính thật (dự đoán chính xác).
TN là số dương tính giả (dự đoán chính xác).
FP là số lượng dương tính giả (dự đoán không chính xác).
FN là số lượng dương tính giả (dự đoán không chính xác).

So sánh và đối chiếu độ chính xác với độ chính xác và độ chính xác.

Nhấp vào biểu tượng để biết thông tin chi tiết về độ chính xác và tập dữ liệu không cân bằng về lớp.

Mặc dù là một chỉ số có giá trị trong một số trường hợp, nhưng độ chính xác lại gây hiểu lầm nghiêm trọng trong một số trường hợp khác. Đáng chú ý là độ chính xác thường là một chỉ số không phù hợp để đánh giá các mô hình phân loại xử lý các tập dữ liệu không cân bằng về lớp.

Ví dụ: giả sử tuyết chỉ rơi 25 ngày mỗi thế kỷ ở một thành phố cận nhiệt đới nhất định. Vì số ngày không có tuyết (lớp âm) nhiều hơn rất nhiều so với số ngày có tuyết (lớp dương), nên tập dữ liệu về tuyết cho thành phố này bị mất cân bằng về lớp. Hãy tưởng tượng một mô hình phân loại nhị phân dự kiến sẽ dự đoán có tuyết hay không có tuyết mỗi ngày, nhưng lại chỉ dự đoán "không có tuyết" mỗi ngày. Mô hình này có độ chính xác cao nhưng không có khả năng dự đoán. Bảng sau đây tóm tắt kết quả của một thế kỷ dự đoán:

Danh mục	Số
TP	0
TN (Tunisia)	36499
FP	0
FN	25

Do đó, độ chính xác của mô hình này là:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

Mặc dù độ chính xác 99,93% có vẻ là một tỷ lệ rất ấn tượng, nhưng mô hình này thực sự không có khả năng dự đoán.

Độ chính xác và độ hồi quy thường là các chỉ số hữu ích hơn độ chính xác để đánh giá các mô hình được huấn luyện trên tập dữ liệu không cân bằng về lớp.

Hãy xem phần Phân loại: Độ chính xác, tỷ lệ thu hồi, độ chính xác và các chỉ số liên quan trong khoá học cấp tốc về học máy để biết thêm thông tin.

hàm kích hoạt

#fundamentals

Hàm cho phép mạng nơron tìm hiểu các mối quan hệ phi tuyến tính (phức tạp) giữa các đặc điểm và nhãn.

Các hàm kích hoạt phổ biến bao gồm:

ReLU
Sigmoid

Biểu đồ của hàm kích hoạt không bao giờ là một đường thẳng. Ví dụ: Biểu đồ của hàm kích hoạt ReLU bao gồm hai đường thẳng:

Biểu đồ Descartes của hai đường. Dòng đầu tiên có giá trị y không đổi là 0, chạy dọc theo trục x từ -vô cực,0 đến 0,-0.
Dòng thứ hai bắt đầu tại 0,0. Đường này có độ dốc là +1, vì vậy,
nó chạy từ 0,0 đến +vô cực,+vô cực.

Biểu đồ của hàm kích hoạt sigmoid có dạng như sau:

Biểu đồ cong hai chiều với các giá trị x trải dài từ miền -vô cực đến +dương, trong khi các giá trị y trải dài từ gần 0 đến gần 1. Khi x là 0, y là 0,5. Độ dốc của đường cong luôn dương, với độ dốc cao nhất tại 0,0,5 và độ dốc giảm dần khi giá trị tuyệt đối của x tăng lên.

Nhấp vào biểu tượng để xem ví dụ.

Trong mạng nơron, các hàm kích hoạt sẽ thao tác với tổng trọng số của tất cả dữ liệu đầu vào cho một nơron. Để tính tổng trọng số, tế bào thần kinh sẽ cộng các tích của các giá trị và trọng số có liên quan. Ví dụ: giả sử dữ liệu đầu vào liên quan đến một tế bào thần kinh bao gồm những thông tin sau:

giá trị đầu vào	trọng số đầu vào
2	-1,3
-1	0,6
3	0,4

Do đó, tổng trọng số là:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Giả sử nhà thiết kế của mạng nơron này chọn hàm sigmoid làm hàm kích hoạt. Trong trường hợp đó, tế bào thần kinh sẽ tính toán hàm sigmoid của -2.0, tức là khoảng 0,12. Do đó, tế bào thần kinh sẽ truyền 0,12 (thay vì -2,0) đến lớp tiếp theo trong mạng nơron. Hình sau đây minh hoạ phần liên quan của quy trình:

Hãy xem phần Mạng nơron: Hàm kích hoạt trong khoá học Học nhanh về học máy để biết thêm thông tin.

trí tuệ nhân tạo

#fundamentals

Một chương trình hoặc mô hình không phải con người có thể giải quyết các nhiệm vụ phức tạp. Ví dụ: một chương trình hoặc mô hình dịch văn bản hoặc một chương trình hoặc mô hình xác định bệnh từ hình ảnh X-quang đều thể hiện trí tuệ nhân tạo.

Theo cách chính thức, học máy là một lĩnh vực phụ của trí tuệ nhân tạo. Tuy nhiên, trong những năm gần đây, một số tổ chức đã bắt đầu sử dụng các thuật ngữ trí tuệ nhân tạo và học máy thay thế cho nhau.

AUC (Diện tích dưới đường cong ROC)

#fundamentals

#Metric

Một số từ 0 đến 1 thể hiện khả năng của mô hình phân loại nhị phân để tách các lớp dương khỏi các lớp âm. AUC càng gần 1.0 thì mô hình càng có khả năng phân tách các lớp với nhau.

Ví dụ: hình minh hoạ sau đây cho thấy một mô hình phân loại phân tách hoàn hảo các lớp dương tính (hình bầu dục màu xanh lục) với các lớp âm tính (hình chữ nhật màu tím). Mô hình hoàn hảo không thực tế này có AUC là 1,0:

Một đường số có 8 ví dụ dương tính ở một bên và 9 ví dụ âm tính ở bên kia.

Ngược lại, hình minh hoạ sau đây cho thấy kết quả của một mô hình phân loại đã tạo ra kết quả ngẫu nhiên. Mô hình này có AUC là 0,5:

Một đường số có 6 ví dụ tích cực và 6 ví dụ tiêu cực.
Trình tự các ví dụ là dương, âm, dương, âm, dương, âm, dương, âm, dương, âm, dương.

Có, mô hình trước đó có AUC là 0, 5 chứ không phải 0.

Hầu hết các mô hình đều nằm ở đâu đó giữa hai thái cực này. Ví dụ: mô hình sau đây phân tách các giá trị dương khỏi các giá trị âm, do đó có AUC nằm trong khoảng từ 0,5 đến 1,0:

Một đường số có 6 ví dụ tích cực và 6 ví dụ tiêu cực.
Trình tự các ví dụ là âm, âm, âm, âm, dương, âm, dương, dương, âm, dương, dương, dương.

AUC bỏ qua mọi giá trị bạn đặt cho ngưỡng phân loại. Thay vào đó, AUC xem xét tất cả ngưỡng phân loại có thể có.

Nhấp vào biểu tượng này để tìm hiểu về mối quan hệ giữa AUC và đường cong ROC.

AUC thể hiện diện tích dưới đường cong ROC. Ví dụ: đường cong ROC cho một mô hình phân tách hoàn hảo các giá trị dương với giá trị âm sẽ có dạng như sau:

AUC là diện tích của vùng màu xám trong hình minh hoạ trước. Trong trường hợp bất thường này, diện tích chỉ là chiều dài của vùng màu xám (1.0) nhân với chiều rộng của vùng màu xám (1.0). Do đó, tích của 1,0 và 1,0 sẽ cho ra AUC chính xác là 1,0, đây là điểm AUC cao nhất có thể.

Ngược lại, đường cong ROC cho một mô hình phân loại không thể tách biệt các lớp như sau. Diện tích của vùng màu xám này là 0,5.

Một đường cong ROC điển hình hơn sẽ có dạng như sau:

Bạn sẽ phải mất nhiều công sức để tính toán diện tích dưới đường cong này theo cách thủ công, đó là lý do tại sao một chương trình thường tính toán hầu hết các giá trị AUC.

Nhấp vào biểu tượng để xem định nghĩa chính thức hơn về AUC.

AUC là xác suất một mô hình phân loại sẽ tự tin hơn rằng một ví dụ dương tính được chọn ngẫu nhiên thực sự là dương tính so với một ví dụ âm tính được chọn ngẫu nhiên là dương tính.

Hãy xem phần Phân loại: ROC và AUC trong Khoá học học máy ứng dụng để biết thêm thông tin.

B

lan truyền ngược

#fundamentals

Thuật toán triển khai phương pháp giảm độ dốc trong mạng nơron.

Quá trình huấn luyện mạng nơron bao gồm nhiều lần lặp lại của chu kỳ hai lượt sau:

Trong quá trình truyền thẳng, hệ thống xử lý một lô gồm ví dụ để đưa ra(các) kết quả dự đoán. Hệ thống so sánh từng dự đoán với từng giá trị nhãn. Sự khác biệt giữa giá trị dự đoán và giá trị nhãn là lỗ cho ví dụ đó. Hệ thống tổng hợp các tổn thất cho tất cả các ví dụ để tính tổng tổn thất cho lô hiện tại.
Trong quá trình truyền ngược (truyền ngược), hệ thống giảm tổn thất bằng cách điều chỉnh trọng số của tất cả nơron trong tất cả lớp ẩn.

Mạng nơron thường chứa nhiều tế bào thần kinh trên nhiều lớp ẩn. Mỗi tế bào thần kinh trong số đó đều đóng góp vào tổn thất tổng thể theo nhiều cách. Phương pháp truyền ngược xác định việc tăng hay giảm trọng số áp dụng cho các tế bào thần kinh cụ thể.

Tốc độ học là hệ số kiểm soát mức độ mà mỗi lượt truyền ngược tăng hoặc giảm mỗi trọng số. Tốc độ học lớn sẽ làm tăng hoặc giảm mỗi trọng số nhiều hơn so với tốc độ học nhỏ.

Trong thuật toán vi tích phân, phương pháp truyền ngược triển khai quy tắc chuỗi từ vi tích phân. Tức là, phương pháp truyền ngược tính toán đạo hàm riêng của lỗi theo từng tham số.

Cách đây nhiều năm, những người làm việc trong lĩnh vực học máy phải viết mã để triển khai phương pháp hồi quy. Các API máy học hiện đại như Keras hiện đã triển khai tính năng hồi quy cho bạn. Chà!

Hãy xem phần Mạng nơron trong Khoá học học máy ứng dụng để biết thêm thông tin.

lô

#fundamentals

Tập hợp ví dụ được sử dụng trong một lặp lại huấn luyện. Kích thước lô xác định số lượng ví dụ trong một lô.

Hãy xem phần thời gian bắt đầu để biết nội dung giải thích về mối quan hệ giữa một lô với thời gian bắt đầu.

Hãy xem phần Phương pháp hồi quy tuyến tính: Tham số siêu dữ liệu trong khoá học cấp tốc về học máy để biết thêm thông tin.

kích thước lô

#fundamentals

Số lượng ví dụ trong một lô. Ví dụ: nếu kích thước lô là 100, thì mô hình sẽ xử lý 100 ví dụ cho mỗi lượt lặp.

Sau đây là các chiến lược kích thước lô phổ biến:

Giảm độ dốc ngẫu nhiên (SGD), trong đó kích thước lô là 1.
Hàng loạt đầy đủ, trong đó kích thước lô là số lượng ví dụ trong toàn bộ tập huấn luyện. Ví dụ: nếu tập huấn luyện chứa một triệu ví dụ, thì kích thước lô sẽ là một triệu ví dụ. Chiến lược toàn bộ lô thường là một chiến lược không hiệu quả.
gói nhỏ, trong đó kích thước lô thường nằm trong khoảng từ 10 đến 1000. Tệp tối thiểu thường là chiến lược hiệu quả nhất.

Hãy xem những nội dung sau để biết thêm thông tin:

Hệ thống ML sản xuất: Suy luận tĩnh so với suy luận động trong Khoá học học máy ứng dụng.
Cẩm nang điều chỉnh công nghệ học sâu.

thiên kiến (đạo đức/công bằng)

#responsible

#fundamentals

1. Nội dung tạo ra định kiến, thành kiến hoặc thiên vị một số người, nhóm người hoặc sự vật hơn những người, nhóm người hoặc sự vật khác. Những thành kiến này có thể ảnh hưởng đến việc thu thập và diễn giải dữ liệu, thiết kế hệ thống và cách người dùng tương tác với hệ thống. Sau đây là một số hình thức của loại thiên kiến này:

2. Lỗi hệ thống do quy trình lấy mẫu hoặc báo cáo gây ra. Sau đây là một số hình thức của loại thiên kiến này:

Đừng nhầm lẫn với hệ số chệch trong mô hình học máy hoặc chệch dự đoán.

Hãy xem phần Tính công bằng: Các loại thiên kiến trong Khoá học cấp tốc về học máy để biết thêm thông tin.

thiên kiến (toán học) hoặc thuật ngữ thiên kiến

#fundamentals

Giá trị cắt hoặc độ dời từ một gốc. Sai số là một tham số trong các mô hình học máy, được biểu thị bằng một trong các ký hiệu sau:

b
w₀

Ví dụ: độ lệch là b trong công thức sau:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Trong một đường hai chiều đơn giản, độ lệch chỉ có nghĩa là "điểm giao cắt y". Ví dụ: độ lệch của đường trong hình minh hoạ sau là 2.

Biểu đồ của một đường có độ dốc là 0,5 và độ lệch (giao điểm y) là 2.

Sự thiên lệch tồn tại vì không phải tất cả mô hình đều bắt đầu từ gốc (0,0). Ví dụ: giả sử một công viên giải trí có giá vé vào cổng là 2 Euro và thêm 0,5 Euro cho mỗi giờ khách hàng ở lại. Do đó, mô hình liên kết tổng chi phí có độ lệch là 2 vì chi phí thấp nhất là 2 Euro.

Không nên nhầm lẫn thiên kiến với thiên kiến về đạo đức và sự công bằng hoặc thiên kiến dự đoán.

Hãy xem phần Phương pháp hồi quy tuyến tính trong khoá học Học máy ứng dụng để biết thêm thông tin.

phân loại nhị phân

#fundamentals

Một loại tác vụ phân loại dự đoán một trong hai lớp loại trừ lẫn nhau:

lớp dương
lớp âm

Ví dụ: hai mô hình học máy sau đây đều thực hiện việc phân loại nhị phân:

Mô hình xác định liệu thư email có phải là thư rác (lớp tích cực) hay không phải thư rác (lớp tiêu cực).
Mô hình đánh giá các triệu chứng y tế để xác định xem một người có mắc một bệnh cụ thể hay không (lớp dương tính) hoặc không mắc bệnh đó (lớp âm tính).

Tương phản với phân loại đa lớp.

Xem thêm về biến hồi quy logistic và ngưỡng phân loại.

Hãy xem phần Phân loại trong Khoá học học máy ứng dụng để biết thêm thông tin.

phân giỏ

#fundamentals

Chuyển đổi một tính năng thành nhiều tính năng nhị phân được gọi là bucket (vùng chứa) hoặc bin (thẻ), thường dựa trên một dải giá trị. Tính năng cắt thường là một tính năng liên tục.

Ví dụ: thay vì biểu thị nhiệt độ dưới dạng một tính năng dấu phẩy động liên tục, bạn có thể cắt các phạm vi nhiệt độ thành các bộ chứa riêng biệt, chẳng hạn như:

<= 10 độ C sẽ là bộ chứa "lạnh".
11 – 24 độ C sẽ là nhóm "trung bình".
>= 25 độ C sẽ là bộ chứa "nóng".

Mô hình sẽ xử lý mọi giá trị trong cùng một nhóm giống nhau. Ví dụ: các giá trị 13 và 22 đều nằm trong bộ chứa ôn đới, do đó mô hình sẽ xử lý hai giá trị này giống nhau.

Nhấp vào biểu tượng để xem thêm ghi chú.

Nếu bạn biểu thị nhiệt độ dưới dạng một đặc điểm liên tục, thì mô hình sẽ coi nhiệt độ là một đặc điểm duy nhất. Nếu bạn biểu thị nhiệt độ dưới dạng 3 nhóm, thì mô hình sẽ coi mỗi nhóm là một đặc điểm riêng biệt. Tức là mô hình có thể tìm hiểu các mối quan hệ riêng biệt của từng bộ chứa với nhãn. Ví dụ: mô hình bội hồi tuyến tính có thể học trọng số riêng cho mỗi bộ chứa.

Việc tăng số lượng bộ chứa sẽ làm cho mô hình của bạn phức tạp hơn bằng cách tăng số lượng mối quan hệ mà mô hình phải học. Ví dụ: các bộ chứa lạnh, ôn hoà và ấm áp về cơ bản là ba đặc điểm riêng biệt để mô hình của bạn huấn luyện. Nếu bạn quyết định thêm hai bộ chứa nữa (ví dụ: đông lạnh và nóng), thì mô hình của bạn hiện sẽ phải huấn luyện trên 5 tính năng riêng biệt.

Làm cách nào để biết số lượng bộ chứa cần tạo hoặc phạm vi cho mỗi bộ chứa? Câu trả lời thường đòi hỏi một lượng thử nghiệm khá lớn.

Hãy xem phần Dữ liệu số: Phân nhóm trong khoá học cấp tốc về học máy để biết thêm thông tin.

C

dữ liệu phân loại

#fundamentals

Tính năng có một tập hợp giá trị có thể có cụ thể. Ví dụ: hãy xem xét một tính năng phân loại có tên là traffic-light-state. Tính năng này chỉ có thể có một trong ba giá trị sau:

red
yellow
green

Bằng cách biểu thị traffic-light-state dưới dạng một tính năng phân loại, mô hình có thể tìm hiểu các tác động khác nhau của red, green và yellow đối với hành vi của người lái xe.

Đôi khi, các tính năng phân loại được gọi là tính năng rời.

Tương phản với dữ liệu dạng số.

Hãy xem phần Làm việc với dữ liệu phân loại trong khoá học cấp tốc về Máy học để biết thêm thông tin.

lớp

#fundamentals

Danh mục mà nhãn có thể thuộc về. Ví dụ:

Trong mô hình phân loại nhị phân phát hiện thư rác, hai lớp có thể là thư rác và không phải thư rác.
Trong mô hình phân loại nhiều lớp xác định giống chó, các lớp có thể là poodle, beagle, pug, v.v.

Mô hình phân loại dự đoán một lớp. Ngược lại, mô hình hồi quy dự đoán một con số thay vì một lớp.

Hãy xem phần Phân loại trong Khoá học học máy ứng dụng để biết thêm thông tin.

mô hình phân loại

#fundamentals

Mô hình có kết quả dự đoán là một lớp. Ví dụ: sau đây là tất cả các mô hình phân loại:

Mô hình dự đoán ngôn ngữ của một câu đầu vào (tiếng Pháp? Tiếng Tây Ban Nha? Tiếng Ý?).
Mô hình dự đoán loài cây (Cây phong?) Gỗ sồi? Bao báp?).
Mô hình dự đoán lớp dương tính hoặc âm tính cho một tình trạng bệnh cụ thể.

Ngược lại, mô hình hồi quy dự đoán số liệu thay vì các lớp.

Có hai loại mô hình phân loại phổ biến là:

phân loại nhị phân
phân loại đa lớp

ngưỡng phân loại

#fundamentals

Trong một lớp phân loại nhị phân, một số từ 0 đến 1 sẽ chuyển đổi đầu ra thô của mô hình biến hồi quy logistic thành một dự đoán về lớp tích cực hoặc lớp tiêu cực. Xin lưu ý rằng ngưỡng phân loại là một giá trị do con người chọn, không phải là giá trị do quá trình huấn luyện mô hình chọn.

Mô hình hồi quy logistic sẽ xuất ra một giá trị thô trong khoảng từ 0 đến 1. Sau đó:

Nếu giá trị thô này lớn hơn ngưỡng phân loại, thì lớp dương tính sẽ được dự đoán.
Nếu giá trị thô này nhỏ hơn ngưỡng phân loại, thì lớp âm sẽ được dự đoán.

Ví dụ: giả sử ngưỡng phân loại là 0, 8. Nếu giá trị thô là 0,9, thì mô hình sẽ dự đoán lớp dương. Nếu giá trị thô là 0,7, thì mô hình sẽ dự đoán lớp âm.

Lựa chọn ngưỡng phân loại ảnh hưởng rất lớn đến số lượng dương tính giả và âm tính giả.

Nhấp vào biểu tượng để xem thêm ghi chú.

Khi các mô hình hoặc tập dữ liệu phát triển, các kỹ sư đôi khi cũng thay đổi ngưỡng phân loại. Khi ngưỡng phân loại thay đổi, các dự đoán về lớp dương tính có thể đột nhiên trở thành lớp âm tính và ngược lại.

Ví dụ: hãy xem xét một mô hình dự đoán bệnh phân loại nhị phân. Giả sử khi hệ thống chạy trong năm đầu tiên:

Giá trị thô cho một bệnh nhân cụ thể là 0,95.
Ngưỡng phân loại là 0,94.

Do đó, hệ thống sẽ chẩn đoán lớp dương tính. (Bệnh nhân thở hổn hển, "Ôi không! Tôi bị ốm!")

Một năm sau, có thể các giá trị hiện tại sẽ như sau:

Giá trị thô cho cùng một bệnh nhân vẫn giữ nguyên ở mức 0,95.
Ngưỡng phân loại thay đổi thành 0,97.

Do đó, hệ thống hiện phân loại lại bệnh nhân đó là lớp âm tính. ("Chúc bạn một ngày tốt lành! Tôi không bị bệnh.") Cùng một bệnh nhân. Kết quả chẩn đoán khác.

Hãy xem phần Ngưỡng và ma trận nhiễu trong khoá học Học máy ứng dụng để biết thêm thông tin.

thuật toán phân loại

#fundamentals

Thuật ngữ thông thường cho mô hình phân loại.

tập dữ liệu bất cân đối về loại

#fundamentals

Một tập dữ liệu cho một vấn đề phân loại, trong đó tổng số nhãn của mỗi lớp khác nhau đáng kể. Ví dụ: hãy xem xét một tập dữ liệu phân loại nhị phân có hai nhãn được phân chia như sau:

1.000.000 nhãn phủ định
10 nhãn dương

Tỷ lệ nhãn âm so với nhãn dương là 100.000 trên 1,vì vậy, đây là một tập dữ liệu bất cân đối về loại.

Ngược lại, tập dữ liệu sau đây không mất cân bằng lớp vì tỷ lệ nhãn âm so với nhãn dương tương đối gần với 1:

517 nhãn phủ định
483 nhãn dương

Tập dữ liệu nhiều lớp cũng có thể không cân bằng về lớp. Ví dụ: tập dữ liệu phân loại nhiều lớp sau đây cũng bất cân đối về lớp vì một nhãn có nhiều ví dụ hơn nhiều so với hai nhãn còn lại:

1.000.000 nhãn có lớp "green"
200 nhãn có lớp "purple"
350 nhãn có lớp "orange"

Xem thêm entropy, lớp đa số và lớp thiểu số.

cắt bớt

#fundamentals

Một kỹ thuật để xử lý giá trị ngoại lai bằng cách thực hiện một hoặc cả hai việc sau:

Giảm các giá trị tính năng lớn hơn ngưỡng tối đa xuống ngưỡng tối đa đó.
Tăng giá trị đặc điểm thấp hơn ngưỡng tối thiểu lên ngưỡng tối thiểu đó.

Ví dụ: giả sử <0, 5% giá trị của một tính năng cụ thể nằm ngoài phạm vi 40–60. Trong trường hợp này, bạn có thể làm như sau:

Cắt tất cả các giá trị trên 60 (ngưỡng tối đa) thành đúng 60.
Cắt tất cả các giá trị dưới 40 (ngưỡng tối thiểu) thành đúng 40.

Giá trị ngoại lai có thể làm hỏng mô hình, đôi khi khiến trọng số tràn trong quá trình huấn luyện. Một số giá trị ngoại lai cũng có thể làm hỏng đáng kể các chỉ số như độ chính xác. Cắt là một kỹ thuật phổ biến để hạn chế thiệt hại.

Tính năng cắt phông màu buộc các giá trị phông màu nằm trong một phạm vi được chỉ định trong quá trình huấn luyện.

Hãy xem phần Dữ liệu số: Bình thường hoá trong khoá học cấp tốc về học máy để biết thêm thông tin.

ma trận nhầm lẫn

#fundamentals

Bảng NxN tóm tắt số lượng dự đoán chính xác và không chính xác mà mô hình phân loại đưa ra. Ví dụ: hãy xem xét ma trận nhầm lẫn sau đây cho mô hình phân loại nhị phân:

	U (dự đoán)	Không phải khối u (dự đoán)
U (thông tin thực tế)	18 (TP)	1 (FN)
Không phải khối u (thông tin thực tế)	6 (FP)	452 (TN)

Ma trận nhầm lẫn ở trên cho thấy những thông tin sau:

Trong số 19 lần dự đoán mà giá trị thực tế là U bướu, mô hình đã phân loại chính xác 18 lần và phân loại không chính xác 1 lần.
Trong số 458 kết quả dự đoán mà giá trị thực tế là Không phải khối u, mô hình đã phân loại chính xác 452 kết quả và phân loại không chính xác 6 kết quả.

Ma trận nhầm lẫn cho vấn đề phân loại nhiều lớp có thể giúp bạn xác định các mẫu lỗi. Ví dụ: hãy xem xét ma trận nhầm lẫn sau đây cho mô hình phân loại nhiều lớp 3 lớp, phân loại 3 loại hoa iris khác nhau (Virginica, Versicolor và Setosa). Khi thông tin thực tế là Virginica, ma trận nhầm lẫn cho thấy mô hình có nhiều khả năng dự đoán nhầm Versicolor hơn Setosa:

	Setosa (dự đoán)	Versicolor (dự đoán)	Virginica (dự đoán)
Setosa (thông tin thực tế)	88	12	0
Versicolor (thông tin thực tế)	6	141	7
Virginica (thông tin thực tế)	2	27	109

Ví dụ khác: một ma trận nhầm lẫn có thể cho thấy rằng một mô hình được huấn luyện để nhận dạng chữ số viết tay có xu hướng dự đoán nhầm 9 thay vì 4 hoặc dự đoán nhầm 1 thay vì 7.

Ma trận nhầm lẫn chứa đủ thông tin để tính toán nhiều chỉ số hiệu suất, bao gồm cả độ chính xác và độ chính xác.

tính năng liên tục

#fundamentals

Tính năng dấu phẩy động có phạm vi vô hạn các giá trị có thể có, chẳng hạn như nhiệt độ hoặc trọng lượng.

Tương phản với tính năng rời rạc.

sự hội tụ

#fundamentals

Trạng thái đạt được khi các giá trị mất thay đổi rất ít hoặc hoàn toàn không thay đổi với mỗi lặp lại. Ví dụ: Đường cong tổn thất sau đây cho thấy sự hội tụ ở khoảng 700 lần lặp:

Biểu đồ Descartes. Trục X là tổn thất. Trục Y là số lần lặp lại quá trình huấn luyện. Mất mát rất cao trong vài lần lặp lại đầu tiên, nhưng giảm mạnh. Sau khoảng 100 lần lặp lại, tổn thất vẫn giảm nhưng chậm hơn nhiều. Sau khoảng 700 lần lặp lại, tổn thất vẫn giữ nguyên.

Mô hình hội tụ khi việc huấn luyện thêm sẽ không cải thiện mô hình.

Trong học sâu, các giá trị tổn thất đôi khi giữ nguyên hoặc gần như vậy trong nhiều lần lặp lại trước khi giảm dần. Trong một khoảng thời gian dài có các giá trị tổn thất không đổi, bạn có thể tạm thời có cảm giác hội tụ sai.

Xem thêm phần dừng sớm.

Hãy xem phần Đường cong hội tụ và đường cong tổn thất của mô hình trong khoá học cấp tốc về học máy để biết thêm thông tin.

D

DataFrame

#fundamentals

Loại dữ liệu pandas phổ biến để biểu thị tập dữ liệu trong bộ nhớ.

DataFrame tương tự như một bảng hoặc bảng tính. Mỗi cột của DataFrame có một tên (tiêu đề) và mỗi hàng được xác định bằng một số duy nhất.

Mỗi cột trong DataFrame có cấu trúc giống như một mảng 2D, ngoại trừ việc mỗi cột có thể được gán kiểu dữ liệu riêng.

Xem thêm trang tham khảo chính thức về pandas.DataFrame.

tập dữ liệu

#fundamentals

Một tập hợp dữ liệu thô, thường (nhưng không chỉ) được sắp xếp theo một trong các định dạng sau:

bảng tính
tệp ở định dạng CSV (giá trị được phân tách bằng dấu phẩy)

mô hình sâu

#fundamentals

Mạng nơron chứa nhiều lớp ẩn.

Mô hình sâu còn được gọi là mạng nơron sâu.

Tương phản với mô hình rộng.

tính năng dày đặc

#fundamentals

Một tính năng trong đó hầu hết hoặc tất cả các giá trị đều khác 0, thường là một Tensor của các giá trị dấu phẩy động. Ví dụ: Tensor 10 phần tử sau đây là dày đặc vì 9 trong số các giá trị của tensor này khác 0:

Tương phản với tính năng thưa.

chiều sâu

#fundamentals

Tổng của các giá trị sau trong một mạng nơron:

số lượng lớp ẩn
số lượng lớp đầu ra, thường là 1
số lượng lớp nhúng bất kỳ

Ví dụ: một mạng nơron có 5 lớp ẩn và 1 lớp đầu ra có chiều sâu là 6.

Lưu ý rằng lớp đầu vào không ảnh hưởng đến chiều sâu.

tính năng rời rạc

#fundamentals

Một tính năng có một tập hợp các giá trị có thể có hữu hạn. Ví dụ: một đặc điểm có giá trị chỉ có thể là động vật, rau hoặc khoáng sản là một đặc điểm riêng biệt (hoặc phân loại).

Tương phản với tính năng liên tục.

linh động

#fundamentals

Một việc gì đó được thực hiện thường xuyên hoặc liên tục. Thuật ngữ động và trực tuyến là đồng nghĩa trong học máy. Sau đây là các cách sử dụng phổ biến của dữ liệu động và trực tuyến trong học máy:

Mô hình động (hoặc mô hình trực tuyến) là mô hình được huấn luyện lại thường xuyên hoặc liên tục.
Đào tạo động (hoặc đào tạo trực tuyến) là quá trình đào tạo thường xuyên hoặc liên tục.
Suy luận động (hoặc suy luận trực tuyến) là quá trình tạo dự đoán theo yêu cầu.

mô hình động

#fundamentals

Mô hình thường xuyên (thậm chí có thể liên tục) được huấn luyện lại. Mô hình động là một "người học suốt đời" liên tục thích ứng với dữ liệu đang phát triển. Mô hình động còn được gọi là mô hình trực tuyến.

Tương phản với mô hình tĩnh.

E

dừng sớm

#fundamentals

Một phương thức điều chỉnh liên quan đến việc kết thúc quá trình huấn luyện trước khi tổn thất huấn luyện kết thúc giảm. Trong phương pháp dừng sớm, bạn chủ ý ngừng huấn luyện mô hình khi tổn thất trên dữ liệu tập hợp xác thực bắt đầu tăng lên; tức là khi hiệu suất tổng quát hoá giảm sút.

Nhấp vào biểu tượng để xem thêm ghi chú.

Việc dừng sớm có vẻ như không hợp lý. Xét cho cùng, việc yêu cầu mô hình ngừng đào tạo trong khi tổn thất vẫn đang giảm có vẻ giống như việc yêu cầu đầu bếp ngừng nấu ăn trước khi món tráng miệng chín hoàn toàn. Tuy nhiên, việc huấn luyện mô hình quá lâu có thể dẫn đến tình trạng phát triển quá mức. Tức là nếu bạn huấn luyện mô hình quá lâu, mô hình có thể khớp với dữ liệu huấn luyện quá chặt chẽ, khiến mô hình không đưa ra dự đoán chính xác về các ví dụ mới.

lớp nhúng

#language

#fundamentals

Một lớp ẩn đặc biệt huấn luyện trên một tính năng phân loại có nhiều chiều để dần dần học một vectơ nhúng có chiều thấp hơn. Lớp nhúng cho phép mạng nơron huấn luyện hiệu quả hơn nhiều so với việc chỉ huấn luyện trên tính năng phân loại có nhiều chiều.

Ví dụ: Earth hiện hỗ trợ khoảng 73.000 loài cây. Giả sử loài cây là một tính năng trong mô hình của bạn, vì vậy,lớp đầu vào của mô hình bao gồm một vectơ một chiều dài 73.000 phần tử. Ví dụ: có thể baobab sẽ được biểu thị như sau:

Một mảng gồm 73.000 phần tử. 6.232 phần tử đầu tiên chứa giá trị 0. Phần tử tiếp theo chứa giá trị 1. 66.767 phần tử cuối cùng chứa giá trị 0.

Mảng 73.000 phần tử rất dài. Nếu bạn không thêm lớp nhúng vào mô hình, quá trình huấn luyện sẽ mất rất nhiều thời gian do phải nhân 72.999 số 0. Có thể bạn chọn lớp nhúng bao gồm 12 phương diện. Do đó, lớp nhúng sẽ dần học một vectơ nhúng mới cho mỗi loài cây.

Trong một số trường hợp, hàm băm là một giải pháp thay thế hợp lý cho lớp nhúng.

Hãy xem phần Nội dung nhúng trong khoá học Học máy ứng dụng để biết thêm thông tin.

thời gian bắt đầu của hệ thống

#fundamentals

Một lượt huấn luyện đầy đủ sẽ trải qua toàn bộ tập huấn luyện sao cho mỗi ví dụ được xử lý một lần.

Một epoch đại diện cho N/kích thước lô huấn luyện số lần lặp lại, trong đó N là tổng số ví dụ.

Ví dụ: giả sử như sau:

Tập dữ liệu này bao gồm 1.000 ví dụ.
Kích thước lô là 50 ví dụ.

Do đó, một epoch cần 20 lần lặp lại:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Hãy xem phần Phương pháp hồi quy tuyến tính: Tham số siêu dữ liệu trong khoá học cấp tốc về học máy để biết thêm thông tin.

ví dụ

#fundamentals

Giá trị của một hàng tính năng và có thể là một nhãn. Các ví dụ về học có giám sát thuộc hai danh mục chung:

Ví dụ được gắn nhãn bao gồm một hoặc nhiều đặc điểm và một nhãn. Các ví dụ được gắn nhãn được dùng trong quá trình huấn luyện.
Ví dụ chưa gắn nhãn bao gồm một hoặc nhiều tính năng nhưng không có nhãn. Các ví dụ chưa được gắn nhãn được sử dụng trong quá trình suy luận.

Ví dụ: giả sử bạn đang huấn luyện một mô hình để xác định mức độ ảnh hưởng của điều kiện thời tiết đến điểm kiểm tra của học sinh. Dưới đây là 3 ví dụ được gắn nhãn:

Tính năng			Hãng nhạc
Nhiệt độ	Độ ẩm	Áp lực	Điểm kiểm tra
15	47	998	Tốt
19	34	1020	Rất tốt
18	92	1012	Kém

Dưới đây là 3 ví dụ chưa được gắn nhãn:

Nhiệt độ	Độ ẩm	Áp lực
12	62	1014
21	47	1017
19	41	1021

Hàng của một tập dữ liệu thường là nguồn thô cho một ví dụ. Tức là một ví dụ thường bao gồm một tập hợp con các cột trong tập dữ liệu. Hơn nữa, các đặc điểm trong ví dụ cũng có thể bao gồm các đặc điểm tổng hợp, chẳng hạn như các đặc điểm giao nhau.

Hãy xem phần Học có giám sát trong khoá học Giới thiệu về công nghệ học máy để biết thêm thông tin.

F

âm tính giả (FN)

#fundamentals

#Metric

Ví dụ về trường hợp mô hình dự đoán nhầm lớp âm tính. Ví dụ: mô hình dự đoán rằng một email cụ thể không phải là thư rác (lớp âm), nhưng email đó thực sự là thư rác.

dương tính giả (FP)

#fundamentals

#Metric

Ví dụ về trường hợp mô hình dự đoán nhầm lớp dương tính. Ví dụ: mô hình dự đoán một email cụ thể là thư rác (lớp dương tính), nhưng email đó thực sự không phải là thư rác.

Hãy xem phần Ngưỡng và ma trận nhiễu trong khoá học Học máy ứng dụng để biết thêm thông tin.

tỷ lệ dương tính giả (FPR)

#fundamentals

#Metric

Tỷ lệ phần trăm các ví dụ âm tính thực tế mà mô hình dự đoán nhầm là lớp dương tính. Công thức sau đây tính tỷ lệ dương tính giả:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Tỷ lệ dương tính giả là trục x trong đường cong ROC.

Hãy xem phần Phân loại: ROC và AUC trong Khoá học học máy ứng dụng để biết thêm thông tin.

tính năng

#fundamentals

Biến đầu vào cho mô hình học máy. Một ví dụ bao gồm một hoặc nhiều tính năng. Ví dụ: giả sử bạn đang huấn luyện một mô hình để xác định ảnh hưởng của điều kiện thời tiết đến điểm số của học viên. Bảng sau đây cho thấy 3 ví dụ, mỗi ví dụ chứa 3 tính năng và 1 nhãn:

Tính năng			Hãng nhạc
Nhiệt độ	Độ ẩm	Áp lực	Điểm kiểm tra
15	47	998	92
19	34	1020	84
18	92	1012	87

Tương phản với nhãn.

Hãy xem phần Học có giám sát trong khoá học Giới thiệu về học máy để biết thêm thông tin.

nhân chéo tính chất

#fundamentals

Tính năng tổng hợp được tạo bằng cách "giao nhau" các tính năng dạng danh mục hoặc được nhóm lại.

Ví dụ: hãy xem xét mô hình "dự đoán tâm trạng" đại diện cho nhiệt độ trong một trong 4 nhóm sau:

freezing
chilly
temperate
warm

Và thể hiện tốc độ gió trong một trong ba nhóm sau:

still
light
windy

Nếu không có giao nhau của các đặc điểm, mô hình tuyến tính sẽ huấn luyện độc lập trên từng nhóm trong số 7 nhóm trước đó. Vì vậy, mô hình huấn luyện trên, ví dụ: freezing độc lập với việc huấn luyện trên, ví dụ: windy.

Ngoài ra, bạn có thể tạo một giao điểm đặc điểm của nhiệt độ và tốc độ gió. Tính năng tổng hợp này sẽ có 12 giá trị có thể có sau:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

Nhờ các giao điểm tính năng, mô hình có thể học được sự khác biệt về tâm trạng giữa ngày freezing-windy và ngày freezing-still.

Nếu bạn tạo một đặc điểm tổng hợp từ hai đặc điểm, mỗi đặc điểm có nhiều nhóm khác nhau, thì đặc điểm chéo thu được sẽ có rất nhiều tổ hợp có thể xảy ra. Ví dụ: nếu một tính năng có 1.000 bộ chứa và tính năng còn lại có 2.000 bộ chứa, thì phép lai tính năng thu được sẽ có 2.000.000 bộ chứa.

Theo cách chính thức, phép nhân là một sản phẩm Descartes.

Tính năng chéo chủ yếu được dùng với các mô hình tuyến tính và hiếm khi được dùng với mạng nơron.

Hãy xem phần Dữ liệu dạng danh mục: Giá trị chéo của tính năng trong khoá học Học máy ứng dụng để biết thêm thông tin.

kỹ thuật trích xuất tính năng

#fundamentals

#TensorFlow

Một quy trình bao gồm các bước sau:

Xác định các tính năng có thể hữu ích trong việc huấn luyện mô hình.
Chuyển đổi dữ liệu thô từ tập dữ liệu thành các phiên bản hiệu quả của các tính năng đó.

Ví dụ: bạn có thể xác định rằng temperature có thể là một tính năng hữu ích. Sau đó, bạn có thể thử nghiệm với tính năng nhóm để tối ưu hoá nội dung mà mô hình có thể học được từ các dải temperature khác nhau.

Đôi khi, kỹ thuật xử lý đặc điểm được gọi là trích xuất đặc điểm hoặc tạo đặc điểm.

Nhấp vào biểu tượng để xem thêm ghi chú về TensorFlow.

Trong TensorFlow, kỹ thuật xử lý đặc điểm thường có nghĩa là chuyển đổi các mục nhập tệp nhật ký thô thành vùng đệm giao thức tf.Example. Xem thêm tf.Transform.

Hãy xem phần Dữ liệu số: Cách mô hình nhập dữ liệu bằng vectơ tính năng trong khoá học Học nhanh về học máy để biết thêm thông tin.

tập hợp tính năng

#fundamentals

Nhóm tính năng mà mô hình học máy của bạn huấn luyện. Ví dụ: một tập hợp tính năng đơn giản cho mô hình dự đoán giá nhà có thể bao gồm mã bưu chính, kích thước nhà và tình trạng nhà.

vectơ đặc trưng

#fundamentals

Mảng các giá trị tính năng bao gồm một ví dụ. Vectơ đặc điểm được nhập trong quá trình huấn luyện và trong quá trình suy luận. Ví dụ: vectơ đặc điểm cho một mô hình có hai đặc điểm riêng biệt có thể là:

[0.92, 0.56]

Bốn lớp: một lớp đầu vào, hai lớp ẩn và một lớp đầu ra.
Lớp đầu vào chứa hai nút, một nút chứa giá trị 0,92 và nút còn lại chứa giá trị 0,56.

Mỗi ví dụ cung cấp các giá trị khác nhau cho vectơ đặc điểm, vì vậy, vectơ đặc điểm cho ví dụ tiếp theo có thể là:

[0.73, 0.49]

Kỹ thuật xử lý đặc điểm xác định cách biểu thị các đặc điểm trong vectơ đặc điểm. Ví dụ: một đặc điểm phân loại nhị phân có năm giá trị có thể được biểu thị bằng mã hoá một nóng. Trong trường hợp này, phần vectơ đặc trưng cho một ví dụ cụ thể sẽ bao gồm 4 số 0 và 1.0 ở vị trí thứ ba, như sau:

[0.0, 0.0, 1.0, 0.0, 0.0]

Ví dụ khác: giả sử mô hình của bạn bao gồm 3 đặc điểm:

một đặc điểm phân loại nhị phân có năm giá trị có thể được biểu thị bằng mã hoá một nóng; ví dụ: [0.0, 1.0, 0.0, 0.0, 0.0]
một đặc điểm phân loại nhị phân khác có ba giá trị có thể được biểu thị bằng mã hoá one-hot; ví dụ: [0.0, 0.0, 1.0]
một tính năng dấu phẩy động; ví dụ: 8.3.

Trong trường hợp này, vectơ đặc trưng cho mỗi ví dụ sẽ được biểu thị bằng chín giá trị. Với các giá trị mẫu trong danh sách trước, vectơ đặc điểm sẽ là:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Hãy xem phần Dữ liệu số: Cách mô hình nhập dữ liệu bằng vectơ tính năng trong khoá học Học nhanh về học máy để biết thêm thông tin.

vòng hồi tiếp

#fundamentals

Trong học máy, một tình huống mà dự đoán của mô hình ảnh hưởng đến dữ liệu huấn luyện cho cùng một mô hình hoặc một mô hình khác. Ví dụ: một mô hình đề xuất phim sẽ ảnh hưởng đến những bộ phim mà mọi người xem, từ đó ảnh hưởng đến các mô hình đề xuất phim tiếp theo.

Hãy xem phần Hệ thống ML sản xuất: Câu hỏi cần đặt trong khoá học Học nhanh về học máy để biết thêm thông tin.

G

tổng quát hoá

#fundamentals

Khả năng của mô hình trong việc đưa ra dự đoán chính xác về dữ liệu mới, chưa từng thấy trước đây. Mô hình có thể khái quát là đối lập với mô hình quá thích ứng.

Nhấp vào biểu tượng để xem thêm ghi chú.

Bạn huấn luyện mô hình trên các ví dụ trong tập huấn luyện. Do đó, mô hình sẽ tìm hiểu các đặc điểm của dữ liệu trong tập huấn luyện. Về cơ bản, việc khái quát hoá hỏi liệu mô hình của bạn có thể đưa ra dự đoán chính xác về các ví dụ không có trong tập huấn luyện hay không.

Để khuyến khích việc khái quát hoá, quy trình chuẩn hoá giúp mô hình huấn luyện ít chính xác hơn về các đặc điểm của dữ liệu trong tập huấn luyện.

Hãy xem phần Tổng quát hoá trong Khoá học học máy ứng dụng để biết thêm thông tin.

đường cong tổng quát hoá

#fundamentals

Biểu đồ của cả mất mát trong quá trình huấn luyện và mất mát trong quá trình xác thực dưới dạng hàm của số lặp lại.

Đường cong tổng quát có thể giúp bạn phát hiện trường hợp quá thích ứng. Ví dụ: đường cong tổng quát sau đây cho thấy tình trạng phù hợp quá mức vì tổn thất xác thực cuối cùng sẽ cao hơn đáng kể so với tổn thất huấn luyện.

Biểu đồ Descartes trong đó trục y được gắn nhãn là tổn thất và trục x được gắn nhãn là số lần lặp lại. Hai biểu đồ sẽ xuất hiện. Một biểu đồ cho thấy tổn thất huấn luyện và biểu đồ còn lại cho thấy tổn thất xác thực.
Hai biểu đồ bắt đầu tương tự nhau, nhưng cuối cùng, tổn thất trong quá trình huấn luyện sẽ giảm xuống thấp hơn nhiều so với tổn thất trong quá trình xác thực.

Hãy xem phần Tổng quát hoá trong Khoá học học máy ứng dụng để biết thêm thông tin.

phương pháp giảm độ dốc

#fundamentals

Một kỹ thuật toán học để giảm thiểu sự tổn thất. Phương pháp hạ gradient điều chỉnh lặp lại trọng số và độ lệch, dần dần tìm ra tổ hợp tốt nhất để giảm thiểu tổn thất.

Phương pháp giảm dần theo độ dốc đã xuất hiện từ rất lâu, lâu hơn nhiều so với công nghệ học máy.

Xem phần Phương pháp hồi quy tuyến tính: Phương pháp hạ gradient trong khoá học cấp tốc về học máy để biết thêm thông tin.

thông tin thực tế

#fundamentals

Thực tế.

Điều thực sự đã xảy ra.

Ví dụ: hãy xem xét một mô hình phân loại nhị phân dự đoán liệu một sinh viên năm nhất đại học có tốt nghiệp trong vòng 6 năm hay không. Giá trị thực tế cho mô hình này là liệu sinh viên đó có thực sự tốt nghiệp trong vòng 6 năm hay không.

Nhấp vào biểu tượng để xem thêm ghi chú.

Chúng tôi đánh giá chất lượng mô hình dựa trên giá trị thực tế. Tuy nhiên, thông tin thực tế không phải lúc nào cũng hoàn toàn chính xác. Ví dụ: hãy xem xét các ví dụ sau đây về những điểm không hoàn hảo có thể có trong thông tin thực tế:

Trong ví dụ về lễ tốt nghiệp, chúng ta có chắc chắn rằng hồ sơ tốt nghiệp của mỗi học viên luôn chính xác không? Hệ thống lưu trữ hồ sơ của trường đại học có hoàn hảo không?
Giả sử nhãn là một giá trị dấu phẩy động được đo bằng các thiết bị (ví dụ: áp kế). Làm cách nào để chúng ta chắc chắn rằng mỗi thiết bị được hiệu chuẩn giống nhau hoặc mỗi lần đọc được thực hiện trong cùng một hoàn cảnh?
Nếu nhãn là vấn đề về quan điểm của con người, làm cách nào để chúng ta chắc chắn rằng mỗi người đánh giá đều đánh giá các sự kiện theo cùng một cách? Để cải thiện tính nhất quán, đôi khi, các nhân viên đánh giá chuyên gia sẽ can thiệp.

Cao

lớp ẩn

#fundamentals

Một lớp trong mạng nơron giữa lớp đầu vào (các đặc điểm) và lớp đầu ra (dự đoán). Mỗi lớp ẩn bao gồm một hoặc nhiều neuron. Ví dụ: mạng nơron sau đây chứa hai lớp ẩn, lớp đầu tiên có 3 tế bào thần kinh và lớp thứ hai có 2 tế bào thần kinh:

Mạng nơron sâu chứa nhiều lớp ẩn. Ví dụ: hình minh hoạ trước là một mạng nơron sâu vì mô hình chứa hai lớp ẩn.

Hãy xem phần Mạng nơron: Nút và lớp ẩn trong khoá học cấp tốc về máy học để biết thêm thông tin.

siêu tham số

#fundamentals

Các biến mà bạn hoặc dịch vụ điều chỉnh tham số siêu dữ liệu điều chỉnh trong các lần chạy liên tiếp để huấn luyện mô hình. Ví dụ: tốc độ học là một tham số siêu dữ liệu. Bạn có thể đặt tốc độ học là 0,01 trước một phiên huấn luyện. Nếu xác định rằng 0,01 là quá cao, bạn có thể đặt tốc độ học thành 0,003 cho phiên huấn luyện tiếp theo.

Ngược lại, tham số là các trọng số và sai số khác nhau mà mô hình học được trong quá trình huấn luyện.

Hãy xem phần Phương pháp hồi quy tuyến tính: Tham số siêu dữ liệu trong khoá học cấp tốc về học máy để biết thêm thông tin.

I

phân phối độc lập và đồng nhất (i.i.d)

#fundamentals

Dữ liệu được lấy từ một phân phối không thay đổi và mỗi giá trị được vẽ không phụ thuộc vào các giá trị đã được vẽ trước đó. I.i.d. là khí lý tưởng của học máy – một cấu trúc toán học hữu ích nhưng hầu như không bao giờ tìm thấy chính xác trong thế giới thực. Ví dụ: việc phân phối khách truy cập đến một trang web có thể là i.i.d. trong một khoảng thời gian ngắn; tức là việc phân phối không thay đổi trong khoảng thời gian ngắn đó và lượt truy cập của một người thường độc lập với lượt truy cập của người khác. Tuy nhiên, nếu bạn mở rộng khoảng thời gian đó, sự khác biệt theo mùa trong số khách truy cập trang web có thể xuất hiện.

Xem thêm về tính không ổn định.

suy luận

#fundamentals

Trong học máy, quá trình đưa ra dự đoán bằng cách áp dụng mô hình đã huấn luyện cho các ví dụ chưa được gắn nhãn.

Suy luận có ý nghĩa hơi khác trong thống kê. Hãy xem bài viết trên Wikipedia về suy luận thống kê để biết thông tin chi tiết.

Hãy xem phần Học có giám sát trong khoá học Giới thiệu về học máy để biết vai trò của suy luận trong hệ thống học có giám sát.

lớp đầu vào

#fundamentals

Lớp của mạng nơron chứa vectơ đặc trưng. Tức là lớp đầu vào cung cấp ví dụ để huấn luyện hoặc xác định. Ví dụ: lớp đầu vào trong mạng nơron sau đây bao gồm hai đặc điểm:

Bốn lớp: một lớp đầu vào, hai lớp ẩn và một lớp đầu ra.

khả năng diễn giải

#fundamentals

Khả năng giải thích hoặc trình bày lý do của mô hình học máy bằng các thuật ngữ mà con người có thể hiểu được.

Ví dụ: hầu hết các mô hình biến hồi quy tuyến tính đều có thể diễn giải được. (Bạn chỉ cần xem trọng số đã huấn luyện cho từng tính năng.) Rừng quyết định cũng có khả năng diễn giải cao. Tuy nhiên, một số mô hình yêu cầu hình ảnh trực quan phức tạp để có thể diễn giải.

Bạn có thể sử dụng Công cụ diễn giải học tập (LIT) để diễn giải các mô hình học máy.

vòng lặp

#fundamentals

Một lần cập nhật tham số của mô hình – trọng số và sai số của mô hình – trong quá trình huấn luyện. Kích thước lô xác định số lượng ví dụ mà mô hình xử lý trong một lần lặp. Ví dụ: nếu kích thước lô là 20, thì mô hình sẽ xử lý 20 ví dụ trước khi điều chỉnh các tham số.

Khi huấn luyện một mạng nơron, một vòng lặp duy nhất sẽ bao gồm hai lượt truyền sau:

Một lượt truyền thẳng để đánh giá tổn thất trên một lô.
Truyền ngược (backpropagation) để điều chỉnh các tham số của mô hình dựa trên tổn thất và tốc độ học.

Hãy xem phần Đường dẫn xuống theo độ dốc trong Khoá học học máy ứng dụng để biết thêm thông tin.

L

Điều hoà L₀

#fundamentals

Một loại quy tắc chuẩn hoá sẽ phạt tổng số trọng số không bằng 0 trong một mô hình. Ví dụ: một mô hình có 11 trọng số khác 0 sẽ bị phạt nhiều hơn một mô hình tương tự có 10 trọng số khác 0.

Đôi khi, quy trình điều hoà L₀ được gọi là quy trình điều hoà theo chuẩn L0.

Nhấp vào biểu tượng để xem thêm ghi chú.

Việc chuẩn hoá L₀ thường không thực tế trong các mô hình lớn vì việc chuẩn hoá L₀ sẽ biến quá trình huấn luyện thành một vấn đề tối ưu hoá lồi.

Mất L₁

#fundamentals

#Metric

Hàm tổn thất tính toán giá trị tuyệt đối của chênh lệch giữa các giá trị thẻ thực tế và các giá trị mà mô hình dự đoán. Ví dụ: sau đây là cách tính toán tổn thất L₁ cho một lô gồm 5 ví dụ:

Giá trị thực tế của ví dụ	Giá trị dự đoán của mô hình	Giá trị tuyệt đối của delta
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = tổn thất L₁

Mất mát L₁ ít nhạy cảm với điểm ngoại lai hơn mất mát L₂.

Sai số tuyệt đối trung bình là tổn thất trung bình L₁ trên mỗi ví dụ.

Nhấp vào biểu tượng để xem toán học chính thức.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

trong đó:

$n$ là số lượng ví dụ.
$y$ là giá trị thực tế của nhãn.
$\hat{y}$ là giá trị mà mô hình dự đoán cho $y$.

Hãy xem phần Phương pháp hồi quy tuyến tính: Mất trong khoá học cấp tốc về học máy để biết thêm thông tin.

Điều hoà L₁

#fundamentals

Một loại quy tắc chuẩn hoá phạt trọng số theo tỷ lệ với tổng giá trị tuyệt đối của trọng số. Việc chuẩn hoá L₁ giúp tăng trọng số của các đặc điểm không liên quan hoặc gần như không liên quan lên chính xác là 0. Một tính năng có trọng số là 0 sẽ bị xoá hiệu quả khỏi mô hình.

Tương phản với quy trình điều hoà L₂.

Mất L₂

#fundamentals

#Metric

Hàm tổn thất tính toán bình phương của chênh lệch giữa các giá trị thẻ thực tế và các giá trị mà mô hình dự đoán. Ví dụ: sau đây là cách tính toán tổn thất L₂ cho một lô gồm 5 ví dụ:

Giá trị thực tế của ví dụ	Giá trị dự đoán của mô hình	Delta vuông
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = tổn thất L₂

Do việc bình phương, tổn thất L₂ làm tăng ảnh hưởng của các điểm ngoại lai. Tức là tổn thất L₂ phản ứng mạnh mẽ hơn với các dự đoán không chính xác so với tổn thất L₁. Ví dụ: tổn thất L₁ cho lô trước đó sẽ là 8 thay vì 16. Lưu ý rằng một giá trị ngoại lai chiếm 9 trong số 16 giá trị.

Các mô hình hồi quy thường sử dụng hàm tổn thất L₂ làm hàm tổn thất.

Sai số bình phương trung bình là tổn thất trung bình L₂ trên mỗi ví dụ. Tổn thất bình phương là một tên khác của tổn thất L₂.

Nhấp vào biểu tượng để xem toán học chính thức.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

trong đó:

$n$ là số lượng ví dụ.
$y$ là giá trị thực tế của nhãn.
$\hat{y}$ là giá trị mà mô hình dự đoán cho $y$.

Hãy xem phần Logistic regression: Loss and regularization (Phương pháp hồi quy logistic: Mất và điều chỉnh) trong khoá học cấp tốc về học máy để biết thêm thông tin.

Điều hoà L₂

#fundamentals

Một loại quy tắc chuẩn hoá phạt trọng số theo tỷ lệ với tổng hình vuông của các trọng số. Phương pháp chuẩn hoá L₂ giúp tăng trọng số điểm ngoại lai (những điểm có giá trị dương cao hoặc giá trị âm thấp) gần với 0 nhưng không hoàn toàn bằng 0. Các đặc điểm có giá trị rất gần với 0 vẫn còn trong mô hình nhưng không ảnh hưởng nhiều đến kết quả dự đoán của mô hình.

Quy trình chuẩn hoá L₂ luôn cải thiện khả năng khái quát hoá trong mô hình tuyến tính.

Tương phản với quy trình điều hoà L₁.

Hãy xem phần Thừa khớp: Điều chỉnh L2 trong Khoá học học máy ứng dụng để biết thêm thông tin.

nhãn

#fundamentals

Trong học máy có giám sát, phần "đáp án" hoặc "kết quả" của một ví dụ.

Mỗi ví dụ được gắn nhãn bao gồm một hoặc nhiều tính năng và một nhãn. Ví dụ: trong tập dữ liệu phát hiện nội dung rác, nhãn có thể là "rác" hoặc "không phải rác". Trong tập dữ liệu về lượng mưa, nhãn có thể là lượng mưa trong một khoảng thời gian nhất định.

Hãy xem phần Học có giám sát trong bài viết Giới thiệu về công nghệ học máy để biết thêm thông tin.

ví dụ về dữ liệu có nhãn

#fundamentals

Ví dụ chứa một hoặc nhiều tính năng và một nhãn. Ví dụ: bảng sau đây cho thấy 3 ví dụ được gắn nhãn từ một mô hình định giá nhà, mỗi ví dụ có 3 đặc điểm và 1 nhãn:

Số lượng phòng ngủ	Số lượng phòng tắm	Tuổi nhà	Giá nhà (nhãn)
3	2	15	345.000 đô la
2	1	72	179.000 đô la
4	2	34	392.000 đô la

Trong công nghệ học máy có giám sát, các mô hình được huấn luyện dựa trên các ví dụ được gắn nhãn và đưa ra dự đoán dựa trên các ví dụ không được gắn nhãn.

So sánh ví dụ có gắn nhãn với ví dụ không gắn nhãn.

Hãy xem phần Học có giám sát trong bài viết Giới thiệu về công nghệ học máy để biết thêm thông tin.

lambda

#fundamentals

Đồng nghĩa với hệ số điều hoà.

Lambda là một thuật ngữ nạp chồng. Ở đây, chúng ta sẽ tập trung vào định nghĩa của thuật ngữ này trong quá trình điều chỉnh.

lớp

#fundamentals

Một tập hợp nơron trong một mạng nơron. Sau đây là 3 loại lớp phổ biến:

Lớp đầu vào cung cấp giá trị cho tất cả các tính năng.
Một hoặc nhiều lớp ẩn, tìm các mối quan hệ phi tuyến tính giữa các đặc điểm và nhãn.
Lớp đầu ra cung cấp kết quả dự đoán.

Ví dụ: hình minh hoạ sau đây cho thấy một mạng nơron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra:

Một mạng nơron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra. Lớp đầu vào bao gồm hai đặc điểm. Lớp ẩn đầu tiên bao gồm 3 tế bào thần kinh và lớp ẩn thứ hai bao gồm 2 tế bào thần kinh. Lớp đầu ra bao gồm một nút duy nhất.

Trong TensorFlow, lớp cũng là các hàm Python lấy Tensor và các tuỳ chọn cấu hình làm dữ liệu đầu vào và tạo ra các tensor khác làm dữ liệu đầu ra.

tốc độ học

#fundamentals

Một số dấu phẩy động cho thuật toán xuống dốc theo độ dốc biết mức độ điều chỉnh trọng số và độ lệch trên mỗi lặp lại. Ví dụ: tốc độ học là 0,3 sẽ điều chỉnh trọng số và độ lệch ba lần mạnh mẽ hơn so với tốc độ học là 0,1.

Tốc độ học là một biến siêu tham số chính. Nếu bạn đặt tốc độ học quá thấp, quá trình huấn luyện sẽ mất quá nhiều thời gian. Nếu bạn đặt tốc độ học quá cao, phương pháp hạ gradient thường gặp sự cố khi đạt đến điểm hội tụ.

Nhấp vào biểu tượng để xem nội dung giải thích chi tiết hơn về mặt toán học.

Trong mỗi lần lặp lại, thuật toán xuống dốc theo độ dốc sẽ nhân tốc độ học với độ dốc. Sản phẩm thu được được gọi là bước độ dốc.

Hãy xem phần Phương pháp hồi quy tuyến tính: Tham số siêu dữ liệu trong khoá học cấp tốc về học máy để biết thêm thông tin.

tuyến tính

#fundamentals

Mối quan hệ giữa hai hoặc nhiều biến chỉ có thể được biểu thị thông qua phép cộng và phép nhân.

Biểu đồ của mối quan hệ tuyến tính là một đường thẳng.

Tương phản với nonlinear.

mô hình tuyến tính

#fundamentals

Mô hình chỉ định một trọng số cho mỗi tính năng để đưa ra dự đoán. (Mô hình tuyến tính cũng kết hợp tính thiên vị.) Ngược lại, mối quan hệ giữa các đặc điểm với dự đoán trong mô hình sâu thường không tuyến tính.

Mô hình tuyến tính thường dễ huấn luyện hơn và dễ giải thích hơn so với mô hình sâu. Tuy nhiên, mô hình sâu có thể tìm hiểu các mối quan hệ phức tạp giữa các tính năng.

Hồi quy tuyến tính và hồi quy logistic là hai loại mô hình tuyến tính.

Nhấp vào biểu tượng để xem phép tính.

Mô hình tuyến tính tuân theo công thức sau:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

trong đó:

y' là kết quả dự đoán thô. (Trong một số loại mô hình tuyến tính, dự đoán thô này sẽ được sửa đổi thêm. Ví dụ: hãy xem phần hồi quy logistic.)
b là sai số.
w là trọng số, vì vậy, w₁ là trọng số của đặc điểm đầu tiên, w₂ là trọng số của đặc điểm thứ hai, v.v.
x là một tính năng, vì vậy, x₁ là giá trị của tính năng đầu tiên, x₂ là giá trị của tính năng thứ hai, v.v.

Ví dụ: giả sử một mô hình tuyến tính cho ba đặc điểm học được độ lệch và trọng số sau:

b = 7
w₁ = -2,5
w₂ = -1,2
w₃ = 1,4

Do đó, với ba đặc điểm (x₁, x₂ và x₃), mô hình tuyến tính sử dụng phương trình sau để tạo ra từng dự đoán:

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

Giả sử một ví dụ cụ thể chứa các giá trị sau:

x₁ = 4
x₂ = -10
x₃ = 5

Khi thay các giá trị đó vào công thức, bạn sẽ có được kết quả dự đoán cho ví dụ này:

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

Mô hình tuyến tính không chỉ bao gồm các mô hình chỉ sử dụng phương trình tuyến tính để đưa ra dự đoán mà còn bao gồm một tập hợp mô hình rộng hơn sử dụng phương trình tuyến tính chỉ là một thành phần của công thức đưa ra dự đoán. Ví dụ: hồi quy logistic xử lý sau dự đoán thô (y') để tạo ra giá trị dự đoán cuối cùng từ 0 đến 1.

hồi quy tuyến tính

#fundamentals

Một loại mô hình học máy trong đó cả hai điều sau đều đúng:

Mô hình này là một mô hình tuyến tính.
Kết quả dự đoán là một giá trị dấu phẩy động. (Đây là phần hồi quy của hồi quy tuyến tính.)

So sánh hồi quy tuyến tính với hồi quy logistic. Ngoài ra, hãy so sánh hồi quy với phân loại.

Hãy xem phần Phương pháp hồi quy tuyến tính trong khoá học Học máy ứng dụng để biết thêm thông tin.

hồi quy logistic

#fundamentals

Một loại mô hình hồi quy dự đoán xác suất. Mô hình hồi quy logistic có các đặc điểm sau:

Nhãn này là danh mục. Thuật ngữ hồi quy logistic thường đề cập đến hồi quy logistic nhị phân, tức là một mô hình tính toán xác suất cho các nhãn có hai giá trị có thể xảy ra. Một biến thể ít phổ biến hơn là bước hồi quy logistic đa thức, tính toán xác suất cho các nhãn có nhiều hơn hai giá trị có thể có.
Hàm tổn thất trong quá trình huấn luyện là Log Loss (Tổn thất logarit). (Bạn có thể đặt song song nhiều đơn vị Mất mát theo nhật ký cho các nhãn có nhiều hơn hai giá trị có thể có.)
Mô hình này có cấu trúc tuyến tính, chứ không phải mạng nơron sâu. Tuy nhiên, phần còn lại của định nghĩa này cũng áp dụng cho mô hình sâu dự đoán xác suất cho nhãn phân loại.

Ví dụ: hãy xem xét một mô hình hồi quy logistic tính toán xác suất một email đầu vào là thư rác hoặc không phải thư rác. Trong quá trình suy luận, giả sử mô hình dự đoán là 0,72. Do đó, mô hình đang ước tính:

Có 72% khả năng email đó là thư rác.
Có 28% khả năng email đó không phải là thư rác.

Mô hình hồi quy logistic sử dụng cấu trúc hai bước sau:

Mô hình tạo ra một dự đoán thô (y') bằng cách áp dụng hàm tuyến tính của các tính năng đầu vào.
Mô hình sử dụng thông tin dự đoán thô đó làm dữ liệu đầu vào cho hàm sigmoid. Hàm này chuyển đổi thông tin dự đoán thô thành một giá trị từ 0 đến 1, không bao gồm 0 và 1.

Giống như mọi mô hình hồi quy khác, mô hình hồi quy logistic dự đoán một con số. Tuy nhiên, con số này thường trở thành một phần của mô hình phân loại nhị phân như sau:

Nếu số được dự đoán lớn hơn ngưỡng phân loại, thì mô hình phân loại nhị phân sẽ dự đoán lớp dương.
Nếu số được dự đoán ít hơn ngưỡng phân loại, thì mô hình phân loại nhị phân sẽ dự đoán lớp âm.

Hãy xem phần Logistic hồi quy trong Khoá học học máy ứng dụng để biết thêm thông tin.

Mất dữ liệu

#fundamentals

Hàm tổn thất được dùng trong bước hồi quy logistic nhị phân.

Nhấp vào biểu tượng để xem phép tính.

Công thức sau đây tính toán Mất mát theo nhật ký:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

trong đó:

$(x,y)\in D$ là tập dữ liệu chứa nhiều ví dụ được gắn nhãn, là các cặp $(x,y)$ .
$y$ là nhãn trong ví dụ có nhãn. Vì đây là hồi quy logistic, nên mọi giá trị của $y$ phải là 0 hoặc 1.
$y'$ là giá trị dự đoán (nằm trong khoảng từ 0 đến 1, không bao gồm 0 và 1), dựa trên tập hợp các tính năng trong $x$.

Hãy xem phần Logistic regression: Loss and regularization (Phương pháp hồi quy logistic: Mất và chuẩn hoá) trong khoá học cấp tốc về học máy để biết thêm thông tin.

log-odds

#fundamentals

Logarit của tỷ lệ cược của một số sự kiện.

Nhấp vào biểu tượng để xem phép tính.

Nếu sự kiện là xác suất nhị phân, thì tỷ lệ đề cập đến tỷ lệ xác suất thành công (p) với xác suất thất bại (1-p). Ví dụ: giả sử một sự kiện nhất định có xác suất thành công là 90% và xác suất không thành công là 10%. Trong trường hợp này, tỷ lệ cược được tính như sau:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

Log-odds chỉ là logarit của tỷ lệ. Theo quy ước, "logarit" đề cập đến logarit tự nhiên, nhưng logarit thực sự có thể là bất kỳ cơ số nào lớn hơn 1. Do tuân theo quy ước, nên logarit tỷ lệ chênh lệch của ví dụ là:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

Hàm logarit tỷ lệ chênh lệch là hàm nghịch đảo của hàm sigmoid.

thua

#fundamentals

#Metric

Trong quá trình huấn luyện một mô hình có giám sát, một chỉ số đo lường khoảng cách giữa dự đoán của mô hình với nhãn của mô hình đó.

Hàm tổn thất sẽ tính toán tổn thất.

Hãy xem phần Phương pháp hồi quy tuyến tính: Mất trong khoá học cấp tốc về học máy để biết thêm thông tin.

đường cong tổn thất

#fundamentals

Biểu đồ mất mát dưới dạng hàm của số lần lặp lại trong quá trình huấn luyện. Biểu đồ sau đây cho thấy một đường cong tổn hao điển hình:

Biểu đồ Descartes về tổn thất so với số lần lặp lại trong quá trình huấn luyện, cho thấy tổn thất giảm nhanh trong các lần lặp lại ban đầu, sau đó giảm dần, rồi có độ dốc bằng phẳng trong các lần lặp lại cuối cùng.

Đường cong tổn thất có thể giúp bạn xác định thời điểm mô hình của mình hội tụ hoặc quá thích ứng.

Đường cong tổn thất có thể lập biểu đồ tất cả các loại tổn thất sau:

mất mát trong quá trình huấn luyện
mất dữ liệu xác thực
mất mát thử nghiệm

Xem thêm đường cong tổng quát hoá.

Hãy xem phần Thừa khớp: Giải thích các đường cong tổn thất trong khoá học cấp tốc về học máy để biết thêm thông tin.

hàm tổn thất

#fundamentals

#Metric

Trong quá trình huấn luyện hoặc kiểm thử, một hàm toán học sẽ tính toán tổn thất trên một lô ví dụ. Hàm tổn thất trả về tổn thất thấp hơn cho các mô hình đưa ra dự đoán chính xác hơn so với các mô hình đưa ra dự đoán không chính xác.

Mục tiêu của quá trình huấn luyện thường là giảm thiểu tổn thất mà hàm tổn thất trả về.

Có nhiều loại hàm tổn thất khác nhau. Chọn hàm tổn thất phù hợp với loại mô hình bạn đang xây dựng. Ví dụ:

Lỗ hổng₂ (hoặc Sai số bình phương trung bình) là hàm tổn thất cho bước hồi quy tuyến tính.
Mất mát theo lôgarit là hàm mất mát cho bước hồi quy logistic.

M

học máy

#fundamentals

Một chương trình hoặc hệ thống huấn luyện một mô hình từ dữ liệu đầu vào. Mô hình đã huấn luyện có thể đưa ra dự đoán hữu ích từ dữ liệu mới (chưa từng thấy trước đây) được lấy từ cùng một phân phối như dữ liệu dùng để huấn luyện mô hình.

Học máy cũng đề cập đến lĩnh vực nghiên cứu liên quan đến các chương trình hoặc hệ thống này.

Hãy xem khoá học Giới thiệu về học máy để biết thêm thông tin.

lớp đa số

#fundamentals

Nhãn phổ biến hơn trong một tập dữ liệu bất cân đối về loại. Ví dụ: với một tập dữ liệu chứa 99% nhãn âm và 1% nhãn dương, nhãn âm là lớp chiếm đa số.

Tương phản với lớp thiểu số.

Xem phần Tập dữ liệu: Tập dữ liệu không cân bằng trong khoá học cấp tốc về học máy để biết thêm thông tin.

lô nhỏ

#fundamentals

Một tập hợp con nhỏ được chọn ngẫu nhiên của một lô được xử lý trong một lượt lặp. Kích thước lô của một lô nhỏ thường dao động từ 10 đến 1.000 ví dụ.

Ví dụ: giả sử toàn bộ tập dữ liệu huấn luyện (một lô đầy đủ) bao gồm 1.000 ví dụ. Giả sử thêm rằng bạn đặt kích thước lô của mỗi lô nhỏ thành 20. Do đó, mỗi lần lặp lại sẽ xác định tổn thất trên 20 ví dụ ngẫu nhiên trong số 1.000 ví dụ,sau đó điều chỉnh trọng số và độ lệch cho phù hợp.

Việc tính toán tổn thất trên một lô nhỏ sẽ hiệu quả hơn nhiều so với tổn thất trên tất cả các ví dụ trong lô đầy đủ.

Hãy xem phần Phương pháp hồi quy tuyến tính: Tham số siêu dữ liệu trong khoá học cấp tốc về học máy để biết thêm thông tin.

lớp thiểu số

#fundamentals

Nhãn ít phổ biến hơn trong một tập dữ liệu mất cân bằng lớp. Ví dụ: với một tập dữ liệu chứa 99% nhãn âm và 1% nhãn dương, nhãn dương là lớp thiểu số.

Tương phản với lớp đa số.

Nhấp vào biểu tượng để xem thêm ghi chú.

Một tập dữ liệu huấn luyện có một triệu ví dụ nghe có vẻ rất ấn tượng. Tuy nhiên, nếu lớp thiểu số được thể hiện không tốt, thì ngay cả một tập huấn luyện rất lớn cũng có thể không đủ. Tập trung ít hơn vào tổng số ví dụ trong tập dữ liệu và tập trung nhiều hơn vào số lượng ví dụ trong lớp thiểu số.

Nếu tập dữ liệu của bạn không chứa đủ ví dụ về lớp thiểu số, hãy cân nhắc việc sử dụng tính năng lấy mẫu giảm (xem định nghĩa trong dấu đầu dòng thứ hai) để bổ sung cho lớp thiểu số.

Xem phần Tập dữ liệu: Tập dữ liệu không cân bằng trong khoá học cấp tốc về học máy để biết thêm thông tin.

kiểu máy

#fundamentals

Nhìn chung, bất kỳ cấu trúc toán học nào xử lý dữ liệu đầu vào và trả về đầu ra. Nói cách khác, mô hình là tập hợp các tham số và cấu trúc cần thiết để hệ thống đưa ra dự đoán. Trong công nghệ học máy có giám sát, mô hình sẽ lấy một ví dụ làm dữ liệu đầu vào và suy luận ra dự đoán làm dữ liệu đầu ra. Trong học máy có giám sát, các mô hình có phần khác biệt. Ví dụ:

Mô hình hồi quy tuyến tính bao gồm một tập hợp trọng số và một sai số.
Mô hình mạng nơron bao gồm:
- Một tập hợp các lớp ẩn, mỗi lớp chứa một hoặc nhiều neuron.
- Trọng số và độ lệch liên kết với mỗi tế bào thần kinh.
Mô hình cây quyết định bao gồm:
- Hình dạng của cây; tức là mẫu mà các điều kiện và lá được kết nối.
- Các điều kiện và lá.

Bạn có thể lưu, khôi phục hoặc tạo bản sao của một mô hình.

Công nghệ học máy không giám sát cũng tạo ra các mô hình, thường là một hàm có thể liên kết một ví dụ đầu vào với cụm phù hợp nhất.

Nhấp vào biểu tượng để so sánh các hàm đại số và lập trình với các mô hình học máy.

Một hàm đại số như sau là một mô hình:

  f(x, y) = 3x -5xy + y² + 17

Hàm trước đó ánh xạ các giá trị đầu vào (x và y) đến đầu ra.

Tương tự, một hàm lập trình như sau cũng là một mô hình:

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

Phương thức gọi truyền các đối số đến hàm Python trước đó và hàm Python sẽ tạo ra kết quả (thông qua câu lệnh return).

Mặc dù mạng nơron sâu có cấu trúc toán học rất khác với hàm đại số hoặc hàm lập trình, nhưng mạng nơron sâu vẫn nhận dữ liệu đầu vào (ví dụ) và trả về dữ liệu đầu ra (dự đoán).

Lập trình viên viết mã hàm lập trình theo cách thủ công. Ngược lại, mô hình học máy dần dần học các tham số tối ưu trong quá trình huấn luyện tự động.

phân loại nhiều lớp

#fundamentals

Trong phương pháp học có giám sát, một vấn đề phân loại trong đó tập dữ liệu chứa hơn hai lớp nhãn. Ví dụ: nhãn trong tập dữ liệu Iris phải là một trong ba lớp sau:

Iris setosa
Iris virginica
Iris versicolor

Mô hình được huấn luyện trên tập dữ liệu Iris để dự đoán loại Iris trên các ví dụ mới đang thực hiện phân loại nhiều lớp.

Ngược lại, các vấn đề phân loại phân biệt chính xác giữa hai lớp là mô hình phân loại nhị phân. Ví dụ: mô hình email dự đoán thư rác hoặc không phải thư rác là mô hình phân loại nhị phân.

Trong các vấn đề về cụm, việc phân loại nhiều lớp đề cập đến nhiều hơn hai cụm.

Hãy xem phần Mạng nơron: Phân loại nhiều lớp trong khoá học cấp tốc về học máy để biết thêm thông tin.

Không

lớp âm

#fundamentals

#Metric

Trong phân loại nhị phân, một lớp được gọi là dương và lớp còn lại được gọi là âm. Lớp dương là đối tượng hoặc sự kiện mà mô hình đang kiểm thử và lớp âm là khả năng khác. Ví dụ:

Lớp âm tính trong một bài kiểm tra y tế có thể là "không phải khối u".
Lớp âm trong một mô hình phân loại email có thể là "không phải thư rác".

Tương phản với lớp dương.

mạng nơron

#fundamentals

Một mô hình chứa ít nhất một lớp ẩn. Mạng nơron sâu là một loại mạng nơron chứa nhiều lớp ẩn. Ví dụ: Sơ đồ sau đây cho thấy một mạng nơron sâu chứa hai lớp ẩn.

Một mạng nơron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra.

Mỗi tế bào thần kinh trong mạng nơron kết nối với tất cả các nút trong lớp tiếp theo. Ví dụ: trong sơ đồ trước, hãy lưu ý rằng mỗi trong số 3 tế bào thần kinh trong lớp ẩn đầu tiên kết nối riêng biệt với cả hai tế bào thần kinh trong lớp ẩn thứ hai.

Mạng nơron được triển khai trên máy tính đôi khi được gọi là mạng nơron nhân tạo để phân biệt với mạng nơron có trong não và các hệ thống thần kinh khác.

Một số mạng nơron có thể mô phỏng các mối quan hệ phi tuyến tính cực kỳ phức tạp giữa các đặc điểm và nhãn.

Xem thêm mạng nơron tích chập và mạng nơron tái sinh.

Hãy xem phần Mạng nơron trong Khoá học học máy ứng dụng để biết thêm thông tin.

nơron

#fundamentals

Trong học máy, một đơn vị riêng biệt trong lớp ẩn của mạng nơron. Mỗi tế bào thần kinh thực hiện thao tác hai bước sau:

Tính tổng trọng số của các giá trị đầu vào nhân với trọng số tương ứng.
Truyền tổng trọng số làm dữ liệu đầu vào cho một hàm kích hoạt.

Một tế bào thần kinh trong lớp ẩn đầu tiên chấp nhận dữ liệu đầu vào từ các giá trị đặc điểm trong lớp đầu vào. Một tế bào thần kinh trong bất kỳ lớp ẩn nào ngoài lớp đầu tiên sẽ chấp nhận dữ liệu đầu vào từ các tế bào thần kinh trong lớp ẩn trước đó. Ví dụ: một tế bào thần kinh trong lớp ẩn thứ hai chấp nhận dữ liệu đầu vào từ các tế bào thần kinh trong lớp ẩn đầu tiên.

Hình minh hoạ sau đây nêu bật hai tế bào thần kinh và đầu vào của chúng.

Một mạng nơron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra. Hai tế bào thần kinh được làm nổi bật: một tế bào trong lớp ẩn đầu tiên và một tế bào trong lớp ẩn thứ hai. Tế bào thần kinh được làm nổi bật trong lớp ẩn đầu tiên nhận dữ liệu đầu vào từ cả hai đặc điểm trong lớp đầu vào. Nơron được làm nổi bật trong lớp ẩn thứ hai nhận dữ liệu đầu vào từ mỗi trong số ba nơron trong lớp ẩn đầu tiên.

Một nơron trong mạng nơron bắt chước hành vi của các nơron trong não và các phần khác của hệ thần kinh.

nút (mạng nơron)

#fundamentals

Một nơron trong lớp ẩn.

Hãy xem phần Mạng nơron trong khoá học Học máy ứng dụng để biết thêm thông tin.

nonlinear

#fundamentals

Mối quan hệ giữa hai hoặc nhiều biến không thể được biểu thị chỉ thông qua phép cộng và phép nhân. Mối quan hệ tuyến tính có thể được biểu thị dưới dạng một đường thẳng; mối quan hệ phi tuyến tính không thể được biểu thị dưới dạng một đường thẳng. Ví dụ: hãy xem xét hai mô hình, mỗi mô hình liên kết một tính năng với một nhãn. Mô hình ở bên trái là tuyến tính và mô hình ở bên phải là phi tuyến tính:

Hai biểu đồ. Một đồ thị là một đường thẳng, vì vậy đây là mối quan hệ tuyến tính.
Biểu đồ còn lại là một đường cong, vì vậy đây là mối quan hệ phi tuyến tính.

Xem phần Mạng nơron: Nút và lớp ẩn trong khoá học Học nhanh về học máy để thử nghiệm với nhiều loại hàm phi tuyến tính.

không tĩnh

#fundamentals

Một đặc điểm có giá trị thay đổi trên một hoặc nhiều phương diện, thường là thời gian. Ví dụ: hãy xem xét các ví dụ sau về tính không ổn định:

Số lượng bộ đồ bơi được bán tại một cửa hàng cụ thể thay đổi theo mùa.
Lượng một loại trái cây cụ thể được thu hoạch ở một khu vực cụ thể là 0 trong phần lớn thời gian trong năm nhưng lại lớn trong một khoảng thời gian ngắn.
Do biến đổi khí hậu, nhiệt độ trung bình hằng năm đang thay đổi.

Tương phản với tính chất không đổi.

chuẩn hoá

#fundamentals

Nói chung, quá trình chuyển đổi phạm vi giá trị thực tế của một biến thành phạm vi giá trị chuẩn, chẳng hạn như:

-1 đến +1
0 đến 1
Điểm Z (khoảng từ -3 đến +3)

Ví dụ: giả sử phạm vi giá trị thực tế của một tính năng nhất định là từ 800 đến 2.400. Trong quá trình kỹ thuật tính năng, bạn có thể chuẩn hoá các giá trị thực tế xuống một phạm vi tiêu chuẩn, chẳng hạn như -1 đến +1.

Việc chuẩn hoá là một nhiệm vụ phổ biến trong quá trình xây dựng đặc điểm. Các mô hình thường huấn luyện nhanh hơn (và đưa ra kết quả dự đoán tốt hơn) khi mọi đặc điểm số trong vectơ đặc điểm có phạm vi gần như giống nhau.

Xem thêm phần Chuẩn hoá điểm Z.

Hãy xem phần Dữ liệu số: Biến đổi chuẩn hoá trong khoá học cấp tốc về học máy để biết thêm thông tin.

dữ liệu dạng số

#fundamentals

Tính năng được biểu thị dưới dạng số nguyên hoặc số thực. Ví dụ: mô hình định giá nhà có thể thể hiện kích thước của một ngôi nhà (tính bằng feet vuông hoặc mét vuông) dưới dạng dữ liệu số. Việc biểu thị một đặc điểm dưới dạng dữ liệu dạng số cho biết rằng các giá trị của đặc điểm đó có mối quan hệ toán học với nhãn. Tức là số mét vuông trong một ngôi nhà có thể có một số mối quan hệ toán học với giá trị của ngôi nhà đó.

Không phải tất cả dữ liệu số nguyên đều phải được biểu thị dưới dạng dữ liệu số. Ví dụ: mã bưu chính ở một số nơi trên thế giới là số nguyên; tuy nhiên, mã bưu chính số nguyên không được biểu thị dưới dạng dữ liệu số trong mô hình. Đó là do mã bưu chính 20000 không mạnh gấp đôi (hoặc một nửa) so với mã bưu chính 10000. Hơn nữa, mặc dù các mã bưu chính khác nhau có mối tương quan với các giá trị bất động sản khác nhau, nhưng chúng ta không thể giả định rằng giá trị bất động sản tại mã bưu chính 20000 có giá trị gấp đôi giá trị bất động sản tại mã bưu chính 10000. Thay vào đó, bạn nên biểu thị mã bưu chính dưới dạng dữ liệu dạng danh mục.

Đôi khi, các đặc điểm số được gọi là các đặc điểm liên tục.

Hãy xem phần Làm việc với dữ liệu số trong khoá học cấp tốc về Máy học để biết thêm thông tin.

O

ngoại tuyến

#fundamentals

Từ đồng nghĩa với tĩnh.

suy luận ngoại tuyến

#fundamentals

Quy trình một mô hình tạo một loạt dự đoán rồi lưu các dự đoán đó vào bộ nhớ đệm. Sau đó, ứng dụng có thể truy cập vào dự đoán được suy luận từ bộ nhớ đệm thay vì chạy lại mô hình.

Ví dụ: hãy xem xét một mô hình tạo thông tin dự báo thời tiết tại địa phương (dự đoán) 4 giờ một lần. Sau mỗi lần chạy mô hình, hệ thống sẽ lưu tất cả thông tin dự báo thời tiết tại địa phương vào bộ nhớ đệm. Ứng dụng thời tiết truy xuất thông tin dự báo từ bộ nhớ đệm.

Suy luận ngoại tuyến còn được gọi là suy luận tĩnh.

Tương phản với sự suy luận trực tuyến.

Hãy xem phần Hệ thống ML thương mại: Suy luận tĩnh so với động trong khoá học cấp tốc về học máy để biết thêm thông tin.

mã hoá one-hot

#fundamentals

Biểu thị dữ liệu phân loại dưới dạng một vectơ trong đó:

Một phần tử được đặt thành 1.
Tất cả các phần tử khác được đặt thành 0.

Mã hoá một nóng thường được dùng để biểu thị các chuỗi hoặc giá trị nhận dạng có một tập hợp các giá trị có thể có hữu hạn. Ví dụ: giả sử một tính năng phân loại nhất định có tên Scandinavia có 5 giá trị có thể có:

"Đan Mạch"
"Thụy Điển"
"Na Uy"
"Phần Lan"
"Iceland"

Mã hoá một nóng có thể biểu thị từng giá trị trong số 5 giá trị như sau:

country	Vectơ
"Đan Mạch"	1	0	0	0	0
"Thụy Điển"	0	1	0	0	0
"Na Uy"	0	0	1	0	0
"Phần Lan"	0	0	0	1	0
"Iceland"	0	0	0	0	1

Nhờ mã hoá một chiều, mô hình có thể học các mối liên kết khác nhau dựa trên từng quốc gia trong số 5 quốc gia.

Việc biểu thị một đặc điểm dưới dạng dữ liệu số là một giải pháp thay thế cho phương thức mã hoá one-hot. Rất tiếc, việc biểu thị các quốc gia Bắc Âu theo số không phải là lựa chọn hay. Ví dụ: hãy xem xét cách biểu thị bằng số sau:

"Đan Mạch" là 0
"Thụy Điển" là 1
"Na Uy" là 2
"Phần Lan" là 3
"Iceland" là 4

Với phương thức mã hoá số, mô hình sẽ diễn giải các số thô theo phương pháp toán học và cố gắng huấn luyện dựa trên các số đó. Tuy nhiên, Iceland không thực sự có gấp đôi (hoặc một nửa) số lượng của một thứ nào đó so với Na Uy, vì vậy, mô hình này sẽ đưa ra một số kết luận kỳ lạ.

Hãy xem phần Dữ liệu phân loại: Từ vựng và mã hoá một nóng trong khoá học cấp tốc về máy học để biết thêm thông tin.

một-với-tất-cả

#fundamentals

Với một vấn đề phân loại có N lớp, giải pháp bao gồm N trình phân loại nhị phân riêng biệt – một trình phân loại nhị phân cho mỗi kết quả có thể xảy ra. Ví dụ: với một mô hình phân loại các ví dụ là động vật, rau hoặc khoáng sản, giải pháp một-với-tất-cả sẽ cung cấp ba bộ phân loại nhị phân riêng biệt sau:

động vật so với không phải động vật
rau so với không phải rau
khoáng chất so với không phải khoáng chất

trực tuyến

#fundamentals

Từ đồng nghĩa với động.

suy luận trực tuyến

#fundamentals

Tạo dự đoán theo yêu cầu. Ví dụ: giả sử một ứng dụng chuyển dữ liệu đầu vào đến một mô hình và đưa ra yêu cầu dự đoán. Hệ thống sử dụng suy luận trực tuyến sẽ phản hồi yêu cầu bằng cách chạy mô hình (và trả về kết quả dự đoán cho ứng dụng).

Tương phản với nhận định ngoại tuyến.

Hãy xem phần Hệ thống ML thương mại: Suy luận tĩnh so với động trong khoá học cấp tốc về học máy để biết thêm thông tin.

lớp đầu ra

#fundamentals

Lớp "cuối cùng" của mạng nơron. Lớp đầu ra chứa kết quả dự đoán.

Hình minh hoạ sau đây cho thấy một mạng nơron sâu nhỏ với một lớp đầu vào, hai lớp ẩn và một lớp đầu ra:

khái quát hoá kém

#fundamentals

Tạo một mô hình khớp với dữ liệu huấn luyện đến mức mô hình không thể dự đoán chính xác dữ liệu mới.

Quy trình chuẩn hoá có thể làm giảm tình trạng phù hợp quá mức. Việc huấn luyện trên một tập dữ liệu huấn luyện lớn và đa dạng cũng có thể làm giảm tình trạng thích ứng quá mức.

Nhấp vào biểu tượng để xem thêm ghi chú.

Hiện tượng thích ứng quá mức giống như việc chỉ làm theo lời khuyên của giáo viên mà bạn yêu thích. Bạn có thể thành công trong lớp học của giáo viên đó, nhưng bạn cũng có thể "quá phù hợp" với các ý tưởng của giáo viên đó và không thành công trong các lớp học khác. Việc làm theo lời khuyên của nhiều giáo viên sẽ giúp bạn thích ứng tốt hơn với các tình huống mới.

Hãy xem phần Thừa khớp trong Khoá học học máy ứng dụng để biết thêm thông tin.

Điểm

gấu trúc

#fundamentals

API phân tích dữ liệu theo cột được xây dựng dựa trên numpy. Nhiều khung máy học, bao gồm cả TensorFlow, hỗ trợ cấu trúc dữ liệu pandas làm dữ liệu đầu vào. Hãy xem tài liệu về pandas để biết thông tin chi tiết.

tham số

#fundamentals

Trọng số và độ lệch mà mô hình học được trong quá trình huấn luyện. Ví dụ: trong mô hình biến hồi quy tuyến tính, các tham số bao gồm độ lệch (b) và tất cả các trọng số (w₁, w₂, v.v.) theo công thức sau:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Ngược lại, tham số siêu dữ liệu là các giá trị mà bạn (hoặc dịch vụ điều chỉnh tham số siêu dữ liệu) cung cấp cho mô hình. Ví dụ: tốc độ học là một tham số siêu dữ liệu.

lớp dương

#fundamentals

#Metric

Lớp mà bạn đang kiểm thử.

Ví dụ: lớp dương tính trong mô hình ung thư có thể là "u". Lớp dương tính trong mô hình phân loại email có thể là "thư rác".

Tương phản với lớp âm.

Nhấp vào biểu tượng để xem thêm ghi chú.

Thuật ngữ lớp dương tính có thể gây nhầm lẫn vì kết quả "dương tính" của nhiều bài kiểm thử thường là kết quả không mong muốn. Ví dụ: lớp dương tính trong nhiều xét nghiệm y tế tương ứng với khối u hoặc bệnh tật. Nói chung, bạn muốn bác sĩ nói với bạn rằng: "Chúc mừng! Kết quả xét nghiệm của bạn là âm tính". Dù sao, lớp dương tính là sự kiện mà kiểm thử đang tìm kiếm.

Bạn đang đồng thời kiểm thử cả lớp tích cực và lớp tiêu cực.

xử lý hậu kỳ

#responsible

#fundamentals

Điều chỉnh đầu ra của mô hình sau khi mô hình đã chạy. Bạn có thể sử dụng quy trình xử lý hậu kỳ để thực thi các quy tắc ràng buộc về tính công bằng mà không cần sửa đổi các mô hình.

Ví dụ: bạn có thể áp dụng quy trình xử lý sau cho một trình phân loại nhị phân bằng cách đặt ngưỡng phân loại sao cho bình đẳng về cơ hội được duy trì cho một số thuộc tính bằng cách kiểm tra xem tỷ lệ dương tính thực sự có giống nhau đối với tất cả các giá trị của thuộc tính đó hay không.

dự đoán

#fundamentals

Đầu ra của mô hình. Ví dụ:

Kết quả dự đoán của mô hình phân loại nhị phân là lớp tích cực hoặc lớp tiêu cực.
Kết quả dự đoán của mô hình phân loại đa lớp là một lớp.
Kết quả dự đoán của mô hình hồi quy tuyến tính là một con số.

nhãn đại diện

#fundamentals

Dữ liệu dùng để ước tính các nhãn không có sẵn trực tiếp trong tập dữ liệu.

Ví dụ: giả sử bạn phải huấn luyện một mô hình để dự đoán mức độ căng thẳng của nhân viên. Tập dữ liệu của bạn chứa nhiều tính năng dự đoán nhưng không chứa nhãn có tên mức độ căng thẳng. Không nản lòng, bạn chọn "tai nạn tại nơi làm việc" làm nhãn đại diện cho mức độ căng thẳng. Xét cho cùng, những nhân viên chịu nhiều áp lực sẽ gặp nhiều tai nạn hơn so với những nhân viên bình tĩnh. Có phải vậy không? Có thể số vụ tai nạn tại nơi làm việc thực sự tăng và giảm vì nhiều lý do.

Ví dụ thứ hai: giả sử bạn muốn is it raining? (có mưa không?) là nhãn Boolean cho tập dữ liệu của mình, nhưng tập dữ liệu đó không chứa dữ liệu về mưa. Nếu có ảnh, bạn có thể thiết lập ảnh người dân cầm ô làm nhãn đại diện cho câu lệnh có mưa không? Đó có phải là một nhãn proxy tốt không? Có thể, nhưng người dân ở một số nền văn hoá có thể mang ô để chống nắng nhiều hơn là chống mưa.

Nhãn proxy thường không hoàn hảo. Khi có thể, hãy chọn nhãn thực tế thay vì nhãn proxy. Tuy nhiên, khi không có nhãn thực tế, hãy chọn nhãn proxy rất cẩn thận, chọn ứng cử viên nhãn proxy ít tệ nhất.

Hãy xem phần Tập dữ liệu: Nhãn trong Khoá học học máy ứng dụng để biết thêm thông tin.

Điểm

RAG

#fundamentals

Viết tắt của tạo dữ liệu tăng cường truy xuất.

người gán nhãn

#fundamentals

Một người cung cấp nhãn cho ví dụ. "Người chú thích" là một tên gọi khác của người đánh giá.

Hãy xem phần Dữ liệu phân loại: Các vấn đề thường gặp trong khoá học cấp tốc về học máy để biết thêm thông tin.

Rectified Linear Unit (ReLU)

#fundamentals

Hàm kích hoạt có hành vi sau:

Nếu giá trị đầu vào là âm hoặc 0, thì kết quả sẽ là 0.
Nếu giá trị đầu vào là dương, thì giá trị đầu ra bằng với giá trị đầu vào.

Ví dụ:

Nếu giá trị đầu vào là -3, thì kết quả sẽ là 0.
Nếu giá trị đầu vào là +3, thì kết quả sẽ là 3.0.

Dưới đây là biểu đồ của ReLU:

ReLU là một hàm kích hoạt rất phổ biến. Mặc dù có hành vi đơn giản, nhưng ReLU vẫn cho phép mạng nơron học các mối quan hệ không tuyến tính giữa các đặc điểm và nhãn.

mô hình hồi quy

#fundamentals

Nói một cách không chính thức, mô hình tạo ra dự đoán dạng số. (Ngược lại, mô hình phân loại sẽ tạo ra một dự đoán về lớp.) Ví dụ: sau đây là tất cả các mô hình hồi quy:

Mô hình dự đoán giá trị của một ngôi nhà nhất định bằng Euro, chẳng hạn như 423.000.
Mô hình dự đoán tuổi thọ của một cây nhất định tính bằng năm, chẳng hạn như 23,2.
Mô hình dự đoán lượng mưa tính bằng inch sẽ rơi ở một thành phố nhất định trong 6 giờ tới, chẳng hạn như 0,18.

Hai loại mô hình hồi quy phổ biến là:

Phương pháp hồi quy tuyến tính, tìm đường phù hợp nhất với các giá trị nhãn cho các đặc điểm.
Hồi quy logistic, tạo ra một xác suất từ 0 đến 1 mà hệ thống thường ánh xạ đến một dự đoán về lớp.

Không phải mọi mô hình đưa ra kết quả dự đoán bằng số đều là mô hình hồi quy. Trong một số trường hợp, dự đoán dạng số thực sự chỉ là một mô hình phân loại có tên lớp dạng số. Ví dụ: mô hình dự đoán mã bưu chính dạng số là mô hình phân loại, chứ không phải mô hình hồi quy.

điều hoà

#fundamentals

Mọi cơ chế giúp giảm hiệu ứng nạp dữ liệu quá mức. Các loại quy tắc chuẩn hoá phổ biến bao gồm:

L₁ chuẩn hoá
L₂ chuẩn hoá
điều chỉnh dropout
ngừng sớm (đây không phải là phương thức điều chỉnh chính thức, nhưng có thể hạn chế hiệu quả việc điều chỉnh quá mức)

Bạn cũng có thể xác định quy trình chuẩn hoá là hình phạt đối với độ phức tạp của mô hình.

Nhấp vào biểu tượng để xem thêm ghi chú.

Quá trình điều hoà là một quá trình không theo trực giác. Việc tăng cường quy tắc thường tăng tổn thất trong quá trình huấn luyện. Điều này gây nhầm lẫn vì mục tiêu không phải là giảm thiểu tổn thất trong quá trình huấn luyện sao?

Thực ra là không. Mục tiêu không phải là giảm thiểu tổn thất trong quá trình huấn luyện. Mục tiêu là đưa ra dự đoán chính xác về các ví dụ thực tế. Đáng chú ý là mặc dù việc tăng cường quy tắc chuẩn hoá làm tăng tổn thất huấn luyện, nhưng thường giúp các mô hình đưa ra dự đoán tốt hơn về các ví dụ thực tế.

Hãy xem phần Thừa khớp: Độ phức tạp của mô hình trong khoá học cấp tốc về học máy để biết thêm thông tin.

tốc độ điều hoà

#fundamentals

Một con số chỉ định tầm quan trọng tương đối của việc điều chỉnh trong quá trình huấn luyện. Việc tăng tỷ lệ chuẩn hoá sẽ làm giảm hiệu ứng phù hợp quá mức nhưng có thể làm giảm khả năng dự đoán của mô hình. Ngược lại, việc giảm hoặc bỏ qua tỷ lệ chuẩn hoá sẽ làm tăng tình trạng phù hợp quá mức.

Nhấp vào biểu tượng để xem phép tính.

Tỷ lệ chuẩn hoá thường được biểu thị bằng chữ cái Hy Lạp lambda. Phương trình mất mát đơn giản sau đây cho thấy ảnh hưởng của lambda:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

trong đó quy tắc chuẩn hoá là bất kỳ cơ chế chuẩn hoá nào, bao gồm cả;

L₁ chuẩn hoá
L₂ chuẩn hoá

Hãy xem phần Thừa khớp: Điều chỉnh L2 trong Khoá học học máy ứng dụng để biết thêm thông tin.

ReLU

#fundamentals

Viết tắt của Rectified Linear Unit (Đơn vị tuyến tính được sửa đổi).

tạo bằng phương pháp tăng cường truy xuất (RAG)

#fundamentals

Một kỹ thuật để cải thiện chất lượng đầu ra của mô hình ngôn ngữ lớn (LLM) bằng cách dựa vào các nguồn kiến thức được truy xuất sau khi mô hình được huấn luyện. RAG cải thiện độ chính xác của câu trả lời của LLM bằng cách cung cấp cho LLM đã huấn luyện quyền truy cập vào thông tin được truy xuất từ các cơ sở kiến thức hoặc tài liệu đáng tin cậy.

Sau đây là một số lý do phổ biến để sử dụng phương pháp tạo nội dung được tăng cường bằng tính năng truy xuất:

Tăng độ chính xác về mặt thực tế của các câu trả lời do mô hình tạo ra.
Cấp cho mô hình quyền truy cập vào kiến thức mà mô hình chưa được huấn luyện.
Thay đổi kiến thức mà mô hình sử dụng.
Cho phép mô hình trích dẫn nguồn.

Ví dụ: giả sử một ứng dụng hóa học sử dụng PaLM API để tạo bản tóm tắt liên quan đến các truy vấn của người dùng. Khi phần phụ trợ của ứng dụng nhận được một truy vấn, phần phụ trợ sẽ:

Tìm kiếm ("truy xuất") dữ liệu liên quan đến cụm từ tìm kiếm của người dùng.
Thêm ("mở rộng") dữ liệu hóa học có liên quan vào truy vấn của người dùng.
Hướng dẫn LLM tạo bản tóm tắt dựa trên dữ liệu được thêm vào.

Đường cong ROC (đường cong đặc trưng hoạt động của bộ thu)

#fundamentals

#Metric

Biểu đồ tỷ lệ dương tính thực sự so với tỷ lệ dương tính giả cho nhiều ngưỡng phân loại trong phân loại nhị phân.

Hình dạng của đường cong ROC cho biết khả năng của mô hình phân loại nhị phân trong việc tách các lớp dương tính khỏi các lớp âm tính. Ví dụ: giả sử mô hình phân loại nhị phân tách biệt hoàn toàn tất cả các lớp âm với tất cả các lớp dương:

Một đường số có 8 ví dụ dương ở bên phải và
7 ví dụ âm ở bên trái.

Đường cong ROC cho mô hình trước có dạng như sau:

Đường cong ROC. Trục x là Tỷ lệ dương tính giả và trục y là Tỷ lệ dương tính thật. Đường cong có hình chữ L ngược. Đường cong bắt đầu tại (0,0) và đi thẳng lên (0,1). Sau đó, đường cong sẽ đi từ (0,1) đến (1,1).

Ngược lại, hình minh hoạ sau đây biểu đồ các giá trị hồi quy logistic thô cho một mô hình tệ hại không thể tách biệt các lớp âm với các lớp dương:

Một đường số có các ví dụ dương và lớp âm lẫn lộn hoàn toàn.

Đường cong ROC cho mô hình này có dạng như sau:

Đường cong ROC, thực chất là một đường thẳng từ (0,0) đến (1,1).

Trong khi đó, trở lại thực tế, hầu hết các mô hình phân loại nhị phân đều tách các lớp dương và âm ở một mức độ nào đó, nhưng thường không hoàn hảo. Do đó, một đường cong ROC điển hình nằm ở đâu đó giữa hai điểm cực đoan:

Đường cong ROC. Trục x là Tỷ lệ dương tính giả và trục y là Tỷ lệ dương tính thật. Đường cong ROC gần giống với một vòng cung không ổn định
đi qua các điểm la bàn từ Tây sang Bắc.

Điểm trên đường cong ROC gần nhất với (0,0,1,0) theo lý thuyết sẽ xác định ngưỡng phân loại lý tưởng. Tuy nhiên, một số vấn đề thực tế khác ảnh hưởng đến việc lựa chọn ngưỡng phân loại lý tưởng. Ví dụ: có thể kết quả âm tính giả gây ra nhiều phiền toái hơn kết quả dương tính giả.

Một chỉ số số học có tên là AUC tóm tắt đường cong ROC thành một giá trị dấu phẩy động duy nhất.

Sai số trung bình bình phương (RMSE)

#fundamentals

#Metric

Căn bậc hai của Sai số bình phương trung bình.

S

hàm sigmoid

#fundamentals

Một hàm toán học "nén" một giá trị đầu vào vào một phạm vi bị ràng buộc, thường là từ 0 đến 1 hoặc -1 đến +1. Tức là bạn có thể truyền bất kỳ số nào (2, 1 triệu, âm tỷ, bất kỳ) vào hàm sigmoid và kết quả vẫn nằm trong phạm vi ràng buộc. Biểu đồ của hàm kích hoạt sigmoid có dạng như sau:

Hàm sigmoid có một số ứng dụng trong học máy, bao gồm:

Chuyển đổi đầu ra thô của mô hình hồi quy logistic hoặc hồi quy đa thức thành xác suất.
Đóng vai trò là hàm kích hoạt trong một số mạng nơron.

Nhấp vào biểu tượng để xem phép tính.

Hàm sigmoid trên một số đầu vào x có công thức sau:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

Trong học máy, x thường là tổng trọng số.

softmax

#fundamentals

Hàm xác định xác suất cho mỗi lớp có thể có trong một mô hình phân loại nhiều lớp. Các xác suất cộng lại chính xác là 1.0. Ví dụ: bảng sau đây cho thấy cách softmax phân phối các xác suất khác nhau:

Hình ảnh là...	Xác suất
chó	0,85
mèo	0,13
con ngựa	0,02

Softmax còn được gọi là softmax đầy đủ.

Tương phản với lấy mẫu ứng viên.

Nhấp vào biểu tượng để xem phép tính.

Phương trình softmax như sau:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

trong đó:

$\sigma_i$ là vectơ đầu ra. Mỗi phần tử của vectơ đầu ra chỉ định xác suất của phần tử này. Tổng của tất cả các phần tử trong vectơ đầu ra là 1.0. Vectơ đầu ra chứa cùng số phần tử với vectơ đầu vào, $z$.
$z$ là vectơ đầu vào. Mỗi phần tử của vectơ đầu vào chứa một giá trị dấu phẩy động.
$K$ là số phần tử trong vectơ đầu vào (và vectơ đầu ra).

Ví dụ: giả sử vectơ đầu vào là:

[1.2, 2.5, 1.8]

Do đó, softmax tính mẫu số như sau:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

Do đó, xác suất softmax của mỗi phần tử là:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

Do đó, vectơ đầu ra là:

$$\sigma = [0.154, 0.565, 0.281]$$

Tổng của ba phần tử trong $\sigma$ là 1.0. Chà!

Hãy xem phần Mạng nơron: Phân loại nhiều lớp trong khoá học cấp tốc về học máy để biết thêm thông tin.

tính năng thưa

#language

#fundamentals

Một tính năng có giá trị chủ yếu là 0 hoặc trống. Ví dụ: một đặc điểm chứa một giá trị 1 và một triệu giá trị 0 là thưa thớt. Ngược lại, tính năng dày đặc có các giá trị chủ yếu không phải là 0 hoặc trống.

Trong học máy, có một số lượng đáng ngạc nhiên các đặc điểm là đặc điểm thưa thớt. Các tính năng phân loại thường là các tính năng thưa. Ví dụ: trong số 300 loài cây có thể có trong một khu rừng, một ví dụ duy nhất có thể chỉ xác định được một cây phong. Hoặc trong số hàng triệu video có thể có trong thư viện video, một ví dụ đơn lẻ có thể chỉ xác định được "Casablanca".

Trong một mô hình, bạn thường biểu thị các tính năng thưa thớt bằng mã hoá one-hot. Nếu mã one-hot có kích thước lớn, bạn có thể đặt lớp nhúng lên trên mã one-hot để tăng hiệu quả.

biểu diễn thưa

#language

#fundamentals

Chỉ lưu trữ (các) vị trí của các phần tử khác 0 trong một đặc điểm thưa thớt.

Ví dụ: giả sử một đặc điểm phân loại có tên species xác định 36 loài cây trong một khu rừng cụ thể. Giả sử thêm rằng mỗi ví dụ chỉ xác định một loài.

Bạn có thể sử dụng một vectơ một chiều để biểu thị các loài cây trong mỗi ví dụ. Một vectơ một chiều sẽ chứa một 1 (để biểu thị một loài cây cụ thể trong ví dụ đó) và 35 0 (để biểu thị 35 loài cây không trong ví dụ đó). Vì vậy, cách biểu thị một nóng của maple có thể có dạng như sau:

Một vectơ trong đó các vị trí từ 0 đến 23 giữ giá trị 0, vị trí 24 giữ giá trị 1 và các vị trí từ 25 đến 35 giữ giá trị 0.

Ngoài ra, cách biểu diễn thưa thớt chỉ xác định vị trí của một loài cụ thể. Nếu maple ở vị trí 24, thì cách biểu diễn thưa của maple sẽ chỉ là:

Lưu ý rằng cách biểu diễn thưa thớt nhỏ gọn hơn nhiều so với cách biểu diễn một nóng.

Nhấp vào biểu tượng để xem ví dụ phức tạp hơn một chút.

Giả sử mỗi ví dụ trong mô hình của bạn phải thể hiện các từ – nhưng không phải thứ tự của các từ đó – trong một câu tiếng Anh. Tiếng Anh bao gồm khoảng 170.000 từ, vì vậy, tiếng Anh là một tính năng phân loại có khoảng 170.000 phần tử. Hầu hết các câu tiếng Anh đều sử dụng một phần cực kỳ nhỏ trong số 170.000 từ đó,vì vậy, tập hợp từ trong một ví dụ gần như chắc chắn sẽ là dữ liệu thưa thớt.

Hãy xem xét câu sau:

My dog is a great dog

Bạn có thể sử dụng một biến thể của vectơ một chiều để biểu thị các từ trong câu này. Trong biến thể này, nhiều ô trong vectơ có thể chứa giá trị khác 0. Hơn nữa, trong biến thể này, một ô có thể chứa một số nguyên khác với 1. Mặc dù các từ "my" (của tôi), "is" (là), "a" (một) và "great" (tuyệt vời) chỉ xuất hiện một lần trong câu, nhưng từ "dog" (chó) xuất hiện hai lần. Việc sử dụng biến thể này của các vectơ một chiều để biểu thị các từ trong câu này sẽ tạo ra vectơ gồm 170.000 phần tử sau:

Biểu diễn thưa của cùng một câu chỉ đơn giản là:

Nhấp vào biểu tượng này nếu bạn không hiểu rõ.

Thuật ngữ "biểu diễn thưa" gây nhầm lẫn cho nhiều người vì bản thân biểu diễn thưa không phải là vectơ thưa. Thay vào đó, biểu diễn thưa thực sự là một biểu diễn dày đặc của một vectơ thưa. Từ đồng nghĩa biểu diễn chỉ mục rõ ràng hơn một chút so với "biểu diễn thưa".

Hãy xem phần Làm việc với dữ liệu phân loại trong khoá học cấp tốc về máy học để biết thêm thông tin.

vectơ thưa

#fundamentals

Một vectơ có các giá trị chủ yếu là 0. Xem thêm tính năng thưa thớt và độ thưa thớt.

tổn thất bình phương

#fundamentals

#Metric

Từ đồng nghĩa với tổn thất L₂.

tĩnh

#fundamentals

Một việc được thực hiện một lần thay vì liên tục. Các thuật ngữ tĩnh và ngoại tuyến là đồng nghĩa. Sau đây là các cách sử dụng phổ biến của dữ liệu tĩnh và ngoại tuyến trong học máy:

Mô hình tĩnh (hoặc mô hình ngoại tuyến) là mô hình được huấn luyện một lần rồi sử dụng trong một thời gian.
Huấn luyện tĩnh (hoặc huấn luyện ngoại tuyến) là quy trình huấn luyện mô hình tĩnh.
Suy luận tĩnh (hoặc suy luận ngoại tuyến) là một quy trình trong đó mô hình tạo ra một lô dự đoán tại một thời điểm.

Tương phản với động.

suy luận tĩnh

#fundamentals

Đồng nghĩa với suy luận ngoại tuyến.

tính chất không đổi

#fundamentals

Một đặc điểm có giá trị không thay đổi trên một hoặc nhiều phương diện, thường là thời gian. Ví dụ: một đặc điểm có các giá trị gần giống nhau trong năm 2021 và năm 2023 cho thấy tính chất không đổi.

Trong thực tế, rất ít đặc điểm thể hiện tính chất không đổi. Ngay cả những đặc điểm đồng nghĩa với sự ổn định (như mực nước biển) cũng thay đổi theo thời gian.

Tương phản với tính không ổn định.

phương pháp giảm độ dốc ngẫu nhiên (SGD)

#fundamentals

Thuật toán xuống dốc theo độ dốc trong đó kích thước lô là một. Nói cách khác, SGD huấn luyện trên một ví dụ duy nhất được chọn ngẫu nhiên một cách đồng nhất từ một tập huấn luyện.

Hãy xem phần Phương pháp hồi quy tuyến tính: Tham số siêu dữ liệu trong khoá học cấp tốc về học máy để biết thêm thông tin.

học máy có giám sát

#fundamentals

Huấn luyện mô hình từ các tính năng và nhãn tương ứng. Học máy có giám sát tương tự như việc học một môn học bằng cách nghiên cứu một bộ câu hỏi và câu trả lời tương ứng. Sau khi nắm vững mối liên kết giữa câu hỏi và câu trả lời, học viên có thể đưa ra câu trả lời cho các câu hỏi mới (chưa từng thấy) về cùng một chủ đề.

So sánh với công nghệ học máy không giám sát.

Hãy xem phần Học có giám sát trong khoá học Giới thiệu về học máy để biết thêm thông tin.

tính năng tổng hợp

#fundamentals

Một tính năng không có trong các tính năng đầu vào, nhưng được tập hợp từ một hoặc nhiều tính năng đầu vào. Sau đây là các phương thức tạo tính năng tổng hợp:

Gộp nhóm một đặc điểm liên tục vào các nhóm phạm vi.
Tạo điểm giao nhau của tính năng.
Nhân (hoặc chia) một giá trị đặc điểm với(các) giá trị đặc điểm khác hoặc với chính giá trị đó. Ví dụ: nếu a và b là các tính năng đầu vào, thì sau đây là ví dụ về các tính năng tổng hợp:
- ab
- a²
Áp dụng hàm siêu việt cho một giá trị đặc điểm. Ví dụ: nếu c là một đặc điểm đầu vào, thì sau đây là ví dụ về các đặc điểm tổng hợp:
- sin(c)
- ln(c)

Các tính năng được tạo bằng cách bình thường hoá hoặc điều chỉnh theo tỷ lệ thì không được coi là tính năng tổng hợp.

T

tổn thất kiểm thử

#fundamentals

#Metric

Chỉ số thể hiện mất mát của mô hình so với tập dữ liệu kiểm thử. Khi xây dựng một mô hình, bạn thường cố gắng giảm thiểu tổn thất thử nghiệm. Đó là do tổn thất kiểm thử thấp là một tín hiệu chất lượng mạnh hơn so với tổn thất huấn luyện hoặc tổn thất xác thực thấp.

Đôi khi, khoảng cách lớn giữa tổn thất kiểm thử và tổn thất huấn luyện hoặc tổn thất xác thực cho thấy rằng bạn cần tăng tỷ lệ chuẩn hoá.

đào tạo

#fundamentals

Quá trình xác định các thông số lý tưởng (trọng số và độ lệch) bao gồm một mô hình. Trong quá trình huấn luyện, hệ thống sẽ đọc ví dụ và dần điều chỉnh các tham số. Quá trình huấn luyện sử dụng mỗi ví dụ từ vài lần đến hàng tỷ lần.

Hãy xem phần Học có giám sát trong khoá học Giới thiệu về học máy để biết thêm thông tin.

tổn thất trong quá trình huấn luyện

#fundamentals

#Metric

Một chỉ số thể hiện mất mát của mô hình trong một vòng lặp huấn luyện cụ thể. Ví dụ: giả sử hàm tổn thất là Sai số bình phương trung bình. Có thể tổn thất huấn luyện (Lỗi trung bình theo luỹ thừa) cho lần lặp thứ 10 là 2,2 và tổn thất huấn luyện cho lần lặp thứ 100 là 1,9.

Đường cong tổn thất biểu thị tổn thất huấn luyện so với số lần lặp lại. Đường cong tổn thất cung cấp các gợi ý sau đây về quá trình huấn luyện:

Độ dốc hướng xuống cho biết mô hình đang cải thiện.
Độ dốc lên cho thấy mô hình đang trở nên tệ hơn.
Độ dốc phẳng ngụ ý rằng mô hình đã đạt đến trạng thái hội tụ.

Ví dụ: Đường cong tổn hao lý tưởng sau đây cho thấy:

Độ dốc giảm mạnh trong các lần lặp lại ban đầu, cho thấy mô hình được cải thiện nhanh chóng.
Độ dốc dần dần phẳng hơn (nhưng vẫn đi xuống) cho đến gần cuối quá trình huấn luyện, điều này có nghĩa là mô hình tiếp tục được cải thiện ở tốc độ chậm hơn một chút so với trong các lần lặp lại ban đầu.
Độ dốc phẳng về cuối quá trình huấn luyện, cho thấy sự hội tụ.

Biểu đồ về tổn thất huấn luyện so với số lần lặp lại. Đường cong tổn hao này bắt đầu bằng một độ dốc giảm mạnh. Độ dốc dần dần trở nên phẳng cho đến khi độ dốc bằng 0.

Mặc dù tổn thất trong quá trình huấn luyện là quan trọng, nhưng bạn cũng nên xem xét tính tổng quát.

độ lệch phân phát dữ liệu huấn luyện

#fundamentals

Sự khác biệt giữa hiệu suất của một mô hình trong quá trình huấn luyện và hiệu suất của cùng một mô hình đó trong quá trình phân phát.

tập dữ liệu huấn luyện

#fundamentals

Tập hợp con của tập dữ liệu dùng để huấn luyện mô hình.

Theo truyền thống, các ví dụ trong tập dữ liệu được chia thành 3 tập con riêng biệt sau:

tập dữ liệu huấn luyện
tập xác thực
một tập dữ liệu kiểm thử

Tốt nhất là mỗi ví dụ trong tập dữ liệu chỉ thuộc về một trong các tập hợp con trước đó. Ví dụ: một ví dụ không được thuộc cả tập huấn luyện và tập xác thực.

Hãy xem phần Tập dữ liệu: Phân chia tập dữ liệu gốc trong Khoá học học máy ứng dụng để biết thêm thông tin.

âm tính thật (TN)

#fundamentals

#Metric

Ví dụ về trường hợp mô hình đã dự đoán chính xác lớp âm tính. Ví dụ: mô hình suy luận rằng một thư email cụ thể không phải là thư rác và thư email đó thực sự không phải là thư rác.

dương tính thật (TP)

#fundamentals

#Metric

Ví dụ về trường hợp mô hình chính xác dự đoán lớp dương tính. Ví dụ: mô hình suy luận rằng một email cụ thể là thư rác và email đó thực sự là thư rác.

tỷ lệ dương tính thật (TPR)

#fundamentals

#Metric

Từ đồng nghĩa với gợi nhắc. Đó là:

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Tỷ lệ dương tính thật là trục y trong đường cong ROC.

U

không phù hợp

#fundamentals

Tạo một mô hình có khả năng dự đoán kém vì mô hình đó chưa nắm bắt đầy đủ độ phức tạp của dữ liệu huấn luyện. Có nhiều vấn đề có thể gây ra tình trạng không phù hợp, bao gồm:

Huấn luyện trên tập hợp tính năng không chính xác.
Đào tạo quá ít thời gian bắt đầu hoặc ở tốc độ học quá thấp.
Huấn luyện với tỷ lệ chuẩn hoá quá cao.
Cung cấp quá ít lớp ẩn trong mạng nơron sâu.

Hãy xem phần Thừa khớp trong Khoá học học máy ứng dụng để biết thêm thông tin.

dữ liệu không nhãn

#fundamentals

Ví dụ chứa tính năng nhưng không có nhãn. Ví dụ: bảng sau đây cho thấy 3 ví dụ chưa được gắn nhãn của một mô hình định giá nhà, mỗi ví dụ có 3 đặc điểm nhưng không có giá trị nhà:

Số lượng phòng ngủ	Số lượng phòng tắm	Tuổi nhà
3	2	15
2	1	72
4	2	34

Trong phương pháp học bán giám sát và không giám sát, các ví dụ chưa được gắn nhãn sẽ được sử dụng trong quá trình huấn luyện.

So sánh ví dụ không có nhãn với ví dụ có nhãn.

học máy không giám sát

#clustering

#fundamentals

Huấn luyện mô hình để tìm các mẫu trong một tập dữ liệu, thường là một tập dữ liệu chưa được gắn nhãn.

Cách sử dụng phổ biến nhất của công nghệ học máy không giám sát là nhóm dữ liệu thành các nhóm ví dụ tương tự. Ví dụ: thuật toán học máy không giám sát có thể phân cụm các bài hát dựa trên nhiều thuộc tính của bản nhạc. Các cụm thu được có thể trở thành dữ liệu đầu vào cho các thuật toán học máy khác (ví dụ: cho một dịch vụ đề xuất nhạc). Tính năng cụm có thể hữu ích khi không có hoặc có rất ít nhãn hữu ích. Ví dụ: trong các lĩnh vực như chống hành vi sai trái và gian lận, cụm có thể giúp con người hiểu rõ hơn về dữ liệu.

Tương phản với công nghệ học máy có giám sát.

Nhấp vào biểu tượng để xem thêm ghi chú.

Một ví dụ khác về học máy không giám sát là phân tích thành phần chính (PCA). Ví dụ: việc áp dụng PCA trên một tập dữ liệu chứa nội dung của hàng triệu giỏ hàng có thể cho thấy rằng những giỏ hàng chứa chanh thường cũng chứa thuốc kháng axit.

Hãy xem phần Công nghệ học máy là gì? trong khoá học Giới thiệu về công nghệ học máy để biết thêm thông tin.

V

xác thực

#fundamentals

Đánh giá ban đầu về chất lượng của một mô hình. Quy trình xác thực kiểm tra chất lượng của kết quả dự đoán của mô hình dựa trên tập hợp xác thực.

Vì tập hợp xác thực khác với tập hợp huấn luyện, nên việc xác thực giúp ngăn chặn hiệu ứng nạp dữ liệu quá mức.

Bạn có thể coi việc đánh giá mô hình dựa trên tập hợp dữ liệu xác thực là vòng kiểm thử đầu tiên và đánh giá mô hình dựa trên tập hợp dữ liệu kiểm thử là vòng kiểm thử thứ hai.

tổn thất xác thực

#fundamentals

#Metric

Một chỉ số đại diện cho mất mát của mô hình trên tập dữ liệu xác thực trong một lặp lại cụ thể của quá trình huấn luyện.

Xem thêm đường cong tổng quát hoá.

tập hợp xác thực

#fundamentals

Tập hợp con của tập dữ liệu thực hiện việc đánh giá ban đầu dựa trên một mô hình đã huấn luyện. Thông thường, bạn sẽ đánh giá mô hình đã huấn luyện dựa trên tập dữ liệu xác thực nhiều lần trước khi đánh giá mô hình dựa trên tập dữ liệu kiểm thử.

Theo truyền thống, bạn chia các ví dụ trong tập dữ liệu thành 3 tập hợp con riêng biệt sau:

Hãy xem phần Tập dữ liệu: Phân chia tập dữ liệu gốc trong Khoá học học máy ứng dụng để biết thêm thông tin.

W

cân nặng

#fundamentals

Giá trị mà một mô hình nhân với một giá trị khác. Huấn luyện là quá trình xác định trọng số lý tưởng của mô hình; dự đoán là quá trình sử dụng các trọng số đã học đó để đưa ra dự đoán.

Nhấp vào biểu tượng để xem ví dụ về trọng số trong mô hình tuyến tính.

Hãy tưởng tượng một mô hình tuyến tính có hai đặc điểm. Giả sử quá trình huấn luyện xác định các trọng số (và độ lệch) sau đây:

Độ lệch, b, có giá trị là 2,2
Trọng số w₁ liên kết với một đặc điểm là 1, 5.
Trọng số w₂ liên kết với đặc điểm khác là 0, 4.

Bây giờ, hãy tưởng tượng một ví dụ với các giá trị tính năng sau:

Giá trị của một đặc điểm, x₁, là 6.
Giá trị của đặc điểm còn lại, x₂, là 10.

Mô hình tuyến tính này sử dụng công thức sau để tạo giá trị dự đoán y':

$$y' = b + w_1x_1 + w_2x_2$$

Do đó, kết quả dự đoán là:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

Nếu trọng số là 0, thì tính năng tương ứng sẽ không đóng góp vào mô hình. Ví dụ: nếu w₁ là 0, thì giá trị của x₁ sẽ không liên quan.

Hãy xem phần Phương pháp hồi quy tuyến tính trong khoá học Học máy ứng dụng để biết thêm thông tin.

tổng trọng số

#fundamentals

Tổng của tất cả các giá trị đầu vào có liên quan nhân với trọng số tương ứng. Ví dụ: giả sử dữ liệu đầu vào có liên quan bao gồm:

giá trị đầu vào	trọng số đầu vào
2	-1,3
-1	0,6
3	0,4

Do đó, tổng trọng số là:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Tổng trọng số là đối số đầu vào của hàm kích hoạt.

Z

Chuẩn hoá điểm Z

#fundamentals

Một kỹ thuật điều chỉnh theo tỷ lệ thay thế giá trị tính năng thô bằng giá trị dấu phẩy động biểu thị số độ lệch chuẩn so với giá trị trung bình của tính năng đó. Ví dụ: hãy xem xét một đặc điểm có giá trị trung bình là 800 và độ lệch chuẩn là 100. Bảng sau đây cho thấy cách chuẩn hoá điểm Z sẽ liên kết giá trị thô với điểm Z:

Giá trị thô	Điểm Z
800	0
950	+1,5
575	-2,25

Sau đó, mô hình học máy sẽ huấn luyện dựa trên điểm Z cho tính năng đó thay vì dựa trên giá trị thô.

Hãy xem phần Dữ liệu số: Biến đổi chuẩn hoá trong khoá học cấp tốc về học máy để biết thêm thông tin.

Bảng thuật ngữ về công nghệ máy học: Kiến thức cơ bản về công nghệ học máy Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

A

độ chính xác

Nhấp vào biểu tượng để biết thông tin chi tiết về độ chính xác và tập dữ liệu không cân bằng về lớp.

hàm kích hoạt

Nhấp vào biểu tượng để xem ví dụ.

trí tuệ nhân tạo

AUC (Diện tích dưới đường cong ROC)

Nhấp vào biểu tượng này để tìm hiểu về mối quan hệ giữa AUC và đường cong ROC.

Nhấp vào biểu tượng để xem định nghĩa chính thức hơn về AUC.

B

lan truyền ngược

lô

kích thước lô

thiên kiến (đạo đức/công bằng)

thiên kiến (toán học) hoặc thuật ngữ thiên kiến

phân loại nhị phân

phân giỏ

Nhấp vào biểu tượng để xem thêm ghi chú.

C

dữ liệu phân loại

lớp

mô hình phân loại

ngưỡng phân loại

Nhấp vào biểu tượng để xem thêm ghi chú.

thuật toán phân loại

tập dữ liệu bất cân đối về loại

cắt bớt

ma trận nhầm lẫn

tính năng liên tục

sự hội tụ

D

DataFrame

tập dữ liệu

mô hình sâu

tính năng dày đặc

chiều sâu

tính năng rời rạc

linh động

mô hình động

E

dừng sớm

Nhấp vào biểu tượng để xem thêm ghi chú.

lớp nhúng

thời gian bắt đầu của hệ thống

ví dụ

F

âm tính giả (FN)

dương tính giả (FP)

tỷ lệ dương tính giả (FPR)

tính năng

nhân chéo tính chất

kỹ thuật trích xuất tính năng

Nhấp vào biểu tượng để xem thêm ghi chú về TensorFlow.

tập hợp tính năng

vectơ đặc trưng

vòng hồi tiếp

G

tổng quát hoá

Nhấp vào biểu tượng để xem thêm ghi chú.

đường cong tổng quát hoá

phương pháp giảm độ dốc

thông tin thực tế

Nhấp vào biểu tượng để xem thêm ghi chú.

Cao

lớp ẩn

siêu tham số

I

phân phối độc lập và đồng nhất (i.i.d)

suy luận

lớp đầu vào

khả năng diễn giải

vòng lặp

L

Điều hoà L0

Nhấp vào biểu tượng để xem thêm ghi chú.

Mất L1

Nhấp vào biểu tượng để xem toán học chính thức.

Điều hoà L1

Mất L2

Bảng thuật ngữ về công nghệ máy học: Kiến thức cơ bản về công nghệ học máy

Điều hoà L₀

Mất L₁

Điều hoà L₁

Mất L₂

Điều hoà L₂