Bảng thuật ngữ về công nghệ máy học: Kiến thức cơ bản về công nghệ học máy

Trang này chứa các thuật ngữ trong bảng thuật ngữ về Kiến thức cơ bản về công nghệ học máy. Để biết tất cả các thuật ngữ trong bảng thuật ngữ, hãy nhấp vào đây.

A

độ chính xác

#fundamentals

Số dự đoán phân loại chính xác chia cho tổng số cụm từ dự đoán. Đó là:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ví dụ: một mô hình đưa ra 40 dự đoán chính xác và 10 dự đoán sai sẽ có độ chính xác là:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Phân loại nhị phân đưa ra tên cụ thể cho các danh mục dự đoán chính xácdự đoán không chính xác khác nhau. Vì vậy, công thức phân loại tệp nhị phân chính xác như sau:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

nơi:

So sánh và đối chiếu độ chính xác với độ chính xácđộ ghi nhớ.

hàm kích hoạt

#fundamentals

Một hàm cho phép mạng nơron tìm hiểu mối quan hệ phi tuyến tính (phức tạp) giữa các đối tượng và nhãn.

Các hàm kích hoạt phổ biến bao gồm:

Biểu đồ của các hàm kích hoạt không bao giờ là đường thẳng đơn. Ví dụ: biểu đồ của hàm kích hoạt ReLU bao gồm hai đường thẳng:

Giản đồ Cartesian gồm hai dòng. Dòng đầu tiên có giá trị y không đổi bằng 0, chạy dọc theo trục x từ -infinity,0 đến 0,-0.
          Dòng thứ hai bắt đầu từ 0.0. Đường này có độ dốc là +1, vì vậy, đường này chạy từ 0,0 đến +vô hạn,+vô hạn.

Biểu đồ của hàm kích hoạt sigmoid có dạng như sau:

Biểu đồ cong hai chiều có các giá trị x mở rộng miền – vô hạn đến +dương, trong khi các giá trị y kéo dài phạm vi gần như từ 0 đến gần 1. Khi x bằng 0, y bằng 0,5. Độ dốc của đường cong luôn dương, với hệ số góc cao nhất là 0,0,5 và giảm dần độ dốc khi giá trị tuyệt đối của x tăng lên.

trí tuệ nhân tạo

#fundamentals

Một chương trình hoặc model không do con người thực hiện có thể giải quyết các công việc phức tạp. Ví dụ: một chương trình hoặc mô hình dịch văn bản hoặc một chương trình/mô hình xác định bệnh qua hình ảnh phóng xạ đều có trí tuệ nhân tạo.

Về mặt hình thức, học máy là một lĩnh vực phụ của trí tuệ nhân tạo. Tuy nhiên, trong những năm gần đây, một số tổ chức đã bắt đầu sử dụng các thuật ngữ trí tuệ nhân tạohọc máy thay thế cho nhau.

AUC (Vùng dưới đường cong ROC)

#fundamentals

Một số từ 0,0 đến 1,0 thể hiện khả năng của mô hình phân loại nhị phân để phân tách các lớp dương khỏi các lớp phủ định. AUC càng gần 1.0 thì mô hình càng có khả năng phân tách các lớp với nhau.

Ví dụ: hình minh hoạ sau đây cho thấy một mô hình thuật toán phân loại giúp tách các lớp dương (hình bầu dục màu xanh lục) khỏi các lớp phủ định (hình chữ nhật màu tím) một cách hoàn hảo. Mô hình hoàn hảo phi thực tế này có AUC là 1.0:

Một dòng số có 8 ví dụ dương ở một bên và 9 ví dụ tiêu cực ở bên còn lại.

Ngược lại, hình minh hoạ sau đây cho thấy kết quả của mô hình thuật toán phân loại đã tạo ra kết quả ngẫu nhiên. Mô hình này có AUC là 0,5:

Một dòng số có 6 ví dụ dương và 6 ví dụ phủ định.
          Trình tự các ví dụ là dương, âm, dương, âm, dương, âm, dương, âm, âm, dương, âm.

Đúng, mô hình trước đó có AUC là 0,5 chứ không phải 0,0.

Hầu hết các mô hình đều ở giữa hai thái cực. Ví dụ: mô hình sau đây có phần tách biệt dương tính với âm, do đó có AUC ở khoảng từ 0,5 đến 1,0:

Một dòng số có 6 ví dụ dương và 6 ví dụ phủ định.
          Trình tự các ví dụ là âm, phủ định, phủ định, âm, dương, âm, dương, dương, âm, dương, dương, dương.

AUC bỏ qua mọi giá trị bạn đặt cho ngưỡng phân loại. Thay vào đó, AUC sẽ xem xét tất cả ngưỡng phân loại có thể có.

B

truyền ngược

#fundamentals

Thuật toán triển khai tính năng giảm độ dốc theo độ dốc trong mạng nơron.

Việc huấn luyện mạng nơron bao gồm nhiều quá trình lặp của chu kỳ 2 luồng sau:

  1. Trong quá trình truyền tiến, hệ thống sẽ xử lý một ví dụ để tạo(các) thông tin dự đoán. Hệ thống so sánh từng dự đoán với từng giá trị nhãn. Sự khác biệt giữa thông tin dự đoán và giá trị nhãn là mất trong ví dụ đó. Hệ thống tổng hợp tổn thất trong tất cả ví dụ để tính toán tổng tổn thất cho lô hiện tại.
  2. Trong quá trình truyền ngược (truyền ngược), hệ thống sẽ giảm tổn thất bằng cách điều chỉnh trọng số của tất cả nơ-ron trong tất cả lớp ẩn.

Mạng nơron thường chứa nhiều nơron nằm trong nhiều lớp ẩn. Mỗi nơron trong số đó lại góp phần vào tổn thất tổng thể theo những cách khác nhau. Kỹ thuật truyền ngược xác định xem nên tăng hay giảm trọng số áp dụng cho các nơron cụ thể.

Tốc độ tìm hiểu là một hệ số giúp kiểm soát mức độ mà mỗi lượt truyền ngược lại tăng hoặc giảm của từng trọng số. Tốc độ học lớn sẽ làm tăng hoặc giảm từng trọng số nhiều hơn tốc độ học nhỏ.

Trong thuật toán giải tích, tính năng lan truyền ngược sẽ triển khai quy tắc chuỗi của thuật toán. Tức là tính năng lan truyền ngược tính đạo hàm một phần của lỗi tương ứng với từng tham số. Để biết thêm thông tin, hãy xem hướng dẫn trong Khoá học sự cố trong công nghệ máy học.

Nhiều năm trước, các chuyên viên học máy phải viết mã để triển khai việc truyền ngược. Các API học máy hiện đại như TensorFlow hiện triển khai việc truyền tải ngược cho bạn. Chà!

#fundamentals

Tập hợp ví dụ được dùng trong một vòng lặp huấn luyện. Kích thước lô xác định số lượng ví dụ trong một lô.

Hãy xem Thời gian bắt đầu của hệ thống để biết nội dung giải thích về mối quan hệ của một lô với một khoảng thời gian bắt đầu của hệ thống.

kích thước lô

#fundamentals

Số lượng ví dụ trong một . Ví dụ: nếu kích thước lô là 100, thì mô hình sẽ xử lý 100 ví dụ cho mỗi vòng lặp.

Sau đây là các chiến lược phổ biến về kích thước lô mã:

  • Độ dốc ngẫu nhiên (SGD), trong đó kích thước lô là 1.
  • lô đầy đủ, trong đó kích thước lô là số lượng ví dụ trong toàn bộ tập hợp huấn luyện. Ví dụ: nếu tập hợp huấn luyện chứa một triệu ví dụ, thì kích thước lô sẽ là một triệu ví dụ. Toàn bộ lô thường là một chiến lược không hiệu quả.
  • số lượng nhỏ, trong đó kích thước lô thường nằm trong khoảng từ 10 đến 1000. Lô nhỏ thường là chiến lược hiệu quả nhất.

thiên kiến (đạo đức/công bằng)

#fairness
#fundamentals

1. Định kiến, định kiến hoặc thiên vị về một số thứ, người hoặc nhóm người hơn người khác. Những sai lệch này có thể ảnh hưởng đến việc thu thập và diễn giải dữ liệu, thiết kế của hệ thống cũng như cách người dùng tương tác với hệ thống. Các dạng thiên vị này bao gồm:

2. Lỗi có hệ thống do quy trình lấy mẫu hoặc báo cáo gây ra. Các dạng thiên vị này bao gồm:

Đừng nhầm lẫn với thuật ngữ về thành kiến trong các mô hình học máy hoặc thành kiến dự đoán.

thiên kiến (toán học) hoặc thuật ngữ thành kiến

#fundamentals

Chặn hoặc bù trừ so với một điểm gốc. Độ lệch là một tham số trong các mô hình học máy, được biểu thị bằng một trong những thành phần sau:

  • b
  • t0

Ví dụ: độ nghiêng là b trong công thức sau:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Trong đường thẳng hai chiều đơn giản, độ chệch chỉ có nghĩa là "giao điểm với y". Ví dụ: độ lệch của dòng trong hình minh hoạ sau đây là 2.

Biểu đồ của một đường có hệ số góc là 0,5 và độ lệch (giao điểm với y) là 2.

Xu hướng tồn tại vì không phải mọi mô hình đều bắt đầu từ điểm gốc (0,0). Ví dụ: giả sử một công viên giải trí có phí vào cửa là 2 Euro và thêm 0,5 Euro cho mỗi giờ khách hàng lưu trú. Do đó, mô hình ánh xạ tổng chi phí có độ lệch 2 vì chi phí thấp nhất là 2 Euro.

Không nên nhầm lẫn thành kiến với thành kiến về đạo đức và công bằng hoặc thành kiến trong dự đoán.

phân loại nhị phân

#fundamentals

Một loại tác vụ phân loại dự đoán một trong hai lớp loại trừ lẫn nhau:

Ví dụ: 2 mô hình học máy sau đây đều thực hiện phân loại nhị phân:

  • Là một mô hình xác định xem email có phải là thư rác (lớp khẳng định) hay không phải thư rác (lớp phủ định).
  • Một mô hình đánh giá các triệu chứng y tế để xác định xem một người có mắc một căn bệnh cụ thể (loại dương tính) hay không (loại âm tính) hay không.

Trái ngược với phương pháp phân loại nhiều lớp.

Hãy xem thêm về hồi quy logisticngưỡng phân loại.

phân bộ chứa

#fundamentals

Chuyển đổi một tính năng duy nhất thành nhiều tính năng nhị phân được gọi là bộ chứa hoặc vùng chứa, thường dựa trên một phạm vi giá trị. Tính năng được cắt nhỏ thường là một tính năng liên tục.

Ví dụ: thay vì biểu thị nhiệt độ dưới dạng một tính năng dấu phẩy động liên tục duy nhất, bạn có thể chia phạm vi nhiệt độ thành các nhóm riêng biệt, chẳng hạn như:

  • <= 10 độ C sẽ là nhóm "lạnh".
  • 11-24 độ C sẽ là xô "ôn đới".
  • >= 25 độ C sẽ là xô "ấm".

Mô hình sẽ xử lý mọi giá trị trong cùng một bộ chứa như nhau. Ví dụ: giá trị 1322 đều nằm trong bộ chứa ôn hoà, vì vậy, mô hình sẽ xử lý 2 giá trị này giống nhau.

C

dữ liệu phân loại

#fundamentals

Các tính năng có một tập hợp các giá trị có thể có cụ thể. Ví dụ: hãy xem xét một tính năng phân loại có tên là traffic-light-state. Tính năng này chỉ có thể có một trong ba giá trị có thể có sau đây:

  • red
  • yellow
  • green

Bằng cách biểu thị traffic-light-state dưới dạng một tính năng phân loại, một mô hình có thể tìm hiểu những tác động khác nhau của red, greenyellow đối với hành vi của người lái xe.

Các tính năng phân loại đôi khi được gọi là tính năng riêng biệt.

Trái ngược với dữ liệu số.

lớp

#fundamentals

Một danh mục có thể thuộc về một nhãn. Ví dụ:

  • Trong mô hình phân loại nhị phân phát hiện nội dung rác, hai lớp có thể là nội dung ráckhông phải nội dung rác.
  • Trong mô hình phân loại nhiều lớp giúp xác định các giống chó, các lớp có thể là poodle, beagle, pug, v.v.

Mô hình phân loại dự đoán một lớp. Ngược lại, mô hình hồi quy dự đoán một số thay vì một lớp.

mô hình phân loại

#fundamentals

Một model có cụm từ dự đoán là một model. Ví dụ: sau đây là tất cả mô hình phân loại:

  • Mô hình dự đoán ngôn ngữ của một câu nhập (tiếng Pháp? Tiếng Tây Ban Nha? tiếng Ý?).
  • Một mô hình dự đoán các loài cây (Maple? Oak? Bao báp?).
  • Một mô hình dự đoán lớp dương tính hoặc âm tính cho một tình trạng bệnh cụ thể.

Ngược lại, mô hình hồi quy dự đoán các số thay vì lớp.

Hai loại mô hình phân loại phổ biến là:

ngưỡng phân loại

#fundamentals

Trong phân loại nhị phân, một số từ 0 đến 1 sẽ chuyển đổi đầu ra thô của mô hình hồi quy logistic thành thông tin dự đoán về lớp dương hoặc lớp phủ định. Lưu ý rằng ngưỡng phân loại là giá trị mà con người chọn, không phải giá trị được chọn qua quy trình huấn luyện mô hình.

Mô hình hồi quy logistic đưa ra giá trị thô trong khoảng từ 0 đến 1. Sau đó:

  • Nếu giá trị thô này lớn hơn ngưỡng phân loại, thì lớp dương sẽ được dự đoán.
  • Nếu giá trị thô này nhỏ hơn ngưỡng phân loại, thì lớp phủ định sẽ được dự đoán.

Ví dụ: giả sử ngưỡng phân loại là 0, 8. Nếu giá trị thô là 0,9, thì mô hình sẽ dự đoán lớp dương. Nếu giá trị thô là 0,7, thì mô hình sẽ dự đoán lớp âm.

Việc lựa chọn ngưỡng phân loại ảnh hưởng mạnh đến số lượng kết quả dương tính giảâm tính giả.

tập dữ liệu không cân bằng về lớp

#fundamentals

Một tập dữ liệu về một vấn đề phân loại, trong đó tổng số nhãn của mỗi lớp có sự khác biệt đáng kể. Chẳng hạn hãy xem xét một tập dữ liệu phân loại nhị phân có hai nhãn được chia như sau:

  • 1.000.000 nhãn phủ định
  • 10 nhãn khẳng định

Tỷ lệ giữa nhãn âm và nhãn dương là 100.000:1,vì vậy, đây là tập dữ liệu mất cân bằng về lớp.

Ngược lại, tập dữ liệu sau không mất cân bằng về lớp vì tỷ lệ nhãn âm với nhãn dương tương đối gần bằng 1:

  • 517 nhãn phủ định
  • 483 nhãn tích cực

Các tập dữ liệu nhiều lớp cũng có thể bị mất cân bằng về lớp. Ví dụ: tập dữ liệu phân loại nhiều lớp sau đây cũng không cân bằng về lớp vì một nhãn có nhiều ví dụ hơn so với hai nhãn còn lại:

  • 1.000.000 nhãn có lớp "xanh lục"
  • 200 nhãn có lớp "tím"
  • 350 nhãn có loại "cam"

Xem thêm về entropy, lớp đa số, và lớp đa số.

cắt bớt

#fundamentals

Một kỹ thuật để xử lý các điểm ngoại lai bằng cách thực hiện một hoặc cả hai cách sau:

  • Giảm các giá trị feature lớn hơn ngưỡng tối đa xuống đến ngưỡng tối đa đó.
  • Tăng các giá trị tính năng ít hơn ngưỡng tối thiểu lên đến ngưỡng tối thiểu đó.

Ví dụ: giả sử <0, 5% giá trị cho một tính năng cụ thể nằm ngoài phạm vi 40–60. Trong trường hợp này, bạn có thể làm như sau:

  • Cắt tất cả các giá trị trên 60 (ngưỡng tối đa) thành chính xác 60.
  • Cắt tất cả các giá trị dưới 40 (ngưỡng tối thiểu) thành 40 chính xác.

Các điểm ngoại lai có thể làm hỏng mô hình, đôi khi khiến trọng số bị tràn trong quá trình huấn luyện. Một số điểm ngoại lai cũng có thể làm hỏng đáng kể các chỉ số như độ chính xác. Cắt là một kỹ thuật phổ biến để hạn chế thiệt hại.

Tính năng Cắt chuyển màu buộc các giá trị gradient trong phạm vi được chỉ định trong quá trình huấn luyện.

ma trận nhầm lẫn

#fundamentals

Bảng NxN tóm tắt số lượng dự đoán chính xác và không chính xác mà mô hình phân loại đã đưa ra. Ví dụ: hãy xem xét ma trận nhầm lẫn sau đây cho mô hình phân loại nhị phân:

Khối u (dự đoán) Không phải khối u (dự đoán)
Khối u (thực tế) 18 (TP) 1 (FN)
Không phải khối u (thông tin thực tế) 6 (FP) 452 (TN)

Ma trận nhầm lẫn trước đó cho thấy những điều sau:

  • Trong số 19 dự đoán có thông tin thực tế là Tumor, mô hình đã phân loại chính xác 18 và phân loại không chính xác là 1.
  • Trong số 458 dự đoán có thông tin thực tế không phải là khối u, mô hình đã phân loại chính xác 452 và phân loại không chính xác 6.

Ma trận nhầm lẫn cho vấn đề phân loại nhiều lớp có thể giúp bạn xác định các mẫu lỗi. Ví dụ: hãy xem xét ma trận nhầm lẫn sau đây cho một mô hình phân loại nhiều lớp gồm 3 lớp giúp phân loại 3 loại mống mắt khác nhau (Virginica, Versicolor và Setosa). Khi thông tin thực tế là Virginica, ma trận nhầm lẫn cho thấy mô hình có nhiều khả năng dự đoán Versicolor sai hơn nhiều so với Setosa:

  Setosa (dự đoán) Versicolor (dự đoán) Virginica (dự đoán)
Setosa (sự thật) 88 12 0
Versicolor (sự thật) 6 141 7
Virginica (sự thật) 2 27 109

Một ví dụ khác là ma trận nhầm lẫn có thể cho thấy rằng một mô hình được huấn luyện để nhận dạng chữ số viết tay có xu hướng dự đoán nhầm 9 thay vì 4 hoặc dự đoán nhầm 1 thay vì 7.

Ma trận nhầm lẫn chứa đủ thông tin để tính toán nhiều chỉ số hiệu suất, bao gồm cả độ chính xácđộ nhớ.

tính năng liên tục

#fundamentals

Một tính năng dấu phẩy động có phạm vi vô hạn các giá trị có thể dùng, chẳng hạn như nhiệt độ hoặc trọng lượng.

Tương phản với tính năng riêng biệt.

hội tụ

#fundamentals

Trạng thái đạt đến khi giá trị mất thay đổi rất ít hoặc hoàn toàn không thay đổi với mỗi vòng lặp. Ví dụ: đường cong tổn hao sau đây cho thấy sự hội tụ tại khoảng 700 lần lặp:

cốt truyện Cartesian. Trục X bị mất. Trục Y là số lần lặp lại huấn luyện. Tỷ lệ thất thoát rất cao trong vài lần lặp lại đầu tiên, nhưng giảm mạnh. Sau khoảng 100 lần lặp, tổn thất vẫn giảm dần nhưng dần dần. Sau khoảng 700 lần lặp, tổn hao vẫn không thay đổi.

Mô hình chuyển đổi khi việc huấn luyện bổ sung sẽ không cải thiện mô hình.

Trong học sâu, giá trị mất đi đôi khi vẫn không đổi hoặc gần như trong nhiều vòng trước khi cuối cùng giảm dần. Trong một thời gian dài các giá trị mất đi liên tục, bạn có thể tạm thời có cảm giác hội tụ sai lệch.

Xem thêm thông tin về việc ngừng hoạt động sớm.

D

DataFrame

#fundamentals

Một loại dữ liệu gấu trúc phổ biến để thể hiện tập dữ liệu trong bộ nhớ.

DataFrame cũng tương tự như một bảng hoặc bảng tính. Mỗi cột của DataFrame có một tên (tiêu đề) và mỗi hàng được xác định bằng một số duy nhất.

Mỗi cột trong DataFrame có cấu trúc như một mảng 2D, ngoại trừ việc mỗi cột có thể được chỉ định loại dữ liệu riêng.

Hãy xem thêm trang tham khảo chính thức về gấu trúc.DataFrame.

tập dữ liệu hoặc tập dữ liệu

#fundamentals

Một tập hợp dữ liệu thô, thường (nhưng không chỉ) được sắp xếp theo một trong các định dạng sau:

  • một bảng tính
  • tệp ở định dạng CSV (giá trị được phân tách bằng dấu phẩy)

mô hình sâu

#fundamentals

Mạng nơron chứa nhiều lớp ẩn.

Mô hình sâu còn được gọi là mạng nơron sâu.

Tương phản với mô hình rộng.

đặc điểm dày đặc

#fundamentals

Một tính năng, trong đó hầu hết hoặc tất cả giá trị đều khác 0, thường là Tensor của các giá trị dấu phẩy động. Ví dụ: Tensor 10 phần tử sau đây rất dày đặc vì 9 giá trị của nó là khác 0:

8 3 7 5 2 4 0 4 9 6

Tương phản với tính năng thưa.

độ sâu

#fundamentals

Tổng của các giá trị sau trong mạng nơron:

Ví dụ: một mạng nơron có 5 lớp ẩn và một lớp đầu ra có độ sâu là 6.

Lưu ý rằng lớp đầu vào không ảnh hưởng đến độ sâu.

tính năng riêng biệt

#fundamentals

Một tính năng có một tập hợp các giá trị hữu hạn. Ví dụ: một tính năng có giá trị chỉ có thể là động vật, rau hoặc khoáng sản là một tính năng riêng biệt (hoặc phân loại).

Tương phản với tính năng liên tục.

linh động

#fundamentals

Thực hiện hoạt động thường xuyên hoặc liên tục. Các thuật ngữ độngtrực tuyến là từ đồng nghĩa trong công nghệ học máy. Sau đây là những cách sử dụng độngtrực tuyến trong công nghệ học máy:

  • Mô hình động (hay mô hình trực tuyến) là một mô hình được huấn luyện lại thường xuyên hoặc liên tục.
  • Đào tạo động (hay huấn luyện trực tuyến) là quá trình huấn luyện thường xuyên hoặc liên tục.
  • Suy luận động (hay suy luận trực tuyến) là quá trình tạo thông tin dự đoán theo yêu cầu.

mô hình động

#fundamentals

Một model được huấn luyện lại thường xuyên (thậm chí có thể liên tục). Mô hình động là một "người học cả đời" và luôn thích ứng với dữ liệu không ngừng phát triển. Mô hình động còn được gọi là một mô hình trực tuyến.

Tương phản với mô hình tĩnh.

E

dừng sớm

#fundamentals

Phương thức chuẩn hoá bao gồm việc kết thúc huấn luyện trước khi quá trình huấn luyện kết thúc giảm dần. Trong giai đoạn dừng sớm, bạn cố ý ngừng huấn luyện mô hình khi tình trạng mất dữ liệu trên tập dữ liệu xác thực bắt đầu tăng lên; tức là khi hiệu suất tổng quát giảm xuống.

lớp nhúng

#language
#fundamentals

Một lớp ẩn đặc biệt huấn luyện về tính năng phân loại chiều cao để tìm hiểu dần vectơ nhúng kích thước thấp hơn. Lớp nhúng cho phép mạng nơron huấn luyện hiệu quả hơn nhiều so với việc chỉ huấn luyện trên tính năng phân loại chiều cao.

Ví dụ: Trái đất hiện có khoảng 73.000 loài cây. Giả sử loài cây là một tính năng trong mô hình của bạn, vì vậy,lớp đầu vào của mô hình bao gồm vectơ một nóng dài 73.000 phần tử. Ví dụ: có thể baobab sẽ được biểu thị như sau:

Một mảng gồm 73.000 phần tử. 6.232 phần tử đầu tiên có giá trị 0. Phần tử tiếp theo chứa giá trị 1. 66.767 phần tử cuối cùng có giá trị bằng 0.

Một mảng gồm 73.000 phần tử là rất dài. Nếu bạn không thêm lớp nhúng vào mô hình, thì việc huấn luyện sẽ rất tốn thời gian do nhân 72.999 số 0. Có thể bạn chọn lớp nhúng để bao gồm 12 phương diện. Do đó, lớp nhúng sẽ dần tìm hiểu được vectơ nhúng mới cho từng loài cây.

Trong một số trường hợp, băm là một giải pháp thay thế hợp lý cho lớp nhúng.

thời gian bắt đầu của hệ thống

#fundamentals

Chuyển toàn bộ huấn luyện qua toàn bộ tập hợp huấn luyện để mỗi ví dụ được xử lý một lần.

Thời gian bắt đầu của hệ thống đại diện cho N/kích thước lô đào tạo số lần lặp, trong đó N là tổng số ví dụ.

Ví dụ: giả sử những điều sau:

  • Tập dữ liệu này bao gồm 1.000 ví dụ.
  • Số lượng lô là 50 ví dụ.

Do đó, một thời gian bắt đầu của hệ thống yêu cầu 20 vòng lặp:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

ví dụ

#fundamentals

Giá trị của một hàng tính năng và có thể là một nhãn. Ví dụ trong công nghệ học có giám sát thuộc hai danh mục chung:

  • Ví dụ có gắn nhãn bao gồm một hoặc nhiều tính năng và một nhãn. Các ví dụ có gắn nhãn được dùng trong quá trình huấn luyện.
  • Ví dụ chưa được gắn nhãn bao gồm một hoặc nhiều tính năng nhưng không có nhãn. Các ví dụ không có nhãn được sử dụng trong quá trình suy luận.

Ví dụ: giả sử bạn đang huấn luyện một mô hình để xác định mức độ ảnh hưởng của điều kiện thời tiết đối với điểm kiểm tra của học viên. Dưới đây là ba ví dụ được gắn nhãn:

Tính năng Nhãn
Nhiệt độ Độ ẩm Áp lực Điểm kiểm tra
15 47 998 Tốt
19 34 1020 Rất tốt
18 92 1012 Kém

Dưới đây là ba ví dụ không được gắn nhãn:

Nhiệt độ Độ ẩm Áp lực  
12 62 1014  
21 47 1017  
19 41 1021  

Ví dụ: Hàng của tập dữ liệu thường là nguồn thô. Đó là ví dụ thường bao gồm một tập hợp con các cột trong tập dữ liệu. Hơn nữa, các tính năng trong ví dụ này cũng có thể bao gồm các tính năng tổng hợp, chẳng hạn như các tính năng kết hợp.

F

âm tính giả (FN)

#fundamentals

Một ví dụ trong đó mô hình dự đoán nhầm lớp phủ định. Chẳng hạn, mô hình này dự đoán rằng một email cụ thể không phải là thư rác (lớp phủ định), nhưng email đó thực sự là thư rác.

dương tính giả (FP)

#fundamentals

Một ví dụ trong đó mô hình dự đoán nhầm lớp dương. Ví dụ: mô hình này dự đoán rằng một email cụ thể là thư rác (lớp khẳng định), nhưng email đó thực sự không phải là thư rác.

tỷ lệ dương tính giả (FPR)

#fundamentals

Tỷ lệ các ví dụ phủ định thực tế mà mô hình đã dự đoán nhầm lớp khẳng định. Công thức sau đây tính toán tỷ lệ dương tính giả:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Tỷ lệ dương tính giả là trục x trong đường cong ROC.

đối tượng

#fundamentals

Biến đầu vào cho mô hình học máy. Ví dụ bao gồm một hoặc nhiều tính năng. Ví dụ: giả sử bạn đang đào tạo một mô hình để xác định mức độ ảnh hưởng của điều kiện thời tiết đối với điểm kiểm tra của học viên. Bảng sau đây trình bày 3 ví dụ, mỗi ví dụ chứa 3 tính năng và một nhãn:

Tính năng Nhãn
Nhiệt độ Độ ẩm Áp lực Điểm kiểm tra
15 47 998 92
19 34 1020 84
18 92 1012 87

Tương phản với label.

chữ thập nổi bật

#fundamentals

Một tính năng tổng hợp hình thành từ các tính năng phân loại hoặc nhóm.

Ví dụ: hãy xem xét mô hình "dự báo tâm trạng" biểu thị nhiệt độ theo một trong bốn nhóm sau:

  • freezing
  • chilly
  • temperate
  • warm

Đồng thời, thể hiện tốc độ gió của một trong ba nhóm sau:

  • still
  • light
  • windy

Nếu không có tính năng chéo, mô hình tuyến tính sẽ huấn luyện độc lập trên từng bộ chứa trước đó. Vì vậy, mô hình sẽ huấn luyện trên, chẳng hạn như freezing độc lập với quá trình huấn luyện trên windy, chẳng hạn.

Ngoài ra, bạn có thể tạo một đối tượng gồm cả nhiệt độ và tốc độ gió. Tính năng tổng hợp này sẽ có 12 giá trị có thể sử dụng sau đây:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Nhờ các tính năng kết hợp, mô hình này có thể tìm hiểu sự khác biệt về tâm trạng giữa một ngày freezing-windy và một ngày freezing-still.

Nếu bạn tạo một tính năng tổng hợp từ 2 tính năng mà mỗi tính năng có nhiều bộ chứa khác nhau, thì kết quả tính năng kết hợp sẽ có một số lượng lớn các tổ hợp có thể xảy ra. Ví dụ: nếu một tính năng có 1.000 bộ chứa và tính năng còn lại có 2.000 bộ chứa, thì kết quả giao diện tính năng sẽ có 2.000.000 bộ chứa.

Về mặt hình thức, chữ thập là một sản phẩm Cartesian.

Kết hợp tính năng chủ yếu được sử dụng với mô hình tuyến tính và hiếm khi được sử dụng với mạng nơron.

kỹ thuật tính năng

#fundamentals
#TensorFlow

Một quy trình bao gồm các bước sau:

  1. Xác định tính năng nào có thể hữu ích trong quá trình huấn luyện mô hình.
  2. Chuyển đổi dữ liệu thô từ tập dữ liệu thành các phiên bản hiệu quả của các tính năng đó.

Ví dụ: bạn có thể xác định rằng temperature có thể là một tính năng hữu ích. Sau đó, bạn có thể thử nghiệm việc nhóm để tối ưu hoá những gì mô hình có thể tìm hiểu được trong nhiều phạm vi temperature.

Kỹ thuật tính năng đôi khi được gọi là trích xuất tính năng.

bộ tính năng

#fundamentals

Nhóm tính năng mô hình học máy mà bạn dùng để huấn luyện. Ví dụ: mã bưu chính, kích thước cơ sở lưu trú và điều kiện bất động sản có thể bao gồm một tập hợp tính năng đơn giản cho mô hình dự đoán giá nhà ở.

vectơ đối tượng

#fundamentals

Mảng giá trị feature bao gồm một ví dụ. Vectơ tính năng được nhập vào trong quá trình huấn luyện và trong quá trình suy luận. Ví dụ: vectơ tính năng cho một mô hình có hai đặc điểm riêng biệt có thể là:

[0.92, 0.56]

Bốn lớp: một lớp đầu vào, hai lớp ẩn và một lớp đầu ra.
          Lớp đầu vào chứa hai nút, một nút chứa giá trị 0,92 và nút còn lại chứa giá trị 0,56.

Mỗi ví dụ cung cấp các giá trị khác nhau cho vectơ tính năng, vì vậy, vectơ đặc trưng cho ví dụ tiếp theo có thể giống như:

[0.73, 0.49]

Kỹ thuật tính năng xác định cách biểu thị các tính năng trong vectơ tính năng. Ví dụ: một tính năng phân loại nhị phân có 5 giá trị có thể được biểu thị bằng phương thức mã hoá một lần nóng. Trong trường hợp này, phần vectơ tính năng cho một ví dụ cụ thể sẽ bao gồm bốn số 0 và một số 1.0 ở vị trí thứ ba, như sau:

[0.0, 0.0, 1.0, 0.0, 0.0]

Một ví dụ khác là giả sử mô hình của bạn bao gồm ba tính năng:

  • một tính năng phân loại nhị phân có năm giá trị có thể có được biểu thị bằng phương thức mã hoá một lần nóng; ví dụ: [0.0, 1.0, 0.0, 0.0, 0.0]
  • một tính năng phân loại nhị phân khác có ba giá trị có thể được biểu thị bằng phương thức mã hoá một lần; ví dụ: [0.0, 0.0, 1.0]
  • một tính năng dấu phẩy động; ví dụ: 8.3.

Trong trường hợp này, vectơ đặc trưng cho từng ví dụ sẽ được biểu thị bằng 9 giá trị. Với các giá trị ví dụ trong danh sách trước đó, vectơ đặc trưng sẽ là:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

vòng lặp phản hồi

#fundamentals

Trong công nghệ học máy, tình huống trong đó các thông tin dự đoán của một mô hình sẽ ảnh hưởng đến dữ liệu đào tạo cho cùng một mô hình hoặc một mô hình khác. Ví dụ: một mô hình đề xuất phim sẽ tác động đến phim mà mọi người xem, từ đó tác động đến các mô hình đề xuất phim tiếp theo.

G

khái quát hoá

#fundamentals

Khả năng mô hình đưa ra thông tin dự đoán chính xác đối với dữ liệu mới, trước đây chưa từng thấy. Mô hình có thể khái quát hoá là mô hình ngược lại với mô hình tích hợp quá mức.

đường cong tổng quát hoá

#fundamentals

Biểu đồ về cả mất khi huấn luyệnmất xác thực dưới dạng hàm của số lượng lần lặp.

Đường cong tổng quát hoá có thể giúp bạn phát hiện tình trạng quá mức có thể xảy ra. Ví dụ: đường cong tổng quát sau đây cho thấy việc tập hợp quá mức vì tỷ lệ mất xác thực cuối cùng cao hơn đáng kể so với tổn thất trong quá trình huấn luyện.

Một biểu đồ Cartesian, trong đó trục y được gắn nhãn &quot;mất&quot; và trục x được gắn nhãn &quot;lặp lại&quot;. Hai ô xuất hiện. Một ô cho thấy mức độ mất mát khi huấn luyện và biểu đồ còn lại cho thấy mức độ mất xác thực.
          Hai biểu đồ này bắt đầu tương tự nhau, nhưng tổn thất trong quá trình huấn luyện cuối cùng giảm xuống thấp hơn nhiều so với tổn thất xác thực.

giảm độ dốc

#fundamentals

Một kỹ thuật toán học giúp giảm thiểu mất. Đường xuống dần dần điều chỉnh trọng sốđộ lệch, dần dần tìm ra tổ hợp phù hợp nhất để giảm thiểu tình trạng mất dữ liệu.

Tình trạng giảm dần độ dốc thường cũ hơn nhiều so với công nghệ học máy.

thông tin thực tế

#fundamentals

Thực tế.

Điều thực sự đã xảy ra.

Ví dụ: hãy xem xét mô hình phân loại nhị phân để dự đoán liệu một sinh viên trong năm đầu đại học sẽ tốt nghiệp trong vòng 6 năm hay không. Nền tảng của mô hình này là học viên đó có thực sự tốt nghiệp trong vòng 6 năm hay không.

Số lần bị đánh trúng bóng

lớp ẩn

#fundamentals

Một lớp trong mạng nơron giữa lớp đầu vào (các tính năng) và lớp đầu ra (thông tin dự đoán). Mỗi lớp ẩn chứa một hoặc nhiều nơ-ron. Ví dụ: mạng nơron sau đây chứa 2 lớp ẩn, lớp đầu tiên có 3 nơron và lớp thứ hai có 2 nơron:

4 lớp. Lớp đầu tiên là lớp đầu vào chứa hai
 tính năng. Lớp thứ hai là một lớp ẩn chứa 3 nơron. Lớp thứ ba là một lớp ẩn chứa hai nơ-ron. Lớp thứ tư là lớp đầu ra. Mỗi tính năng chứa ba cạnh, mỗi cạnh trỏ đến một tế bào thần kinh khác nhau trong lớp thứ hai. Mỗi nơron trong lớp thứ hai chứa hai cạnh, mỗi cạnh trỏ đến một nơron khác nhau trong lớp thứ ba. Mỗi nơron trong lớp thứ ba chứa một cạnh, mỗi cạnh trỏ đến lớp đầu ra.

Mạng nơron sâu chứa nhiều lớp ẩn. Ví dụ: hình minh hoạ trước đó là một mạng nơron sâu vì mô hình này chứa 2 lớp ẩn.

siêu thông số

#fundamentals

Các biến mà bạn hoặc dịch vụ điều chỉnh siêu thông sốsẽ điều chỉnh trong các lần chạy huấn luyện mô hình liên tiếp. Ví dụ: tỷ lệ học tập là một siêu thông số. Bạn có thể đặt tốc độ học là 0,01 trước một buổi đào tạo. Nếu xác định rằng 0,01 là quá cao, có lẽ bạn có thể đặt tốc độ học thành 0,003 cho phiên đào tạo tiếp theo.

Ngược lại, tham số là các trọng sốđộ lệch mà mô hình học được trong quá trình huấn luyện.

I

được phân phối độc lập và giống hệt nhau (i.i.d)

#fundamentals

Dữ liệu được vẽ từ một phạm vi phân phối không thay đổi và trong đó mỗi giá trị được vẽ không phụ thuộc vào các giá trị đã được vẽ trước đó. ID là loại khí lý tưởng của công nghệ học máy – một cấu trúc toán học hữu ích nhưng hầu như không bao giờ được tìm thấy chính xác trong thế giới thực. Ví dụ: sự phân phối khách truy cập vào một trang web có thể là trong một khoảng thời gian ngắn; nghĩa là sự phân phối không thay đổi trong khoảng thời gian ngắn đó và lượt truy cập của một người thường độc lập với lượt truy cập của người khác. Tuy nhiên, nếu bạn mở rộng khoảng thời gian đó, thì những khác biệt theo mùa về khách truy cập trang web có thể xuất hiện.

Xem thêm về nội dung không ổn định.

suy luận

#fundamentals

Trong công nghệ học máy, quá trình đưa ra dự đoán bằng cách áp dụng một mô hình đã huấn luyện cho các ví dụ không có nhãn.

Kết quả suy luận có ý nghĩa hơi khác trong số liệu thống kê. Vui lòng xem Bài viết trên Wikipedia về suy luận thống kê để biết thông tin chi tiết.

lớp đầu vào

#fundamentals

Lớp của mạng nơron chứa vectơ đặc trưng. Tức là lớp đầu vào cung cấp ví dụ để huấn luyện hoặc suy luận. Ví dụ: lớp đầu vào trong mạng nơron sau đây bao gồm hai tính năng:

Bốn lớp: một lớp đầu vào, hai lớp ẩn và một lớp đầu ra.

dễ hiểu

#fundamentals

Khả năng giải thích hoặc trình bày lý luận của mô hình học máy bằng các thuật ngữ dễ hiểu cho con người.

Ví dụ: hầu hết các mô hình hồi quy tuyến tính đều có thể hiểu được mức độ cao. (Bạn chỉ cần xem các trọng số đã huấn luyện cho từng tính năng.) Rừng quyết định cũng dễ hiểu. Tuy nhiên, một số mô hình yêu cầu hình ảnh trực quan phức tạp để có thể diễn giải được.

Bạn có thể sử dụng Công cụ diễn giải kiến thức (LIT) để diễn giải các mô hình học máy.

vòng lặp

#fundamentals

Một lần cập nhật duy nhất cho các tham số của mô hìnhtrọng sốđộ lệch của mô hình trong quá trình huấn luyện. Kích thước lô xác định số lượng ví dụ mà mô hình xử lý trong một vòng lặp. Ví dụ: nếu kích thước lô là 20, thì mô hình sẽ xử lý 20 ví dụ trước khi điều chỉnh các tham số.

Khi huấn luyện mạng nơron, một vòng lặp duy nhất sẽ bao gồm hai lượt truyền sau:

  1. Truyền chuyển tiếp để đánh giá tình trạng mất dữ liệu trong một lô duy nhất.
  2. Truyền ngược lại (truyền ngược) để điều chỉnh các tham số của mô hình dựa trên tổn thất bị mất và tốc độ tìm hiểu.

L

Chuẩn hoá L0

#fundamentals

Một loại quy chuẩn hoá phạt tổng số trọng số khác 0 trong một mô hình. Ví dụ: một mô hình có 11 trọng số khác 0 sẽ bị phạt nhiều hơn một mô hình tương tự có 10 trọng số khác 0.

Quá trình chuẩn hoá L0 đôi khi được gọi là quy chuẩn L0-norm.

Thua tối1

#fundamentals

Hàm tổn hao tính giá trị tuyệt đối của chênh lệch giữa giá trị nhãn thực tế và giá trị mà mô hình dự đoán. Ví dụ: dưới đây là phép tính tổn thất L1 cho một gói gồm 5 ví dụ:

Giá trị thực tế của ví dụ Giá trị dự đoán của mô hình Giá trị tuyệt đối của delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = Thua L1

Tổn thất L1 ít nhạy cảm với các điểm ngoại lai hơn so với tổn thất L2.

Lỗi tuyệt đối trung bình là mức tổn thất trung bình L1 cho mỗi ví dụ.

Chuẩn hoá L1

#fundamentals

Một loại quy chuẩn hoá phạt trọng số theo tỷ lệ với tổng giá trị tuyệt đối của trọng số. Việc chuẩn hoá L1 giúp tăng trọng số của các tính năng không liên quan hoặc hầu như không liên quan lên chính xác là 0. Một tính năng có trọng số là 0 sẽ bị xoá khỏi mô hình một cách hiệu quả.

Tương phản với chế độ chuẩn hoá L2.

Thua tối2

#fundamentals

hàm tổn thất tính bình phương của chênh lệch giữa giá trị nhãn thực tế và giá trị mà mô hình dự đoán. Ví dụ: dưới đây là phép tính tổn thất L2 cho một gói gồm 5 ví dụ:

Giá trị thực tế của ví dụ Giá trị dự đoán của mô hình Hình vuông delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = Thua L2

Do việc bình đẳng, tổn thất L2 làm gia tăng ảnh hưởng của các điểm ngoại lai. Tức là, tổn thất L2 phản ứng mạnh hơn với các dự đoán xấu so với L1mất Ví dụ: tổn thất L1 cho lô trước đó sẽ là 8 thay vì 16. Hãy lưu ý rằng có một điểm ngoại lai chiếm 9/16.

Mô hình hồi quy thường sử dụng hàm tổn hao L2 làm hàm tổn thất.

Lỗi bình phương trung bình là mức tổn thất trung bình L2 cho mỗi ví dụ. Tỷ lệ mất hình vuông là một tên khác của tổn thất L2.

Chuẩn hoá L2

#fundamentals

Một loại quy tắc hoá phạt trọng số theo tỷ lệ với tổng bình phương của trọng số. Việc chuẩn hoá L2 giúp tăng trọng số ngoại lệ (những người có giá trị âm cao hoặc thấp) gần hơn với 0 chứ không hoàn toàn bằng 0. Các tính năng có giá trị rất gần bằng 0 vẫn tồn tại trong mô hình nhưng không ảnh hưởng nhiều đến thông tin dự đoán của mô hình.

Việc chuẩn hoá L2 luôn cải thiện quá trình tổng quát hoá trong mô hình tuyến tính.

Tương phản với chế độ chuẩn hoá L1.

label

#fundamentals

Trong công nghệ học máy được giám sát, phần "câu trả lời" hoặc "kết quả" của một ví dụ.

Mỗi ví dụ có gắn nhãn bao gồm một hoặc nhiều tính năng và một nhãn. Ví dụ: trong một tập dữ liệu phát hiện thư rác, nhãn có thể là "thư rác" hoặc "không phải thư rác". Trong tập dữ liệu về lượng mưa, nhãn này có thể là lượng mưa rơi vào trong một khoảng thời gian nhất định.

ví dụ có gắn nhãn

#fundamentals

Ví dụ có chứa một hoặc nhiều tính năng và một nhãn. Ví dụ: bảng sau đây trình bày ba ví dụ được gắn nhãn từ mô hình định giá nhà, mỗi ví dụ có ba đặc điểm và một nhãn:

Số lượng phòng ngủ Số phòng tắm Tuổi thọ của ngôi nhà Giá nhà (nhãn)
3 2 15 $345.000
2 1 72 $179.000
4 2 34 $392.000

Trong công nghệ học máy có giám sát, các mô hình sẽ huấn luyện dựa trên các ví dụ có gắn nhãn và đưa ra dự đoán trên các ví dụ không có nhãn.

Ví dụ về nội dung có gắn nhãn tương phản với các ví dụ không được gắn nhãn.

lambda

#fundamentals

Từ đồng nghĩa với regularization rate (tỷ lệ chuẩn hoá).

Lambda là một thuật ngữ quá tải. Ở đây, chúng tôi đang tập trung vào định nghĩa của thuật ngữ này trong phần quy chuẩn hoá.

lớp

#fundamentals

Một tập hợp nơ-ron trong một mạng nơron. Sau đây là 3 loại lớp phổ biến:

Ví dụ: hình minh hoạ sau đây thể hiện một mạng nơron với một lớp đầu vào, hai lớp ẩn và một lớp đầu ra:

Một mạng nơron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra. Lớp đầu vào bao gồm hai tính năng. Lớp ẩn đầu tiên bao gồm 3 nơ-ron, còn lớp ẩn thứ hai gồm 2 nơ-ron. Lớp đầu ra bao gồm một nút duy nhất.

Trong TensorFlow, lớp cũng là các hàm Python lấy Tensor và các tuỳ chọn cấu hình làm dữ liệu đầu vào rồi tạo tensor khác làm dữ liệu đầu ra.

tốc độ học tập

#fundamentals

Số dấu phẩy động cho biết thuật toán giảm độ dốc đáng kể như thế nào để điều chỉnh trọng số và độ chệch trên mỗi quá trình lặp lại. Ví dụ: tốc độ học tập 0,3 sẽ điều chỉnh trọng số và độ lệch hiệu quả hơn gấp 3 lần so với tốc độ học 0,1.

Tốc độ tìm hiểu là một siêu thông số chính. Nếu bạn đặt tốc độ học quá thấp, thì quá trình huấn luyện sẽ mất quá nhiều thời gian. Nếu bạn đặt tốc độ học quá cao, phương pháp giảm độ dốc thường gặp khó khăn trong việc tiếp cận nhóm hội tụ.

tuyến tính

#fundamentals

Mối quan hệ giữa 2 hoặc nhiều biến chỉ có thể được biểu thị thông qua phép cộng và phép nhân.

Biểu đồ của mối quan hệ tuyến tính là một đường thẳng.

Tương phản với phi tuyến tính.

mô hình tuyến tính

#fundamentals

model chỉ định một model cho mỗi model để đưa ra model. (Mô hình tuyến tính cũng kết hợp thành kiến.) Ngược lại, mối quan hệ của các tính năng với thông tin dự đoán trong mô hình sâu thường là phi tuyến tính.

Mô hình tuyến tính thường dễ huấn luyện hơn và dễ hiểu hơn so với mô hình sâu. Tuy nhiên, mô hình sâu có thể tìm hiểu các mối quan hệ phức tạp giữa các tính năng.

Hồi quy tuyến tínhhồi quy logistic là hai loại mô hình tuyến tính.

hồi quy tuyến tính

#fundamentals

Một loại mô hình học máy có cả hai điều sau đây:

  • Mô hình này là một mô hình tuyến tính.
  • Thông tin dự đoán là một giá trị dấu phẩy động. (Đây là phần hồi quy của hồi quy tuyến tính.)

Đối chiếu hồi quy tuyến tính với hồi quy logistic. Ngoài ra, hãy đối chiếu sự hồi quy với tính năng phân loại.

hồi quy logistic

#fundamentals

Một loại mô hình hồi quy dự đoán xác suất. Mô hình hồi quy logistic có các đặc điểm sau:

  • Nhãn này là phân loại. Thuật ngữ hồi quy logistic thường đề cập đến hồi quy logistic nhị phân, tức là dùng đến mô hình tính xác suất cho các nhãn có hai giá trị có thể có. Một biến thể ít phổ biến hơn là hồi quy logistic đa thức, tính xác suất cho các nhãn có nhiều hơn 2 giá trị có thể có.
  • Hàm tổn thất trong quá trình huấn luyện là Log mất. (Bạn có thể đặt nhiều đơn vị Mất nhật ký song song cho các nhãn có thể có nhiều hơn hai giá trị.)
  • Mô hình này có kiến trúc tuyến tính chứ không phải mạng nơ-ron sâu. Tuy nhiên, phần còn lại của định nghĩa này cũng áp dụng cho các mô hình sâu có chức năng dự đoán xác suất cho các nhãn phân loại.

Ví dụ: hãy xem xét mô hình hồi quy hậu cần tính xác suất email đầu vào là thư rác hoặc không phải thư rác. Trong quá trình suy luận, giả sử mô hình dự đoán giá trị 0,72. Do đó, mô hình này ước tính:

  • 72% khả năng email là thư rác.
  • 28% khả năng email không phải là thư rác.

Mô hình hồi quy logistic sử dụng cấu trúc 2 bước sau:

  1. Mô hình này tạo ra thông tin dự đoán thô (y') bằng cách áp dụng một hàm tuyến tính của các đối tượng đầu vào.
  2. Mô hình này sử dụng thông tin dự đoán thô đó làm dữ liệu đầu vào cho hàm sigmoid. Hàm này chuyển đổi dự đoán thô thành giá trị nằm trong khoảng từ 0 đến 1.

Giống như mọi mô hình hồi quy khác, mô hình hồi quy logistic dự đoán một con số. Tuy nhiên, con số này thường trở thành một phần của mô hình phân loại nhị phân như sau:

  • Nếu số dự đoán lớn hơn ngưỡng phân loại, thì mô hình phân loại nhị phân sẽ dự đoán lớp dương.
  • Nếu số dự đoán ít hơn ngưỡng phân loại, thì mô hình phân loại nhị phân sẽ dự đoán lớp có giá trị âm.

Mất nhật ký

#fundamentals

hàm mất dữ liệu được dùng trong hồi quy logistic nhị phân.

tỷ lệ thắng/thua

#fundamentals

lôgarit của một số sự kiện.

thua

#fundamentals

Trong quá trình huấn luyện mô hình được giám sát, phép đo khoảng cách giữa dự đoán của mô hình so với nhãn của mô hình.

hàm tổn thất tính toán tổn thất.

đường cong tổn thất

#fundamentals

Biểu đồ mất dưới dạng một hàm của số vòng lặp huấn luyện. Biểu đồ sau đây cho thấy một đường cong tổn thất điển hình:

Biểu đồ dạng Cartesian về sự mất mát so với số vòng lặp huấn luyện, cho thấy sự sụt giảm nhanh chóng trong những lần lặp lại đầu tiên, sau đó là sự sụt giảm dần và sau đó là một đường dốc phẳng trong những lần lặp cuối cùng.

Đường cong tổn thất có thể giúp bạn xác định thời điểm mô hình của bạn đang hội tụ hay tích hợp quá mức.

Đường cong tổn thất có thể thể hiện tất cả các loại tổn thất sau đây:

Xem thêm về đường cong tổng quát.

hàm mất

#fundamentals

Trong quá trình huấn luyện hoặc kiểm thử, một hàm toán học tính toán tổn thất trên một gói ví dụ. Hàm tổn thất sẽ trả về mức tổn thất thấp hơn cho các mô hình đưa ra dự đoán tốt so với các mô hình đưa ra dự đoán xấu.

Mục tiêu của việc huấn luyện thường là để giảm thiểu tổn thất do hàm bị mất trả về.

Có nhiều loại hàm tổn hao. Hãy chọn hàm suy hao thích hợp cho loại mô hình bạn đang xây dựng. Ví dụ:

M

học máy

#fundamentals

Một chương trình hoặc hệ thống huấn luyện một mô hình từ dữ liệu đầu vào. Mô hình đã huấn luyện có thể đưa ra các dự đoán hữu ích từ dữ liệu mới (chưa từng thấy trước đây) được rút ra từ cùng một bản phân phối giống như dữ liệu dùng để huấn luyện mô hình.

Công nghệ máy học cũng đề cập đến lĩnh vực nghiên cứu liên quan đến các chương trình hoặc hệ thống này.

lớp đa số

#fundamentals

Nhãn phổ biến hơn trong tập dữ liệu mất cân bằng lớp. Ví dụ: với một tập dữ liệu chứa 99% nhãn âm và 1% nhãn dương, thì các nhãn âm là lớp phần lớn.

Tương phản với lớp thiểu số.

lô nhỏ

#fundamentals

Một tập hợp con nhỏ, được chọn ngẫu nhiên của một được xử lý trong một vòng lặp. Kích thước lô của một lô nhỏ thường nằm trong khoảng từ 10 đến 1.000 ví dụ.

Ví dụ: giả sử toàn bộ tập hợp huấn luyện (toàn bộ lô) bao gồm 1.000 ví dụ. Giả sử bạn đặt kích thước lô của mỗi lô nhỏ thành 20. Do đó, mỗi lần lặp lại xác định tổn thất trên 20 ví dụ ngẫu nhiên trong số 1.000 ví dụ,sau đó điều chỉnh trọng sốđộ lệch cho phù hợp.

Việc tính toán tổn thất trên một lô nhỏ sẽ hiệu quả hơn nhiều so với tổn thất trên tất cả ví dụ trong toàn bộ lô.

tầng lớp thiểu số

#fundamentals

Nhãn ít phổ biến hơn trong tập dữ liệu mất cân bằng lớp. Ví dụ: với một tập dữ liệu chứa 99% nhãn âm và 1% nhãn dương, thì các nhãn dương sẽ là lớp thiểu số.

Tương phản với lớp phần lớn.

model

#fundamentals

Nhìn chung, mọi cấu trúc toán học xử lý dữ liệu đầu vào và trả về đầu ra. Diễn đạt khác, mô hình là tập hợp các tham số và cấu trúc cần thiết để hệ thống đưa ra dự đoán. Trong công nghệ học máy được giám sát, một mô hình sẽ lấy ví dụ làm dữ liệu đầu vào và suy ra dự đoán làm dữ liệu đầu ra. Trong công nghệ học máy có giám sát, các mô hình có chút khác biệt. Ví dụ:

  • Mô hình hồi quy tuyến tính bao gồm một tập hợp trọng sốđộ lệch.
  • Mô hình mạng nơron bao gồm:
    • Một tập hợp lớp ẩn, mỗi lớp chứa một hoặc nhiều nơ-ron.
    • Trọng số và độ lệch liên quan đến mỗi nơron.
  • Mô hình cây quyết định bao gồm:
    • Hình dạng của cây; tức là mẫu kết nối các điều kiện và lá cây.
    • Tình trạng và lá cây.

Bạn có thể lưu, khôi phục hoặc tạo bản sao của mô hình.

Công nghệ học máy không được giám sát cũng tạo các mô hình, thường là một hàm có thể liên kết ví dụ về dữ liệu đầu vào với cụm phù hợp nhất.

phân loại nhiều lớp

#fundamentals

Trong chế độ học có giám sát, đây là vấn đề phân loại, trong đó tập dữ liệu chứa hơn 2 lớp nhãn. Ví dụ: các nhãn trong tập dữ liệu Iris phải là một trong ba lớp sau:

  • Vòng tròn Iris
  • Hoa diên vĩ
  • Hoa diên vĩ

Một mô hình được huấn luyện về tập dữ liệu Iris để dự đoán loại Iris trên các ví dụ mới đang thực hiện phân loại nhiều lớp.

Ngược lại, các vấn đề phân loại để phân biệt chính xác 2 lớp là mô hình phân loại nhị phân. Ví dụ: một mô hình email dự đoán thư rác hoặc không phải thư rác là một mô hình phân loại nhị phân.

Trong các vấn đề về phân nhóm, việc phân loại nhiều lớp đề cập đến hơn 2 cụm.

N

lớp phủ định

#fundamentals

Trong phân loại nhị phân, một lớp được gọi là dương và lớp còn lại được gọi là âm. Lớp dương là một sự kiện hoặc sự kiện mà mô hình đang kiểm thử, còn lớp phủ định là khả năng khác. Ví dụ:

  • Lớp âm tính trong xét nghiệm y tế có thể "không phải là khối u".
  • Lớp phủ định trong thuật toán phân loại email có thể "không phải là thư rác".

Tương phản với lớp tích cực.

mạng nơ-ron

#fundamentals

model chứa ít nhất một model. Mạng nơron sâu là một loại mạng nơron chứa nhiều lớp ẩn. Ví dụ: sơ đồ sau đây cho thấy một mạng nơron sâu chứa hai lớp ẩn.

Một mạng nơron có một lớp đầu vào, 2 lớp ẩn và một lớp đầu ra.

Mỗi nơron trong mạng nơron kết nối với tất cả các nút trong lớp tiếp theo. Ví dụ: trong sơ đồ trước đó, hãy lưu ý rằng mỗi trong số ba nơ-ron trong lớp ẩn đầu tiên kết nối riêng biệt với cả hai nơ-ron trong lớp ẩn thứ hai.

Mạng nơron được triển khai trên máy tính đôi khi được gọi là mạng nơron nhân tạo để phân biệt với mạng nơron có trong não và các hệ thần kinh khác.

Một số mạng nơron có thể bắt chước các mối quan hệ phi tuyến cực kỳ phức tạp giữa các tính năng khác nhau và nhãn.

Xem thêm về mạng nơron tích chậpmạng nơron định kỳ.

nơron

#fundamentals

Trong công nghệ học máy, một đơn vị riêng biệt nằm trong lớp ẩn của mạng nơron. Mỗi nơron thực hiện hành động 2 bước sau đây:

  1. Tính toán tổng trọng số của các giá trị đầu vào nhân với trọng số tương ứng.
  2. Truyền tổng trọng số dưới dạng dữ liệu đầu vào cho hàm kích hoạt.

Một nơron trong lớp ẩn đầu tiên sẽ chấp nhận dữ liệu đầu vào từ các giá trị tính năng trong lớp đầu vào. Một nơ-ron trong bất kỳ lớp ẩn nào ngoài lớp đầu tiên chấp nhận dữ liệu đầu vào từ các nơ-ron trong lớp ẩn trước đó. Ví dụ: một nơ-ron trong lớp ẩn thứ hai chấp nhận dữ liệu đầu vào từ các nơ-ron trong lớp ẩn đầu tiên.

Hình minh hoạ sau đây làm nổi bật 2 nơ-ron và đầu vào của chúng.

Một mạng nơron có một lớp đầu vào, 2 lớp ẩn và một lớp đầu ra. Hai nơ-ron được làm nổi bật: một trong lớp ẩn đầu tiên và một trong lớp ẩn thứ hai. Ô-nơ-ron được làm nổi bật trong lớp ẩn đầu tiên sẽ nhận dữ liệu đầu vào từ cả hai tính năng trong lớp đầu vào. Ô-nơ-ron được làm nổi bật trong lớp ẩn thứ hai sẽ nhận dữ liệu đầu vào từ mỗi trong số ba nơ-ron trong lớp ẩn đầu tiên.

Một nơron trong mạng nơron mô phỏng hành vi của nơron trong não và các phần khác của hệ thần kinh.

nút (mạng nơ-ron)

#fundamentals

Một nơ-ron trong lớp ẩn.

phi tuyến tính

#fundamentals

Mối quan hệ giữa 2 hoặc nhiều biến không thể chỉ biểu thị bằng phép cộng và phép nhân. Mối quan hệ tuyến tính có thể được biểu thị dưới dạng đường; mối quan hệ phi tuyến tính không thể được biểu thị dưới dạng đường. Ví dụ: hãy xem xét 2 mô hình mà mỗi mô hình liên kết một tính năng với một nhãn duy nhất. Mô hình bên trái là mô hình tuyến tính còn mô hình bên phải là phi tuyến tính:

Hai mảnh đất. Một ô là một đường kẻ, vì vậy đây là mối quan hệ tuyến tính.
          Biểu đồ còn lại là một đường cong, vì vậy, đây là mối quan hệ phi tuyến tính.

không ổn định

#fundamentals

Một tính năng có giá trị thay đổi trên một hoặc nhiều phương diện, thường là theo thời gian. Ví dụ: hãy xem xét các ví dụ sau về tình trạng không cố định:

  • Số lượng bộ đồ bơi được bán tại một cửa hàng cụ thể sẽ thay đổi theo mùa.
  • Số lượng loại trái cây cụ thể được thu hoạch ở một khu vực cụ thể bằng 0 trong thời gian trong năm nhưng lớn trong một khoảng thời gian ngắn.
  • Do biến đổi khí hậu, nhiệt độ trung bình hằng năm đang thay đổi.

Tương phản với sự ổn định.

chuẩn hoá

#fundamentals

Nói chung, đây là quá trình chuyển đổi phạm vi giá trị thực tế của một biến thành một phạm vi giá trị chuẩn, chẳng hạn như:

  • -1 đến +1
  • 0:1
  • phân phối chuẩn

Ví dụ: giả sử phạm vi thực tế của các giá trị của một tính năng nhất định là 800 đến 2.400. Trong quá trình kỹ thuật tính năng, bạn có thể chuẩn hoá các giá trị thực tế xuống phạm vi chuẩn, chẳng hạn như -1 đến +1.

Chuẩn hoá là một tác vụ phổ biến trong kỹ thuật tính năng. Các mô hình thường huấn luyện nhanh hơn (và đưa ra thông tin dự đoán chính xác hơn) khi mọi đối tượng dạng số trong vectơ đặc trưng có phạm vi gần như nhau.

dữ liệu số

#fundamentals

Các tính năng được biểu thị dưới dạng số nguyên hoặc số có giá trị thực. Ví dụ: mô hình định giá ngôi nhà có thể biểu thị kích thước của một ngôi nhà (tính bằng bộ vuông hoặc mét vuông) dưới dạng dữ liệu số. Việc biểu thị một tính năng dưới dạng dữ liệu số cho biết rằng các giá trị của đối tượng đó có mối quan hệ toán học với nhãn. Tức là, số mét vuông trong một ngôi nhà có thể có một số mối quan hệ toán học với giá trị của ngôi nhà.

Không phải tất cả dữ liệu số nguyên đều phải được biểu diễn dưới dạng dữ liệu số. Ví dụ: mã bưu chính ở một số nơi trên thế giới là số nguyên. Tuy nhiên, mã bưu chính bằng số nguyên không được biểu thị dưới dạng dữ liệu số trong mô hình. Đó là vì mã bưu chính của 20000 không có hiệu lực gấp đôi (hoặc một nửa) so với mã bưu chính 10000. Hơn nữa, mặc dù các mã bưu chính khác nhau tương quan với các giá trị bất động sản khác nhau, nhưng chúng tôi không thể giả định rằng giá trị bất động sản tại mã bưu chính 20000 có giá trị gấp đôi so với giá trị bất động sản tại mã bưu chính 10000. Thay vào đó, mã bưu chính phải được biểu thị dưới dạng dữ liệu phân loại.

Các tính năng số đôi khi được gọi là các tính năng liên tục.

O

ngoại tuyến

#fundamentals

Từ đồng nghĩa với tĩnh.

suy luận ngoại tuyến

#fundamentals

Quá trình mô hình tạo một nhóm dự đoán, sau đó lưu vào bộ nhớ đệm (lưu) các dự đoán đó. Sau đó, các ứng dụng có thể truy cập vào các dự đoán mong muốn từ bộ nhớ đệm thay vì chạy lại mô hình.

Ví dụ: hãy xem xét một mô hình tạo dự báo thời tiết địa phương (dự đoán) bốn giờ một lần. Sau khi mỗi mô hình chạy, hệ thống sẽ lưu tất cả thông tin dự báo thời tiết tại địa phương vào bộ nhớ đệm. Ứng dụng thời tiết truy xuất thông tin dự báo từ bộ nhớ đệm.

Dự đoán ngoại tuyến còn được gọi là suy luận tĩnh.

Trái ngược với suy luận trực tuyến.

mã hoá một lần nóng

#fundamentals

Trình bày dữ liệu phân loại dưới dạng một vectơ trong đó:

  • Một phần tử được đặt thành 1.
  • Tất cả các phần tử khác được đặt thành 0.

Phương pháp mã hoá một lần nóng thường được dùng để biểu thị các chuỗi hoặc giá trị nhận dạng có một tập hợp các giá trị hữu hạn. Ví dụ: giả sử một tính năng phân loại nhất định có tên là Scandinavia có thể có 5 giá trị:

  • "Đan Mạch"
  • "Thuỵ Điển"
  • "Na Uy"
  • "Phần Lan"
  • "Iceland"

Phương thức mã hoá một lượt phát nóng có thể biểu thị từng giá trị trong số 5 giá trị như sau:

quốc gia Vectơ
"Đan Mạch" 1 0 0 0 0
"Thuỵ Điển" 0 1 0 0 0
"Na Uy" 0 0 1 0 0
"Phần Lan" 0 0 0 1 0
"Iceland" 0 0 0 0 1

Nhờ có phương thức mã hoá một lần nóng, một mô hình có thể tìm hiểu nhiều kiểu kết nối dựa trên từng quốc gia trong số 5 quốc gia.

Việc biểu thị một tính năng dưới dạng dữ liệu dạng số là một giải pháp thay thế cho phương thức mã hoá một lần. Thật không may, việc đại diện cho các quốc gia Bắc Âu theo số liệu không phải là lựa chọn hay. Chẳng hạn, hãy xem xét cách biểu diễn dạng số sau đây:

  • "Đan Mạch" là 0
  • "Thuỵ Điển" là 1
  • "Na Uy" là 2
  • "Phần Lan" là 3
  • "Iceland" là 4

Với phương thức mã hoá số, mô hình sẽ diễn giải các số thô một cách trực quan và sẽ cố gắng huấn luyện dựa trên các số đó. Tuy nhiên, Iceland thực sự không gấp đôi (hoặc một nửa) so với Na Uy, vì vậy mô hình này sẽ đi đến một số kết luận kỳ lạ.

một so với tất cả

#fundamentals

Do vấn đề phân loại của các lớp N, giải pháp bao gồm N thuật toán phân loại nhị phân riêng biệt – một thuật toán phân loại nhị phân cho từng kết quả có thể xảy ra. Ví dụ: trong một mô hình phân loại các ví dụ như động vật, rau củ hoặc khoáng sản, thì giải pháp một so với tất cả sẽ cung cấp 3 thuật toán phân loại nhị phân riêng biệt sau đây:

  • động vật so với không phải động vật
  • có rau củ và không phải rau củ
  • khoáng chất so với không phải khoáng chất

trực tuyến

#fundamentals

Từ đồng nghĩa với động.

suy luận trực tuyến

#fundamentals

Tạo thông tin dự đoán theo yêu cầu. Ví dụ: giả sử một ứng dụng truyền dữ liệu đầu vào đến một mô hình và đưa ra yêu cầu về truy vấn dự đoán. Một hệ thống sử dụng thông tin dự đoán trực tuyến sẽ phản hồi yêu cầu bằng cách chạy mô hình (và trả về thông tin dự đoán cho ứng dụng).

Trái ngược với tính năng dự đoán ngoại tuyến.

lớp đầu ra

#fundamentals

Lớp "cuối cùng" của mạng nơron. Lớp đầu ra chứa thông tin dự đoán.

Hình minh hoạ sau đây cho thấy một mạng nơron sâu nhỏ với một lớp đầu vào, 2 lớp ẩn và một lớp đầu ra:

Một mạng nơron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra. Lớp đầu vào bao gồm hai tính năng. Lớp ẩn đầu tiên bao gồm 3 nơ-ron, còn lớp ẩn thứ hai gồm 2 nơ-ron. Lớp đầu ra bao gồm một nút duy nhất.

quá mức

#fundamentals

Tạo một model khớp với model đến mức mô hình không đưa ra được thông tin dự đoán chính xác về dữ liệu mới.

Việc thường xuyên hoá có thể giảm tình trạng quá mức. Việc huấn luyện trong một bộ huấn luyện lớn và đa dạng cũng có thể giúp giảm tình trạng quá mức.

Điểm

gấu trúc

#fundamentals

API phân tích dữ liệu theo hướng cột, được xây dựng dựa trên numpy. Nhiều khung học máy, bao gồm cả TensorFlow, hỗ trợ cấu trúc dữ liệu gấu trúc làm dữ liệu đầu vào. Hãy xem tài liệu về gấu trúc để biết thông tin chi tiết.

thông số

#fundamentals

Trọng sốđộ lệch mà mô hình học được trong quá trình huấn luyện. Ví dụ: trong mô hình hồi quy tuyến tính, các tham số bao gồm độ chệch (b) và mọi trọng số (w1, w2, v.v.) trong công thức sau:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Ngược lại, hyperparameter là các giá trị mà bạn (hoặc dịch vụ biến siêu thông số) cung cấp cho mô hình. Ví dụ: tỷ lệ học tập là một siêu thông số.

lớp dương

#fundamentals

Lớp mà bạn đang kiểm thử.

Ví dụ: lớp dương tính trong mô hình ung thư có thể là "khối u". Lớp khẳng định trong thuật toán phân loại email có thể là "thư rác".

Tương phản với lớp phủ định.

xử lý hậu kỳ

#fairness
#fundamentals

Điều chỉnh đầu ra của mô hình sau khi mô hình đã chạy. Bạn có thể sử dụng quá trình xử lý hậu kỳ để thực thi các quy tắc ràng buộc về tính công bằng mà không cần sửa đổi chính mô hình.

Ví dụ: bạn có thể áp dụng quá trình xử lý hậu kỳ cho một thuật toán phân loại nhị phân bằng cách đặt một ngưỡng phân loại sao cho sự cân bằng của cơ hội được duy trì cho một số thuộc tính bằng cách kiểm tra để đảm bảo rằng tỷ lệ dương thực sự là như nhau đối với tất cả các giá trị của thuộc tính đó.

dự đoán

#fundamentals

Kết quả đầu ra của mô hình. Ví dụ:

  • Dự đoán của mô hình phân loại nhị phân là lớp dương hoặc lớp âm.
  • Dự đoán mô hình phân loại nhiều lớp là một lớp.
  • Dự đoán của mô hình hồi quy tuyến tính là một số.

nhãn proxy

#fundamentals

Dữ liệu được dùng để lấy gần đúng các nhãn không có sẵn trực tiếp trong tập dữ liệu.

Ví dụ: giả sử bạn phải huấn luyện một mô hình để dự đoán mức độ căng thẳng của nhân viên. Tập dữ liệu của bạn có chứa nhiều tính năng dự đoán nhưng không chứa nhãn mức độ căng thẳng. Không ngại ngần, bạn chọn "tai nạn nơi làm việc" làm nhãn proxy cho mức độ căng thẳng. Suy cho cùng, nhân viên đang bị căng thẳng cao lại gặp phải nhiều tai nạn hơn là nhân viên bình tĩnh. Có đúng không? Có thể tai nạn nơi làm việc thực sự tăng và giảm vì nhiều lý do.

Ví dụ thứ hai: giả sử bạn muốn trời có đang mưa không? phải là nhãn Boolean cho tập dữ liệu, nhưng tập dữ liệu của bạn không chứa dữ liệu về mưa. Nếu có ảnh chụp, bạn có thể lấy ảnh mọi người mang ô làm nhãn proxy cho biết trời có đang mưa không? Đó có phải là một nhãn proxy tốt không? Cũng có thể, nhưng người dùng ở một số nền văn hoá có khả năng mang ô để chống nắng nhiều hơn là trời mưa.

Nhãn proxy thường không hoàn hảo. Khi có thể, hãy chọn nhãn thực tế thay vì nhãn proxy. Tuy nhiên, khi không có nhãn thực tế, hãy chọn nhãn proxy thật cẩn thận, chọn nhãn proxy ít khủng khiếp nhất.

R

người đánh giá

#fundamentals

Người cung cấp nhãn cho ví dụ. "Chú thích" là một tên khác của người đánh giá.

Đơn vị tuyến tính chỉnh lưu (ReLU)

#fundamentals

Hàm kích hoạt có hành vi sau:

  • Nếu giá trị đầu vào là số âm hoặc bằng 0, thì đầu ra sẽ bằng 0.
  • Nếu đầu vào là số dương, thì đầu ra bằng với đầu vào.

Ví dụ:

  • Nếu đầu vào là -3 thì đầu ra là 0.
  • Nếu giá trị đầu vào là +3 thì giá trị đầu ra là 3.0.

Sau đây là sơ đồ về ReLU:

Giản đồ Cartesian gồm hai dòng. Dòng đầu tiên có giá trị y không đổi bằng 0, chạy dọc theo trục x từ -infinity,0 đến 0,-0.
          Dòng thứ hai bắt đầu từ 0.0. Đường này có độ dốc là +1, vì vậy, đường này chạy từ 0,0 đến +vô hạn,+vô hạn.

ReLU là hàm kích hoạt rất phổ biến. Mặc dù có hành vi đơn giản, ReLU vẫn cho phép mạng nơron tìm hiểu mối quan hệ phi tuyến tính giữa các đối tượngnhãn.

mô hình hồi quy

#fundamentals

Một mô hình tạo ra số liệu dự đoán một cách không chính thức. (Ngược lại, mô hình phân loại sẽ tạo một nội dung dự đoán lớp.) Ví dụ: sau đây là tất cả mô hình hồi quy:

  • Mô hình dự đoán giá trị của một ngôi nhà nhất định, chẳng hạn như 423.000 Euro.
  • Mô hình dự đoán tuổi thọ của một cây nhất định, chẳng hạn như 23,2 năm.
  • Một mô hình dự đoán lượng mưa sẽ rơi ở một thành phố nhất định trong 6 giờ tới, chẳng hạn như 0,18 inch.

Hai loại mô hình hồi quy phổ biến là:

  • Hồi quy tuyến tính: tìm dòng phù hợp nhất với các giá trị nhãn với đối tượng.
  • Hồi quy logistic, tạo ra xác suất trong khoảng từ 0 đến 1,0 mà sau đó hệ thống thường ánh xạ tới dự đoán lớp.

Không phải mọi mô hình đưa ra số liệu dự đoán dạng số đều là mô hình hồi quy. Trong một số trường hợp, thông tin dự đoán dạng số chỉ là một mô hình phân loại với tên lớp dạng số. Ví dụ: mô hình dự đoán mã bưu chính dạng số là mô hình phân loại chứ không phải là mô hình hồi quy.

chuẩn hoá

#fundamentals

Bất kỳ cơ chế nào giúp giảm tình trạng trùng khớp. Các loại quy trình chuẩn hoá phổ biến bao gồm:

Việc chuẩn hoá cũng có thể được định nghĩa là một hình phạt đối với mức độ phức tạp của mô hình.

tỷ lệ chuẩn hoá

#fundamentals

Một số cho biết tầm quan trọng tương đối của việc chuẩn hoá trong quá trình huấn luyện. Việc tăng tỷ lệ chuẩn hoá sẽ làm giảm hiện tượng trùng khớp nhưng có thể làm giảm khả năng dự đoán của mô hình. Ngược lại, việc giảm hoặc bỏ qua tỷ lệ chính quy sẽ làm tăng tình trạng quá mức.

ReLU

#fundamentals

Tên viết tắt của Đơn vị tuyến tính chỉnh sửa.

tạo dữ liệu tăng cường truy xuất

#fundamentals

Một cấu trúc phần mềm thường được dùng trong các ứng dụng mô hình ngôn ngữ lớn (LLM). Sau đây là một số động lực phổ biến khiến người dùng sử dụng tính năng tạo dữ liệu tăng cường truy xuất:

  • Tăng độ chính xác thực tế cho câu trả lời do mô hình tạo ra
  • Cấp cho mô hình quyền tiếp cận kiến thức mà mô hình không được huấn luyện
  • Thay đổi kiến thức mà mô hình sử dụng
  • Bật mô hình để trích dẫn nguồn

Ví dụ: giả sử một ứng dụng hoá học dùng API PaLM để tạo các bản tóm tắt liên quan đến truy vấn của người dùng. Khi phần phụ trợ của ứng dụng nhận được một truy vấn, trước tiên thì phần phụ trợ đó sẽ tìm kiếm dữ liệu ("truy xuất") có liên quan đến truy vấn của người dùng, thêm ("augments") dữ liệu hoá học liên quan vào truy vấn của người dùng rồi hướng dẫn LLM tạo bản tóm tắt dựa trên dữ liệu đã thêm.

Đường cong ROC (đặc tính hoạt động của bộ thu tín hiệu)

#fundamentals

Biểu đồ về tỷ lệ dương tính thực so với tỷ lệ dương tính giả đối với các ngưỡng phân loại khác nhau trong việc phân loại tệp nhị phân.

Hình dạng của đường cong ROC cho thấy khả năng của mô hình phân loại nhị phân trong việc phân tách các lớp dương tính khỏi các lớp phủ định. Ví dụ: giả sử mô hình phân loại nhị phân tách biệt hoàn toàn mọi lớp phủ định khỏi mọi lớp khẳng định:

Một dòng số có 8 ví dụ dương ở bên phải và 7 ví dụ phủ định ở bên trái.

Đường cong ROC của mô hình trước đó có dạng như sau:

Đường cong ROC. Trục x là Tỷ lệ dương tính giả và trục y là Tỷ lệ dương tính thật. Đường cong có hình chữ L ngược. Đường cong này bắt đầu tại (0,0,0,0) và đi thẳng lên (0,0,1,0). Sau đó, đường cong đi từ (0,0,1,0) đến (1,0,1.0).

Ngược lại, hình minh hoạ sau đây biểu thị các giá trị hồi quy logistic thô cho một mô hình rất tệ – không thể tách các lớp âm khỏi các lớp tích cực:

Một dòng số chứa các ví dụ khẳng định và các lớp phủ định được lẫn lộn hoàn toàn.

Đường cong ROC của mô hình này có dạng như sau:

Một đường cong ROC, thực ra là một đường thẳng từ (0,0,0,0) đến (1,0,1.0).

Trong khi đó, ở thế giới thực, hầu hết các mô hình phân loại nhị phân đều tách các lớp tích cực và tiêu cực ở một mức độ nào đó, nhưng thường không hoàn hảo. Vì vậy, đường cong ROC điển hình nằm ở đâu đó giữa hai cực trị:

Đường cong ROC. Trục x là Tỷ lệ dương tính giả và trục y là Tỷ lệ dương tính thật. Đường cong ROC ước chừng một vòng cung rung chuyển chạy qua các điểm la bàn từ Tây sang Bắc.

Điểm trên đường cong ROC gần nhất với (0.0,1.0) về mặt lý thuyết sẽ xác định ngưỡng phân loại lý tưởng. Tuy nhiên, một số vấn đề thực tế khác ảnh hưởng đến việc lựa chọn ngưỡng phân loại lý tưởng. Ví dụ: có thể kết quả âm tính giả gây ra nhiều phiền toái hơn so với kết quả dương tính giả.

Chỉ số số có tên là AUC tóm tắt đường cong ROC thành một giá trị dấu phẩy động duy nhất.

Lỗi bình phương trung bình gốc (RMSE)

#fundamentals

Căn bậc hai của Lỗi bình phương trung bình.

S

hàm sigmoid

#fundamentals

Một hàm toán học "chèn" giá trị đầu vào vào một phạm vi bị ràng buộc, thường là 0 đến 1 hoặc -1 đến +1. Tức là bạn có thể truyền bất kỳ số nào (hai, một triệu, tỷ âm, bất kỳ số nào) đến một sigmoid và kết quả sẽ vẫn nằm trong phạm vi giới hạn. Biểu đồ của hàm kích hoạt sigmoid có dạng như sau:

Biểu đồ cong hai chiều có các giá trị x mở rộng miền – vô hạn đến +dương, trong khi các giá trị y kéo dài phạm vi gần như từ 0 đến gần 1. Khi x bằng 0, y bằng 0,5. Độ dốc của đường cong luôn dương, với hệ số góc cao nhất là 0,0,5 và giảm dần độ dốc khi giá trị tuyệt đối của x tăng lên.

Hàm sigmoid có một số cách sử dụng trong công nghệ học máy, bao gồm:

softmax

#fundamentals

Một hàm xác định xác suất cho mỗi lớp có thể có trong mô hình phân loại nhiều lớp. Xác suất cộng lại chính xác bằng 1.0. Ví dụ: bảng sau đây cho thấy cách Softwaremax phân bổ các xác suất khác nhau:

Hình ảnh là... Xác suất
chó .85
cat .13
con ngựa 0,02

Softmax còn được gọi là fullsoftmax.

Trái ngược với quy trình lấy mẫu đề xuất.

đối tượng thưa thớt

#language
#fundamentals

Một tính năng có giá trị chủ yếu bằng 0 hoặc trống. Ví dụ: một đối tượng chứa một giá trị 1 duy nhất và một triệu giá trị 0 là thưa thớt. Ngược lại, một tính năng dày đặc có các giá trị chủ yếu không bằng 0 hoặc trống.

Trong công nghệ học máy, một số lượng tính năng đáng ngạc nhiên là các tính năng thưa thớt. Đối tượng phân loại thường là các đối tượng thưa thớt. Ví dụ: trong số 300 loài cây có thể có trong rừng, một ví dụ duy nhất có thể chỉ xác định cây phong. Hoặc trong số hàng triệu video có thể có trong thư viện video, một ví dụ duy nhất có thể xác định chỉ là "Casa Blanca".

Trong một mô hình, bạn thường biểu thị các tính năng thưa thớt bằng phương thức mã hoá một lần nóng. Nếu phương thức mã hoá một lần nóng có kích thước lớn, bạn có thể đặt một lớp phủ lên trên phương thức mã hóa một lần nóng để đạt được hiệu quả cao hơn.

biểu diễn thưa thớt

#language
#fundamentals

Chỉ lưu trữ (các) vị trí của các phần tử khác 0 trong một đối tượng thưa thớt.

Ví dụ: giả sử một đối tượng phân loại có tên là species xác định 36 loài cây trong một khu rừng cụ thể. Ngoài ra, giả sử rằng mỗi ví dụ chỉ xác định một loài duy nhất.

Bạn có thể sử dụng một vectơ nóng để biểu thị các loài cây trong mỗi ví dụ. Vectơ một nóng sẽ chứa một 1 duy nhất (để đại diện cho các loài cây cụ thể trong ví dụ đó) và 35 0 (để đại diện cho 35 loài cây không trong ví dụ đó). Vì vậy, đại diện một lần nóng của maple có thể có dạng như sau:

Một vectơ trong đó các vị trí từ 0 đến 23 giữ giá trị 0, vị trí 24 giữ giá trị 1 và vị trí từ 25 đến 35 giữ giá trị 0.

Ngoài ra, phép trình bày thưa thớt sẽ chỉ đơn giản là xác định vị trí của loài cụ thể. Nếu maple ở vị trí 24, thì phép biểu diễn thưa thớt của maple sẽ đơn giản là:

24

Hãy lưu ý rằng cách trình bày thưa thớt sẽ gọn gàng hơn nhiều so với cách trình bày một lần nóng.

vectơ thưa

#fundamentals

Vectơ có các giá trị hầu hết là số 0. Hãy xem thêm về tính năng thưa thớttính đa dạng.

tổn thất bình phương

#fundamentals

Từ đồng nghĩa với L2 mất.

tĩnh

#fundamentals

Thực hiện hoạt động một lần thay vì liên tục. Các thuật ngữ tĩnhngoại tuyến là từ đồng nghĩa. Sau đây là các cách sử dụng phương pháp tĩnhngoại tuyến trong công nghệ học máy:

  • mô hình tĩnh (hay mô hình ngoại tuyến) là mô hình được huấn luyện một lần rồi sử dụng trong một thời gian.
  • huấn luyện tĩnh (hay huấn luyện ngoại tuyến) là quy trình huấn luyện một mô hình tĩnh.
  • suy luận tĩnh (hay suy luận ngoại tuyến) là một quá trình trong đó mô hình tạo ra một loạt dự đoán tại một thời điểm.

Tương phản với động.

suy luận tĩnh

#fundamentals

Từ đồng nghĩa với suy luận ngoại tuyến.

tính ổn định

#fundamentals

Một tính năng có giá trị không thay đổi trên một hoặc nhiều phương diện, thường là theo thời gian. Ví dụ: một đối tượng có giá trị giống nhau vào năm 2021 và 2023 thể hiện tính ổn định.

Trong thế giới thực, rất ít đối tượng có tính ổn định. Ngay cả các tính năng đồng nghĩa với sự thay đổi về độ ổn định (như mực nước biển) theo thời gian.

Tương phản với sự không ổn định.

giảm độ dốc ngẫu nhiên (SGD)

#fundamentals

Thuật toán giảm độ chuyển màu, trong đó kích thước lô là một. Nói cách khác, SGD sẽ huấn luyện về một ví dụ duy nhất được chọn ngẫu nhiên trong một bộ huấn luyện.

công nghệ học máy có giám sát

#fundamentals

Đào tạo một model từ modelmodel tương ứng của các tính năng đó. Công nghệ học máy có giám sát cũng tương tự như việc học một môn học bằng cách nghiên cứu một nhóm câu hỏi và câu trả lời tương ứng. Sau khi thành thạo việc liên kết giữa câu hỏi và câu trả lời, học viên có thể đưa ra câu trả lời cho các câu hỏi mới (chưa từng thấy trước đây) về cùng một chủ đề.

So với công nghệ học máy không được giám sát.

tính năng tổng hợp

#fundamentals

Một tính năng không có trong số các tính năng đầu vào nhưng được kết hợp từ một hoặc nhiều tính năng trong số đó. Sau đây là các phương thức tạo tính năng tổng hợp:

  • Giới hạn một tính năng liên tục vào các thùng phạm vi.
  • Tạo kết hợp nhiều tính năng.
  • Nhân (hoặc chia) một giá trị tính năng với(các) giá trị tính năng khác hoặc với chính nó. Ví dụ: nếu ab là các tính năng đầu vào, thì sau đây là ví dụ về các tính năng tổng hợp:
    • ab
    • a2
  • Áp dụng một hàm siêu nghiệm cho một giá trị đối tượng. Ví dụ: nếu c là một tính năng đầu vào, thì sau đây là ví dụ về các tính năng tổng hợp:
    • sin(c)
    • ln(c)

Các tính năng được tạo bằng cách chuẩn hoá hoặc điều chỉnh theo tỷ lệ một mình không được coi là tính năng tổng hợp.

T

kiểm tra mất mát

#fundamentals

Một chỉ số thể hiện mức giảm của mô hình so với nhóm kiểm thử. Khi xây dựng một model, bạn thường cố gắng giảm thiểu tổn thất trong quá trình kiểm thử. Lý do là tỷ lệ mất kiểm thử thấp là tín hiệu chất lượng mạnh hơn so với tỷ lệ mất huấn luyện hoặc mất xác thực thấp.

Đôi khi, khoảng cách lớn giữa tình trạng mất thông tin kiểm thử và tình trạng mất quá trình huấn luyện hoặc mất kết quả xác thực cho thấy bạn cần tăng tỷ lệ chuẩn hoá.

đào tạo

#fundamentals

Quá trình xác định thông số (trọng số và độ chệch) lý tưởng bao gồm mô hình. Trong quá trình huấn luyện, hệ thống sẽ đọc ví dụ và dần dần điều chỉnh các tham số. Quá trình huấn luyện sử dụng mỗi ví dụ từ vài lần đến hàng tỷ lần.

mất tập luyện

#fundamentals

Một chỉ số thể hiện mức giảm của mô hình trong một vòng lặp huấn luyện cụ thể. Ví dụ: giả sử hàm tổn thất là Mean Squared Error (Lỗi bình phương trung bình). Có thể tổn thất trong quá trình huấn luyện (Lỗi bình phương trung bình) của lần lặp thứ 10 là 2,2 và tổn thất trong quá trình huấn luyện ở lần lặp thứ 100 là 1,9.

Đường cong tổn thất thể hiện số lần huấn luyện bị mất so với số lần lặp lại. Đường cong tổn thất đưa ra các gợi ý sau đây về việc huấn luyện:

  • Đường đi xuống có nghĩa là mô hình đang cải thiện.
  • Đường đi lên có nghĩa là mô hình ngày càng xấu đi.
  • Đường dốc phẳng ngụ ý mô hình đã đạt được sự hội tụ.

Ví dụ: đường cong tổn thất khá lý tưởng sau đây cho thấy:

  • Một đường dốc hướng xuống dưới trong các lần lặp lại ban đầu, ngụ ý việc cải thiện mô hình nhanh chóng.
  • Độ dốc phẳng dần (nhưng vẫn hướng xuống) cho đến khi gần kết thúc quá trình huấn luyện, ngụ ý việc tiếp tục cải tiến mô hình với tốc độ chậm hơn một chút so với trong các vòng lặp ban đầu.
  • Một đường dốc phẳng về phía cuối quá trình đào tạo, gợi ý sự hội tụ.

Biểu đồ về tình trạng mất quá trình huấn luyện và số vòng lặp. Đường cong tổn thất này bắt đầu với một đường dốc thẳng xuống. Độ dốc dần làm phẳng cho đến khi độ dốc bằng 0.

Mặc dù việc ngừng huấn luyện là rất quan trọng, hãy xem thêm phần tổng quát.

sai lệch phân phát nội dung đào tạo

#fundamentals

Sự khác biệt giữa hiệu suất của một mô hình trong quá trình huấn luyện và hiệu suất của cùng một mô hình trong quá trình phân phát.

bộ huấn luyện

#fundamentals

Tập hợp con của tập dữ liệu được dùng để huấn luyện một mô hình.

Thông thường, các ví dụ trong tập dữ liệu được chia thành 3 tập hợp con riêng biệt sau đây:

Lý tưởng nhất là mỗi ví dụ trong tập dữ liệu chỉ nên thuộc về một trong các tập hợp con trước đó. Ví dụ: một ví dụ không nên thuộc về cả tập huấn luyện và tập hợp xác thực.

âm tính thực (TN)

#fundamentals

Ví dụ trong đó mô hình dự đoán chính xác lớp phủ định. Ví dụ: mô hình suy luận rằng một email cụ thể là không phải là thư rác và email đó thực sự làkhông phải thư rác.

dương tính thực (TP)

#fundamentals

Ví dụ trong đó mô hình dự đoán chính xác lớp dương. Ví dụ: mô hình này suy luận rằng một email cụ thể là thư rác và email đó thực sự là thư rác.

tỷ lệ dương tính thực (TPR)

#fundamentals

Từ đồng nghĩa với recall. Đó là:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Tỷ lệ dương thực là trục y trong đường cong ROC.

U

không vừa vặn

#fundamentals

Tạo một model có khả năng dự đoán kém vì mô hình này chưa nắm bắt được hết độ phức tạp của dữ liệu huấn luyện. Nhiều vấn đề có thể gây ra tình trạng không phù hợp, bao gồm:

ví dụ chưa gắn nhãn

#fundamentals

Ví dụ có chứa tính năng nhưng không có nhãn. Ví dụ: bảng sau đây trình bày 3 ví dụ không được gắn nhãn từ mô hình định giá ngôi nhà, mỗi ví dụ có 3 đặc điểm nhưng không có giá trị căn nhà:

Số lượng phòng ngủ Số phòng tắm Tuổi thọ của ngôi nhà
3 2 15
2 1 72
4 2 34

Trong công nghệ học máy có giám sát, các mô hình sẽ huấn luyện dựa trên các ví dụ có gắn nhãn và đưa ra dự đoán trên các ví dụ không có nhãn.

Trong mô hình học tập bán giám sátkhông giám sát, các ví dụ không có nhãn sẽ được sử dụng trong quá trình huấn luyện.

Ví dụ đối lập chưa gắn nhãn với ví dụ được gắn nhãn.

máy học không được giám sát

#clustering
#fundamentals

Đào tạo một model để tìm các mẫu trong một tập dữ liệu, thường là tập dữ liệu chưa được gắn nhãn.

Việc sử dụng công nghệ máy học không được giám sát phổ biến nhất là phân nhóm dữ liệu thành các nhóm gồm các ví dụ tương tự nhau. Ví dụ: Một thuật toán học máy không được giám sát có thể nhóm các bài hát dựa trên nhiều thuộc tính của bản nhạc. Các cụm kết quả có thể trở thành dữ liệu đầu vào cho các thuật toán học máy khác (ví dụ: cho một dịch vụ đề xuất nhạc). Việc phân nhóm có thể hữu ích khi khan hiếm hoặc không có nhãn hữu ích. Ví dụ: trong các lĩnh vực như chống hành vi sai trái và gian lận, các cụm có thể giúp con người hiểu rõ hơn về dữ liệu.

Trái ngược với công nghệ học máy được giám sát.

V

xác thực

#fundamentals

Đánh giá ban đầu về chất lượng của mô hình. Quy trình xác thực kiểm tra chất lượng dự đoán của mô hình so với bộ xác thực.

Vì tập hợp xác thực khác với tập hợp huấn luyện, nên tính năng xác thực giúp bảo vệ chống trùng khớp.

Bạn có thể coi việc đánh giá mô hình so với bộ xác thực là vòng kiểm thử đầu tiên và đánh giá mô hình so với nhóm kiểm thử là vòng kiểm thử thứ hai.

mất xác thực

#fundamentals

Một chỉ số thể hiện mức độ mất mát của mô hình trên bộ xác thực trong một quá trình lặp lại cụ thể.

Xem thêm về đường cong tổng quát.

bộ xác thực

#fundamentals

Tập hợp con của tập dữ liệu thực hiện đánh giá ban đầu so với một mô hình đã qua đào tạo. Thông thường, bạn sẽ đánh giá mô hình đã huấn luyện dựa trên bộ xác thực nhiều lần trước khi đánh giá mô hình dựa trên nhóm kiểm thử.

Thông thường, bạn chia các ví dụ trong tập dữ liệu thành ba tập con riêng biệt sau đây:

Lý tưởng nhất là mỗi ví dụ trong tập dữ liệu chỉ nên thuộc về một trong các tập hợp con trước đó. Ví dụ: một ví dụ không nên thuộc về cả tập huấn luyện và tập hợp xác thực.

W

cân nặng

#fundamentals

Một giá trị mà mô hình nhân với một giá trị khác. Huấn luyện là quá trình xác định trọng số lý tưởng của mô hình; suy luận là quá trình sử dụng các trọng số đã học được đó để đưa ra dự đoán.

tổng trọng số

#fundamentals

Tổng tất cả giá trị đầu vào có liên quan nhân với trọng số tương ứng. Ví dụ: giả sử dữ liệu đầu vào liên quan bao gồm:

giá trị đầu vào trọng lượng đầu vào
2 -1.3
-1 0.6
3 0.4

Do đó, tổng trọng số bằng:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Tổng trọng số là đối số đầu vào cho một hàm kích hoạt.

Z

Chuẩn hoá điểm Z

#fundamentals

Kỹ thuật điều chỉnh theo tỷ lệ thay thế giá trị thô của tính năng bằng một giá trị dấu phẩy động biểu thị số độ lệch chuẩn so với giá trị trung bình của tính năng đó. Ví dụ: hãy xem xét một tính năng có trung bình là 800 và có độ lệch chuẩn là 100. Bảng sau đây cho thấy cách quá trình chuẩn hoá điểm Z ánh xạ giá trị thô đến điểm Z:

Giá trị thô Điểm Z
800 0
950 Tăng 1,5
575 -2.25

Sau đó, mô hình học máy sẽ huấn luyện dựa trên điểm Z cho tính năng đó thay vì dựa trên các giá trị thô.