Trang này được dịch bởi Cloud Translation API.

Bảng thuật ngữ máy học

Bảng chú giải này định nghĩa các thuật ngữ chung của công nghệ học máy, cùng với các thuật ngữ dành riêng cho TensorFlow.

Đáp

cắt bỏ

Một kỹ thuật đánh giá tầm quan trọng của một tính năng hoặc thành phần bằng cách tạm thời xoá nó khỏi một mô hình. Sau đó, bạn huấn luyện lại mô hình mà không có tính năng hoặc thành phần đó. Nếu mô hình được huấn luyện lại hoạt động kém hơn nhiều, thì tính năng hoặc thành phần đã bị xoá có khả năng đóng vai trò quan trọng.

Ví dụ: giả sử bạn huấn luyện một mô hình phân loại về 10 tính năng và đạt được độ chính xác là 88% trên nhóm kiểm thử. Để kiểm tra mức độ quan trọng của tính năng đầu tiên, bạn có thể huấn luyện lại mô hình chỉ bằng 9 tính năng khác. Nếu mô hình được huấn luyện lại hoạt động kém hơn đáng kể (ví dụ: độ chính xác 55%), thì tính năng bị xoá có thể rất quan trọng. Ngược lại, nếu mô hình được huấn luyện lại hoạt động hiệu quả như nhau, thì có lẽ tính năng đó không quan trọng bằng.

Việc cắt bỏ cũng có thể giúp xác định tầm quan trọng của:

Các thành phần lớn hơn, chẳng hạn như toàn bộ một hệ thống con của một hệ thống học máy lớn hơn
Quy trình hoặc kỹ thuật, chẳng hạn như bước xử lý trước dữ liệu

Trong cả hai trường hợp, bạn đều sẽ quan sát cách hiệu suất của hệ thống thay đổi (hoặc không thay đổi) sau khi bạn xoá thành phần này.

Thử nghiệm A/B

Một cách thống kê để so sánh hai (hoặc nhiều) kỹ thuật – kỹ thuật A và B. Thông thường, A là một kỹ thuật hiện có và B là một kỹ thuật mới. Thử nghiệm A/B không chỉ xác định kỹ thuật nào hoạt động hiệu quả hơn mà còn xác định xem sự khác biệt có ý nghĩa thống kê hay không.

Thử nghiệm A/B thường so sánh một chỉ số duy nhất cho hai kỹ thuật; ví dụ: độ chính xác của mô hình so sánh như thế nào với hai kỹ thuật? Tuy nhiên, thử nghiệm A/B cũng có thể so sánh số lượng chỉ số hữu hạn.

khối tăng tốc

#GoogleCloud

Một danh mục gồm các thành phần phần cứng chuyên biệt được thiết kế để thực hiện các phép tính quan trọng cần thiết cho các thuật toán học sâu.

Khối tăng tốc (hay gọi ngắn gọn là trình tăng tốc) có thể tăng đáng kể tốc độ và hiệu quả của các nhiệm vụ huấn luyện và dự đoán so với CPU đa năng. Các lớp này lý tưởng để huấn luyện mạng nơron và các tác vụ tính toán chuyên sâu tương tự.

Ví dụ về khối trình tăng tốc:

Bộ xử lý Tensor của Google (TPU) với phần cứng chuyên dụng dành cho mô hình học sâu.
Mặc dù ban đầu được thiết kế để xử lý đồ hoạ, GPU của NVIDIA được thiết kế để cho phép xử lý song song, nhờ đó có thể tăng đáng kể tốc độ xử lý.

độ chính xác

#fundamentals

Số lượng đề xuất phân loại chính xác chia cho tổng số dự đoán. Đó là:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ví dụ: một mô hình đưa ra 40 dự đoán chính xác và 10 dự đoán không chính xác sẽ có độ chính xác là:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Phân loại nhị phân cung cấp tên cụ thể cho các danh mục dự đoán chính xác và dự đoán không chính xác. Vì vậy, công thức chính xác để phân loại tệp nhị phân như sau:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

trong đó:

TP là số giá trị dương thực sự (dự đoán chính xác).
TN là số giá trị phủ định thực (số dự đoán chính xác).
FP là số dương tính giả (dự đoán không chính xác).
FN là số âm tính giả (dự đoán không chính xác).

So sánh và đối chiếu độ chính xác với độ chính xác và độ ghi nhớ.

Hãy nhấp vào biểu tượng để xem thêm ghi chú.

Mặc dù chỉ số có giá trị trong một số tình huống, nhưng độ chính xác lại gây hiểu nhầm cho những người khác. Đáng chú ý, độ chính xác thường là chỉ số kém để đánh giá các mô hình phân loại xử lý các tập dữ liệu không cân bằng ở lớp.

Ví dụ: giả sử tuyết chỉ rơi 25 ngày mỗi thế kỷ ở một thành phố cận nhiệt đới nhất định. Vì số ngày không có tuyết (lớp âm) nhiều hơn số ngày có tuyết (lớp dương), nên tập dữ liệu tuyết của thành phố này không cân bằng về lớp. Hãy tưởng tượng một mô hình phân loại nhị phân được dự đoán mỗi ngày có tuyết hoặc không có tuyết nhưng chỉ cần dự đoán "không có tuyết" mỗi ngày. Mô hình này có độ chính xác cao nhưng không có khả năng dự đoán. Bảng sau đây tóm tắt kết quả cho cả một thế kỷ dự đoán:

Danh mục	Số
dương tính thật	0
TN (Tunisia)	36500
FP	25
FN	0

Do đó, độ chính xác của mô hình này là:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36500) / (0 + 36500 + 25 + 0) = 0.9993 = 99.93%

Mặc dù độ chính xác 99,93% có vẻ là một tỷ lệ rất ấn tượng, nhưng mô hình này thực sự không có khả năng dự đoán.

Độ chính xác và thu hồi thường là các chỉ số hữu ích hơn độ chính xác để đánh giá các mô hình được huấn luyện trên các tập dữ liệu không cân bằng về lớp.

hành động

#rl

Trong phương pháp học tăng cường, cơ chế mà tác nhân chuyển đổi giữa trạng thái của môi trường. Nhân viên hỗ trợ chọn thao tác bằng cách sử dụng một chính sách.

hàm kích hoạt

#fundamentals

Một hàm cho phép mạng nơron tìm hiểu mối quan hệ phi tuyến tính (phức tạp) giữa các tính năng và nhãn.

Sau đây là các hàm kích hoạt phổ biến:

ReLU
Sigmoid

Đồ thị hàm kích hoạt không bao giờ là một đường thẳng đơn. Ví dụ: biểu đồ của hàm kích hoạt ReLU bao gồm 2 đường thẳng:

Biểu đồ Descartes gồm hai đường. Dòng đầu tiên có giá trị y không đổi bằng 0, chạy dọc theo trục x từ -infinity,0 đến 0,-0.
Dòng thứ hai bắt đầu từ 0,0. Đường này có độ dốc +1, vì vậy, đường này chạy từ 0,0 đến +vô hạn,+vô hạn.

Sơ đồ về hàm kích hoạt sigmoid sẽ có dạng như sau:

Một biểu đồ cong hai chiều có các giá trị x mở rộng phạm vi từ vô hạn đến + dương, trong khi các giá trị y trải rộng trong phạm vi gần như từ 0 đến gần 1. Khi x bằng 0, y bằng 0,5. Độ dốc của đường cong luôn
dương, với độ dốc cao nhất là 0,0,5 và giảm dần
khi giá trị tuyệt đối của x tăng.

Nhấp vào biểu tượng để xem ví dụ.

Trong mạng nơron, các hàm kích hoạt sẽ điều khiển tổng có trọng số của tất cả dữ liệu đầu vào cho một nơron. Để tính tổng có trọng số, nơron cộng các tích của các giá trị và trọng số phù hợp. Ví dụ: giả sử đầu vào liên quan đến một nơron bao gồm các thành phần sau:

giá trị đầu vào	trọng số đầu vào
2	-1,3
-1	0,6
3	0,4

Do đó, tổng có trọng số là:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Giả sử người thiết kế mạng nơron này chọn hàm sigmoid làm hàm kích hoạt. Trong trường hợp đó, nơron tính toán sigmoid là -2,0, xấp xỉ 0,12. Do đó, nơron truyền 0,12 (thay vì -2.0) đến lớp tiếp theo trong mạng nơron. Hình sau đây minh hoạ một phần liên quan của quy trình:

học tập chủ động

Phương pháp đào tạo, trong đó thuật toán chọn một số dữ liệu học được từ đó. Công nghệ học tập chủ động đặc biệt hữu ích khi các ví dụ có gắn nhãn khan hiếm hoặc tốn kém. Thay vì tìm kiếm một cách mù quáng một loạt ví dụ được gắn nhãn, một thuật toán học tập chủ động sẽ tìm kiếm một loạt ví dụ cụ thể mà nó cần cho việc học.

AdaGrad

Một thuật toán giảm độ dốc tinh vi có thể điều chỉnh tỷ lệ độ chuyển màu của từng tham số, cung cấp hiệu quả cho mỗi tham số một tốc độ học tập độc lập. Để biết nội dung giải thích đầy đủ, hãy xem bài viết này của Adagradient.

nhân viên hỗ trợ

#rl

Trong môi trường học tăng cường, thực thể sử dụng chính sách để tối đa hoá lợi tức dự kiến thu được từ quá trình chuyển đổi giữa trạng thái của môi trường.

Nhìn chung, tác nhân hỗ trợ là phần mềm tự lập kế hoạch và thực hiện một loạt hành động để đạt được một mục tiêu, với khả năng thích ứng với những thay đổi trong môi trường. Ví dụ: các tác nhân dựa trên LLM có thể sử dụng LM để tạo kế hoạch, thay vì áp dụng chính sách học tăng cường.

phân cụm kết hợp

#clustering

Xem phần phân cụm phân cấp.

phát hiện hoạt động bất thường

Quá trình xác định các điểm ngoại lai. Ví dụ: nếu giá trị trung bình của một tính năng nhất định là 100 với độ lệch chuẩn là 10, thì tính năng phát hiện hoạt động bất thường sẽ gắn cờ giá trị 200 là đáng ngờ.

Thực tế tăng cường (AR)

Tên viết tắt của thực tế tăng cường.

diện tích dưới đường cong PR

Xem PR AUC (Khu vực dưới đường cong PR).

diện tích dưới đường cong ROC

Xem AUC (Diện tích dưới đường cong ROC).

trí tuệ nhân tạo nói chung

Một cơ chế không do con người minh hoạ cho thấy nhiều khả năng giải quyết vấn đề, khả năng sáng tạo và khả năng thích ứng. Ví dụ: một chương trình minh hoạ trí tuệ nhân tạo có thể dịch văn bản, soạn nhạc giao hưởng và đạt được các trò chơi chưa được phát minh.

trí tuệ nhân tạo

#fundamentals

Một chương trình hoặc model không phải do con người thực hiện có thể giải quyết các công việc phức tạp. Ví dụ: một chương trình hoặc mô hình dịch văn bản hoặc một chương trình hay mô hình xác định bệnh qua hình ảnh phóng xạ đều có trí tuệ nhân tạo.

Về cơ bản, máy học là một lĩnh vực phụ của trí tuệ nhân tạo. Tuy nhiên, trong những năm gần đây, một số tổ chức đã bắt đầu sử dụng thuật ngữ trí tuệ nhân tạo và học máy thay thế cho nhau.

chú ý

#language

Một cơ chế dùng trong mạng nơron cho biết tầm quan trọng của một từ hoặc một phần cụ thể của từ. Sự chú ý sẽ nén lượng thông tin mà một mô hình cần để dự đoán mã thông báo/từ tiếp theo. Một cơ chế chú ý thông thường có thể bao gồm tổng có trọng số trên một tập hợp các dữ liệu đầu vào, trong đó trọng số của mỗi dữ liệu đầu vào được tính bằng một phần khác của mạng nơron.

Ngoài ra, hãy tham khảo thêm tự chú ý và tự chú ý đa đầu, là các thành phần của Transformer.

phân bổ

#fairness

Từ đồng nghĩa với feature.

Theo tính công bằng trong công nghệ học máy, thuộc tính thường đề cập đến những đặc điểm liên quan đến cá nhân.

lấy mẫu thuộc tính

#df

Một chiến thuật để huấn luyện khu rừng quyết định, trong đó mỗi cây quyết định chỉ xem xét một tập hợp con ngẫu nhiên gồm các tính năng có thể có khi tìm hiểu điều kiện. Nhìn chung, một nhóm nhỏ tính năng sẽ được lấy mẫu cho mỗi nút. Ngược lại, khi huấn luyện cây quyết định mà không lấy mẫu thuộc tính, tất cả các tính năng có thể có sẽ được xem xét cho từng nút.

AUC (Diện tích dưới đường cong ROC)

#fundamentals

Một số từ 0,0 đến 1,0 thể hiện khả năng của mô hình phân loại nhị phân để phân tách các lớp dương khỏi các lớp phủ định. AUC càng gần 1.0 thì mô hình càng có khả năng phân tách các lớp với nhau.

Ví dụ: hình minh hoạ sau đây cho thấy một mô hình thuật toán phân loại giúp phân tách hoàn hảo các lớp dương (hình bầu dục màu xanh lục) với các lớp phủ định (hình chữ nhật màu tím). Mô hình hoàn hảo phi thực tế này có AUC là 1,0:

Một trục số có 8 ví dụ dương ở một bên và 9 ví dụ tiêu cực ở bên còn lại.

Ngược lại, hình minh hoạ sau đây cho thấy kết quả của một mô hình thuật toán phân loại đã tạo ra kết quả ngẫu nhiên. Mô hình này có AUC là 0,5:

Một trục số có 6 ví dụ dương và 6 ví dụ âm.
Trình tự các ví dụ là dương, âm, dương, âm, dương, âm, dương, âm, dương, dương, dương, âm.

Có, mô hình trước đó có AUC là 0,5 chứ không phải 0,0.

Hầu hết các mô hình nằm ở đâu đó giữa hai cực đoan. Ví dụ: mô hình sau đây tách biệt giá trị dương và giá trị âm, do đó có AUC trong khoảng từ 0, 5 đến 1:

Một trục số có 6 ví dụ dương và 6 ví dụ âm.
Trình tự các ví dụ là âm, âm, âm, âm, dương, âm, dương, dương, âm, dương, dương, dương

AUC bỏ qua mọi giá trị bạn đặt cho ngưỡng phân loại. Thay vào đó, AUC sẽ xem xét tất cả các ngưỡng phân loại có thể có.

Nhấp vào biểu tượng để tìm hiểu về mối quan hệ giữa các đường cong AUC và ROC.

AUC thể hiện diện tích dưới đường cong ROC. Ví dụ: đường cong ROC của một mô hình tách biệt hoàn toàn dương tính với giá trị âm sẽ có dạng như sau:

AUC là vùng của vùng màu xám trong hình minh hoạ trước. Trong trường hợp bất thường này, vùng màu xám chỉ đơn giản là chiều dài của vùng màu xám (1.0) nhân với chiều rộng của vùng màu xám (1.0). Vì vậy, tích 1.0 và 1.0 sẽ tạo ra AUC chính xác là 1.0, đây là điểm AUC cao nhất có thể.

Ngược lại, đường cong ROC của một thuật toán phân loại không thể phân tách các lớp như sau. Diện tích của vùng màu xám là 0,5.

Đường cong ROC điển hình hơn có dạng như sau:

Việc tính toán thủ công phần diện tích dưới đường cong này sẽ rất khó khăn, đó là lý do chương trình thường tính toán hầu hết các giá trị AUC.

Nhấp vào biểu tượng để biết định nghĩa chính thức hơn về AUC.

AUC là xác suất mà một thuật toán phân loại sẽ tự tin hơn rằng một ví dụ dương được chọn ngẫu nhiên thực sự dương so với ví dụ âm được chọn ngẫu nhiên là dương.

thực tế tăng cường

#image

Công nghệ xếp chồng hình ảnh do máy tính tạo lên khung hiển thị thế giới thực của người dùng, do đó tạo ra khung hiển thị tổng hợp.

bộ mã hoá tự động

#language

#image

Một hệ thống học cách trích xuất thông tin quan trọng nhất từ đầu vào. Bộ mã hoá tự động là sự kết hợp giữa bộ mã hoá và bộ giải mã. Bộ mã hoá tự động dựa trên quy trình 2 bước sau đây:

Bộ mã hoá ánh xạ dữ liệu đầu vào sang một định dạng chiều dưới (thường) có tổn hao (thường) với chiều thấp hơn (trung gian).
Bộ giải mã tạo một phiên bản có tổn hao của đầu vào ban đầu bằng cách ánh xạ định dạng chiều thấp với định dạng đầu vào có chiều cao hơn ban đầu.

Các bộ mã hoá tự động được huấn luyện từ đầu đến cuối bằng cách yêu cầu bộ giải mã cố gắng tạo lại dữ liệu đầu vào ban đầu từ định dạng trung gian của bộ mã hoá một cách chặt chẽ nhất có thể. Vì định dạng trung gian nhỏ hơn (chiều thấp hơn) so với định dạng ban đầu, nên bộ mã hoá tự động buộc phải tìm hiểu thông tin nào trong đầu vào là cần thiết và đầu ra sẽ không hoàn toàn giống với đầu vào.

Ví dụ:

Nếu dữ liệu đầu vào là một hình ảnh đồ hoạ, bản sao không chính xác sẽ tương tự như hình ảnh đồ hoạ gốc nhưng được sửa đổi một chút. Có thể bản sao không chính xác sẽ loại bỏ nhiễu khỏi hình ảnh gốc hoặc lấp đầy một số pixel bị thiếu.
Nếu dữ liệu đầu vào là văn bản, thì bộ mã hoá tự động sẽ tạo văn bản mới mô phỏng (nhưng không giống với) văn bản gốc.

Xem thêm về bộ mã hoá tự động biến thiên.

thiên kiến tự động

#fairness

Khi người ra quyết định ưu tiên nội dung đề xuất của hệ thống ra quyết định tự động thay vì thông tin được đưa ra khi không có tính năng tự động hoá, thì ngay cả khi hệ thống ra quyết định tự động mắc lỗi.

AutoML

Bất kỳ quy trình tự động nào để xây dựng mô hình học máy. AutoML có thể tự động làm các việc như sau:

Tìm mô hình thích hợp nhất.
Điều chỉnh siêu tham số.
Chuẩn bị dữ liệu (bao gồm cả việc thực hiện kỹ thuật tính năng).
Triển khai mô hình thu được.

AutoML rất hữu ích cho các nhà khoa học dữ liệu vì tính năng này có thể giúp họ tiết kiệm thời gian và công sức phát triển các quy trình học máy cũng như cải thiện độ chính xác của dự đoán. API này cũng hữu ích cho những người không phải chuyên gia vì giúp họ dễ dàng tiếp cận các nhiệm vụ học máy phức tạp hơn.

mô hình hồi quy tự động

#language

#image

#AI tạo sinh

Một model dự đoán nội dung dự đoán dựa trên các dự đoán trước đó của chính nó. Ví dụ: các mô hình ngôn ngữ tự động hồi quy sẽ dự đoán mã thông báo tiếp theo dựa trên các mã thông báo dự đoán trước đó. Tất cả mô hình ngôn ngữ lớn dựa trên Transformer đều tự động hồi quy.

Ngược lại, các mô hình hình ảnh dựa trên GAN thường không tự động hồi quy vì các mô hình này tạo hình ảnh trong một lượt chuyển tiếp chứ không lặp lại trong các bước. Tuy nhiên, một số mô hình tạo hình ảnh nhất định có tự động hồi quy vì các mô hình này tạo hình ảnh theo các bước.

tổn thất phụ

Hàm giảm cân – được sử dụng cùng với hàm suy giảm chính của mạng nơron mô hình giúp tăng tốc huấn luyện trong các vòng lặp sớm khi trọng số được khởi tạo ngẫu nhiên.

Các hàm mất phụ trợ đẩy các lớp chuyển màu hiệu quả đến lớp trước đó. Điều này tạo điều kiện cho sự hội tụ trong quá trình huấn luyện bằng cách chống lại vấn đề về độ dốc biến mất.

độ chính xác trung bình

Một chỉ số dùng để tóm tắt hiệu suất của một chuỗi kết quả theo thứ hạng. Độ chính xác trung bình được tính bằng cách lấy giá trị trung bình của các giá trị độ chính xác của từng kết quả có liên quan (mỗi kết quả trong danh sách xếp hạng có mức độ ghi nhớ tăng lên so với kết quả trước đó).

Xem thêm về Khu vực dưới đường cong PR.

điều kiện căn chỉnh trục

#df

Trong cây quyết định, một điều kiện chỉ liên quan đến một tính năng duy nhất. Ví dụ: nếu khu vực là một đối tượng, thì sau đây là điều kiện căn chỉnh trục:

area > 200

Tương phản với điều kiện xiên.

B

lan truyền ngược

#fundamentals

Thuật toán triển khai tính năng giảm dần độ dốc trong mạng nơron.

Việc huấn luyện mạng nơron bao gồm nhiều vòng lặp của chu kỳ 2 lượt sau đây:

Trong quá trình chuyển tiếp, hệ thống sẽ xử lý một nhóm ví dụ để tạo ra(các) thông tin dự đoán. Hệ thống so sánh từng dự đoán với từng giá trị label. Sự khác biệt giữa thông tin dự đoán và giá trị nhãn là sự cố của ví dụ đó. Hệ thống sẽ tổng hợp tổn thất của tất cả ví dụ để tính toán tổng tổn thất của lô hiện tại.
Trong quá trình truyền ngược (truyền ngược), hệ thống sẽ giảm tổn thất bằng cách điều chỉnh trọng số của tất cả tách tế bào thần kinh trong mọi lớp ẩn.

Mạng nơron thường chứa nhiều nơron trên nhiều lớp ẩn. Mỗi nơron trong số đó góp phần vào sự mất mát tổng thể theo những cách khác nhau. Lan truyền ngược xác định xem tăng hay giảm trọng số áp dụng cho các nơron cụ thể.

Tốc độ học là hệ số kiểm soát mức độ mà mỗi lượt truyền ngược sẽ tăng hoặc giảm của từng trọng số. Tốc độ học lớn sẽ tăng hoặc giảm từng trọng số nhiều hơn so với tốc độ học nhỏ.

Trong thuật ngữ giải tích, tính năng lan truyền ngược sẽ triển khai quy tắc chuỗi. Từ giải tích. Điều này nghĩa là tính năng lan truyền ngược sẽ tính đạo hàm một phần của lỗi theo từng tham số.

Nhiều năm trước, các chuyên viên ML phải viết mã để triển khai lan truyền ngược. Các API học máy hiện đại như TensorFlow hiện triển khai tính năng lan truyền ngược cho bạn. Chà!

đóng túi

#df

Phương thức để huấn luyện một tập hợp, trong đó mỗi mô hình thành phần được huấn luyện trên một tập hợp con ngẫu nhiên các ví dụ huấn luyện được lấy mẫu bằng cách thay thế. Ví dụ: rừng ngẫu nhiên là một tập hợp cây quyết định được huấn luyện bằng tính năng đóng gói.

Thuật ngữ bagging là từ viết tắt của boot qua aggregating.

túi từ

#language

Biểu thị các từ trong một cụm từ hoặc đoạn văn, bất kể thứ tự. Ví dụ: túi từ biểu thị 3 cụm từ giống hệt nhau sau đây:

chú chó nhảy lên
chó nhảy lên
chó nhảy lên

Mỗi từ được liên kết với một chỉ mục trong một vectơ thưa, trong đó vectơ này có một chỉ mục cho mỗi từ trong từ vựng. Ví dụ: cụm từ chó nhảy được liên kết thành một vectơ tính năng có các giá trị khác 0 tại 3 chỉ mục tương ứng với các từ the (chó), dog (con chó) và jump (nhảy). Giá trị khác 0 có thể là bất kỳ giá trị nào sau đây:

1 để cho biết có một từ.
Đếm số lần một từ xuất hiện trong túi. Ví dụ: nếu cụm từ là chó màu nâu sẫm là một chú chó có lông màu nâu sẫm, thì cả maroon và chó sẽ được biểu thị là 2, trong khi các từ khác sẽ được biểu thị là 1.
Một số giá trị khác, chẳng hạn như lôgarit của số lần một từ xuất hiện trong túi.

đường cơ sở

Một model được dùng làm điểm tham chiếu để so sánh hiệu suất của một mô hình khác (thường là một mô hình phức tạp hơn). Ví dụ: mô hình hồi quy logistic có thể đóng vai trò là cơ sở phù hợp cho mô hình sâu.

Đối với một vấn đề cụ thể, đường cơ sở sẽ giúp các nhà phát triển mô hình định lượng hiệu suất dự kiến tối thiểu mà một mô hình mới phải đạt được để mô hình mới trở nên hữu ích.

lô

#fundamentals

Tập hợp ví dụ được dùng trong một vòng lặp huấn luyện. Kích thước lô xác định số lượng ví dụ trong một lô.

Xem epoch để biết thông tin giải thích về mối liên hệ giữa một lô với một thời gian bắt đầu của hệ thống.

suy luận theo lô

#TensorFlow

#GoogleCloud

Quá trình suy luận dự đoán trên nhiều ví dụ không được gắn nhãn được chia thành các tập con nhỏ hơn ("lô").

Khả năng dự đoán theo lô có thể tận dụng các tính năng tải song song của khối tăng tốc. Điều này có nghĩa là nhiều trình tăng tốc có thể đồng thời dự đoán trên nhiều ví dụ chưa gắn nhãn, giúp tăng đáng kể số lần dự đoán mỗi giây.

chuẩn hoá hàng loạt

Chuẩn hoá dữ liệu đầu vào hoặc đầu ra của hàm kích hoạt trong một lớp ẩn. Việc chuẩn hoá hàng loạt có thể mang lại các lợi ích sau:

Giúp mạng nơron trở nên ổn định hơn bằng cách bảo vệ chống lại trọng số bên ngoài.
Tạo tốc độ học tập cao hơn, giúp đẩy nhanh tốc độ đào tạo.
Giảm hiện tượng tập hợp quá mức.

kích thước lô

#fundamentals

Số lượng ví dụ trong một lô. Ví dụ: nếu kích thước lô là 100, thì mô hình sẽ xử lý 100 ví dụ cho mỗi vòng lặp.

Sau đây là các chiến lược kích thước hàng loạt phổ biến:

Đường xuống chuyển màu ngẫu nhiên (SGD), trong đó kích thước lô là 1.
Toàn bộ lô, trong đó kích thước lô là số ví dụ trong toàn bộ bộ huấn luyện. Ví dụ: nếu tập huấn luyện chứa một triệu ví dụ, thì kích thước lô sẽ là một triệu ví dụ. Toàn bộ lô thường là một chiến lược không hiệu quả.
mini-batch trong đó kích thước lô thường nằm trong khoảng từ 10 đến 1000. Lô nhỏ thường là chiến lược hiệu quả nhất.

Mạng nơron Bayes

Một mạng nơron xác suất có tính đến sự không chắc chắn trong trọng số và kết quả đầu ra. Mô hình hồi quy mạng nơron chuẩn thường dự đoán một giá trị vô hướng; ví dụ: một mô hình chuẩn dự đoán giá nhà là 853.000. Ngược lại, mạng nơron Bayes dự đoán mức phân phối giá trị; ví dụ: một mô hình Bayes dự đoán giá nhà là 853.000 với độ lệch chuẩn là 67.200.

Mạng nơron Bayes dựa vào Định lý Bayes để tính toán độ bất ổn trong trọng số và dự đoán. Mạng nơron Bayes có thể hữu ích khi cần phải định lượng độ bất định, chẳng hạn như trong các mô hình liên quan đến dược phẩm. Mạng nơron Bayes cũng có thể giúp ngăn ngừa tình trạng quá mức.

Tối ưu hoá Bayes

Kỹ thuật mô hình hồi quy xác suất để tối ưu hoá hàm mục tiêu tốn kém tài nguyên tính toán bằng cách tối ưu hoá giá trị thay thế giúp định lượng độ không chắc chắn bằng kỹ thuật học Bayes. Vì bản thân phương pháp tối ưu hoá Bayesian rất tốn kém, nên tính năng này thường được dùng để tối ưu hoá các tác vụ cần đánh giá tốn kém có số lượng nhỏ tham số, chẳng hạn như chọn siêu tham số.

Phương trình Bellman

#rl

Trong học tăng cường, danh tính sau được hàm Q tối ưu đáp ứng:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Thuật toán Học tăng cường áp dụng danh tính này để tạo Q-learn thông qua quy tắc cập nhật sau:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Ngoài việc học tăng cường, phương trình Bellman còn có nhiều ứng dụng cho việc lập trình động. Vui lòng xem mục trên Wikipedia về phương trình Bellman.

BERT (Cách trình bày bộ mã hoá hai chiều của bộ chuyển đổi)

#language

Cấu trúc mô hình cho nội dung trình bày văn bản. Mô hình BERT đã được huấn luyện có thể đóng vai trò như một phần của mô hình lớn hơn để phân loại văn bản hoặc các tác vụ học máy khác.

BERT có các đặc điểm sau:

Sử dụng kiến trúc Transformer, do đó dựa vào tính năng tự chú ý.
Sử dụng phần bộ mã hoá của Transformer. Nhiệm vụ của bộ mã hoá là tạo ra cách trình bày văn bản chất lượng cao, thay vì thực hiện một tác vụ cụ thể như phân loại.
Hai chiều.
Sử dụng tính năng tạo mặt nạ cho chương trình huấn luyện không được giám sát.

Các biến thể của BERT bao gồm:

ALBERT, là từ viết tắt của A Light BERT.
LaBSE.

Vui lòng xem bài viết Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing để biết thông tin tổng quan về BERT.

thiên kiến (đạo đức/công bằng)

#fairness

#fundamentals

1. Định kiến, định kiến hoặc thiên vị đối với một số thứ, con người hoặc nhóm người hơn những thứ khác. Những thiên kiến này có thể ảnh hưởng đến việc thu thập và diễn giải dữ liệu, thiết kế của hệ thống và cách người dùng tương tác với hệ thống. Các dạng thiên kiến này bao gồm:

thiên vị tự động
thiên vị xác nhận
thiên kiến của nhà thử nghiệm
thiên vị ghi nhận tác giả theo nhóm
thiên kiến ngầm
thiên kiến trong nhóm
thiên về tính đồng nhất ngoài nhóm

2. Lỗi hệ thống gây ra bởi quy trình lấy mẫu hoặc báo cáo. Các dạng thiên kiến này bao gồm:

thiên vị về mức độ phù hợp
thiên vị không phản hồi
thiên vị tham gia
thiên vị trong báo cáo
độ lệch lấy mẫu
thiên kiến lựa chọn

Đừng nhầm lẫn với thuật ngữ thiên lệch trong các mô hình học máy hoặc thiên vị dự đoán.

thuật ngữ thiên kiến (toán học) hoặc thiên kiến

#fundamentals

Giao điểm hoặc độ lệch so với một gốc. Độ lệch là một tham số trong các mô hình học máy, được biểu thị bằng một trong những giá trị sau:

b
t₀

Ví dụ: độ chệch là b trong công thức sau:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Trong một đường hai chiều đơn giản, độ lệch chỉ có nghĩa là "giao điểm y". Ví dụ: độ lệch của đường trong hình minh hoạ sau đây là 2.

Biểu đồ của một đường thẳng có hệ số góc 0,5 và độ lệch (giao điểm y) là 2.

Xu hướng tồn tại vì không phải mọi mô hình đều bắt đầu từ nguồn gốc (0,0). Ví dụ: Giả sử một công viên giải trí tốn 2 Euro để vào cửa và thêm 0,5 Euro cho mỗi giờ khách hàng lưu trú. Do đó, mô hình ánh xạ tổng chi phí có độ lệch là 2 vì chi phí thấp nhất là 2 Euro.

Không nên nhầm lẫn thiên kiến với thiên về đạo đức và sự công bằng hoặc thiên vị dự đoán.

hai chiều

#language

Một thuật ngữ dùng để mô tả một hệ thống đánh giá văn bản đứng trước và theo sau một phần văn bản mục tiêu. Ngược lại, hệ thống một chiều chỉ đánh giá văn bản đứng trước một phần văn bản mục tiêu.

Ví dụ: hãy xem xét một mô hình ngôn ngữ được che giấu phải xác định xác suất cho từ hoặc những từ biểu thị dấu gạch dưới trong câu hỏi sau:

Bạn _____ với bạn làm gì?

Mô hình ngôn ngữ một chiều chỉ phải dựa trên xác suất dựa trên ngữ cảnh được cung cấp bởi các từ "What", "is" và "the". Ngược lại, mô hình ngôn ngữ hai chiều cũng có thể lấy ngữ cảnh từ "với" và "bạn", nhờ đó có thể giúp mô hình tạo ra thông tin dự đoán chính xác hơn.

mô hình ngôn ngữ hai chiều

#language

Mô hình ngôn ngữ xác định xác suất một mã thông báo nhất định sẽ xuất hiện tại một vị trí nhất định trong phần trích dẫn văn bản dựa trên văn bản ở trước và sau.

Bigram

#seq

#language

Một N-gam trong đó N=2.

phân loại nhị phân

#fundamentals

Loại tác vụ phân loại dự đoán một trong hai lớp loại trừ lẫn nhau:

lớp học tích cực
lớp phủ định

Ví dụ: 2 mô hình học máy sau đây thực hiện phân loại nhị phân:

Mô hình xác định xem email có phải là spam (lớp khẳng định) hay không phải là spam (lớp phủ định).
Một mô hình đánh giá các triệu chứng y tế để xác định xem một người mắc bệnh cụ thể (lớp dương tính) hay không có bệnh đó (lớp âm tính).

Trái ngược với tính năng phân loại nhiều lớp.

Hãy xem thêm về hồi quy logistic và ngưỡng phân loại.

điều kiện nhị phân

#df

Trong cây quyết định, một điều kiện chỉ có hai kết quả có thể xảy ra, thường là có hoặc không. Ví dụ: sau đây là điều kiện nhị phân:

temperature >= 100

Tương phản với điều kiện phi nhị phân.

phân thùng

Từ đồng nghĩa với phân nhóm.

BLEU (Nghiên cứu đánh giá song ngữ)

#language

Điểm số nằm trong khoảng từ 0,0 đến 1,0 cho biết chất lượng bản dịch giữa hai ngôn ngữ của con người (ví dụ: giữa tiếng Anh và tiếng Nga). Điểm BLEU là 1:0 cho biết bản dịch hoàn hảo, điểm BLEU 0,0 cho biết bản dịch rất tệ.

tăng cường

Một kỹ thuật học máy kết hợp lặp lại một tập hợp các thuật toán phân loại đơn giản và không chính xác (gọi là thuật toán phân loại "yếu") vào một trình phân loại có độ chính xác cao (thuật toán phân loại "mạnh") bằng cách tăng trọng số cho các ví dụ mà mô hình hiện đang phân loại sai.

hộp giới hạn

#image

Trong hình ảnh, toạ độ (x, y) của một hình chữ nhật xung quanh một khu vực quan tâm, chẳng hạn như chú chó trong hình ảnh dưới đây.

Ảnh chụp một chú chó đang ngồi trên ghế sofa. Hộp giới hạn màu xanh lục có toạ độ trên cùng bên trái là (275, 1271) và toạ độ dưới cùng bên phải (2954, 2761) bao quanh cơ thể chú chó

đang phát sóng

Mở rộng hình dạng của một toán hạng trong một phép toán ma trận thành kích thước tương thích với toán tử đó. Ví dụ: đại số tuyến tính yêu cầu hai toán hạng trong một phép cộng ma trận phải có cùng kích thước. Do đó, bạn không thể thêm ma trận hình dạng (m, n) vào vectơ có độ dài n. Việc truyền tin cho phép thao tác này bằng cách mở rộng ảo vectơ có độ dài n thành một ma trận hình dạng (m, n) bằng cách lặp lại các giá trị đó ở mỗi cột.

Ví dụ: với các định nghĩa sau đây, đại số tuyến tính cấm A+B vì A và B có chiều khác nhau:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Tuy nhiên, tính năng truyền tin cho phép hoạt động A+B bằng cách mở rộng B thành:

 [[2, 2, 2],
  [2, 2, 2]]

Do đó, A+B giờ đây là một toán tử hợp lệ:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Hãy xem nội dung mô tả sau đây về tính năng truyền tin trong NumPy để biết thêm thông tin chi tiết.

phân giỏ

#fundamentals

Chuyển đổi một tính năng duy nhất thành nhiều tính năng nhị phân, gọi là bộ chứa hoặc thùng, thường dựa trên dải giá trị. Tính năng được cắt bớt thường là tính năng liên tục.

Ví dụ: thay vì biểu thị nhiệt độ dưới dạng một tính năng dấu phẩy động liên tục duy nhất, bạn có thể chia phạm vi nhiệt độ thành các nhóm riêng biệt, chẳng hạn như:

<= 10 độ C sẽ là thùng "lạnh".
11 – 24 độ C sẽ là xô "ôn hoà".
>= 25 độ C sẽ là xô "ấm".

Mô hình sẽ xử lý mọi giá trị trong cùng một bộ chứa như nhau. Ví dụ: cả hai giá trị 13 và 22 đều nằm trong bộ chứa ôn hoà, vì vậy mô hình sẽ xử lý hai giá trị này như nhau.

Hãy nhấp vào biểu tượng để xem thêm ghi chú.

Nếu bạn biểu thị nhiệt độ dưới dạng một tính năng liên tục, thì mô hình sẽ coi nhiệt độ là một tính năng duy nhất. Nếu bạn biểu thị nhiệt độ dưới dạng 3 nhóm, thì mô hình sẽ coi mỗi nhóm là một tính năng riêng biệt. Tức là một mô hình có thể tìm hiểu các mối quan hệ riêng của từng bộ chứa với nhãn. Ví dụ: mô hình hồi quy tuyến tính có thể tìm hiểu các trọng số riêng biệt cho từng nhóm.

Việc tăng số lượng nhóm khiến mô hình của bạn trở nên phức tạp hơn bằng cách tăng số lượng mối quan hệ mà mô hình phải học. Ví dụ: nhóm lạnh, ôn hoà và ấm về cơ bản là 3 tính năng riêng biệt để mô hình của bạn huấn luyện. Nếu bạn quyết định thêm hai nhóm nữa (ví dụ: đóng băng và nóng lên), mô hình của bạn giờ đây sẽ phải huấn luyện về 5 tính năng riêng biệt.

Làm thế nào để bạn biết cần tạo bao nhiêu nhóm hoặc phạm vi cho mỗi nhóm là bao nhiêu? Câu trả lời thường yêu cầu thử nghiệm khá nhiều.

C

lớp hiệu chỉnh

Mức điều chỉnh sau khi dự đoán, thường để tính đến độ lệch dự đoán. Các thông tin dự đoán và xác suất được điều chỉnh phải khớp với sự phân phối của một tập hợp nhãn đã quan sát được.

tạo ứng viên

#recsystems

Nhóm đề xuất ban đầu do hệ thống đề xuất chọn. Ví dụ: hãy xem xét một nhà sách cung cấp 100.000 đầu sách. Giai đoạn tạo đề xuất sẽ tạo ra một danh sách nhỏ hơn nhiều các cuốn sách phù hợp với một người dùng cụ thể, chẳng hạn như 500 cuốn. Nhưng ngay cả 500 cuốn sách cũng là quá nhiều để đề xuất cho người dùng. Các giai đoạn tiếp theo, tốn kém hơn, của hệ thống đề xuất (chẳng hạn như tính điểm và đặt lại thứ hạng) sẽ giảm 500 giai đoạn đó xuống một nhóm đề xuất nhỏ hơn và hữu ích hơn nhiều.

lấy mẫu ứng viên

Tính năng tối ưu hoá tại thời điểm huấn luyện tính toán xác suất cho tất cả các nhãn dương tính, sử dụng softmax chẳng hạn, nhưng chỉ đối với một mẫu nhãn âm ngẫu nhiên. Ví dụ: trong ví dụ có nhãn beagle và chó, tính năng lấy mẫu đề xuất sẽ tính xác suất dự đoán và các số hạng mất tương ứng cho:

chó săn thỏ
chó
một tập hợp con ngẫu nhiên các lớp phủ định còn lại (ví dụ: cat, lollipop, fence).

Ý tưởng là các lớp phủ định có thể học từ trường hợp tăng cường tiêu cực ít thường xuyên hơn, miễn là các lớp tích cực luôn nhận được sự củng cố tích cực phù hợp và điều này thực sự được quan sát theo thực nghiệm.

Lấy mẫu đề xuất hiệu quả hơn về mặt tính toán so với việc huấn luyện các thuật toán tính toán dự đoán cho mọi lớp phủ định, đặc biệt là khi số lượng lớp phủ định rất lớn.

dữ liệu phân loại

#fundamentals

Tính năng có một tập hợp các giá trị có thể có cụ thể. Chẳng hạn hãy xem xét một tính năng phân loại có tên là traffic-light-state. Tính năng này chỉ có thể có một trong ba giá trị có thể có sau đây:

red
yellow
green

Bằng cách biểu thị traffic-light-state dưới dạng một tính năng phân loại, một mô hình có thể tìm hiểu các tác động khác nhau của red, green và yellow đối với hành vi của người lái xe.

Tính năng phân loại đôi khi được gọi là tính năng riêng biệt.

Trái ngược với dữ liệu số.

mô hình ngôn ngữ nhân quả

#language

Từ đồng nghĩa với mô hình ngôn ngữ một chiều.

Xem mô hình ngôn ngữ hai chiều để đối chiếu các phương pháp tiếp cận theo chiều trong mô hình ngôn ngữ.

tâm

#clustering

Tâm của cụm được xác định bằng thuật toán k-Medium hoặc k-median. Ví dụ: nếu k là 3, thì thuật toán k-trung bình hoặc k-trung vị sẽ tìm được 3 trọng tâm.

phân cụm dựa trên trọng tâm

#clustering

Một danh mục thuật toán trùng cụm sắp xếp dữ liệu vào các cụm không phân cấp. k-Medium là thuật toán phân cụm dựa trên trọng tâm được sử dụng rộng rãi nhất.

Trái ngược với các thuật toán phân cụm phân cấp.

nhắc chuỗi cân nhắc

#language

#AI tạo sinh

Một kỹ thuật kỹ thuật gợi ý khuyến khích một mô hình ngôn ngữ lớn (LLM) giải thích lý do của mô hình đó theo từng bước. Ví dụ: hãy xem xét câu lệnh sau đây và đặc biệt chú ý đến câu thứ hai:

Người lái xe sẽ phải trải qua bao nhiêu g lực khi lái xe từ 0 đến 100 dặm mỗi giờ trong 7 giây? Trong câu trả lời, hãy trình bày tất cả các phép tính liên quan.

Câu trả lời của LLM có thể sẽ:

Hiển thị một chuỗi các công thức vật lý, đưa các giá trị 0, 60 và 7 vào các vị trí thích hợp.
Giải thích lý do chọn các công thức đó và ý nghĩa của các biến.

Việc nhắc suy nghĩ theo chuỗi sẽ buộc LLM thực hiện tất cả các phép tính, từ đó có thể dẫn đến câu trả lời chính xác hơn. Ngoài ra, việc nhắc theo chuỗi suy nghĩ cho phép người dùng kiểm tra các bước của LLM để xác định xem câu trả lời có hợp lý hay không.

trò chuyện

#language

#AI tạo sinh

Nội dung của cuộc đối thoại liên tiếp với hệ thống học máy, thường là mô hình ngôn ngữ lớn. Hoạt động tương tác trước đó trong một cuộc trò chuyện (nội dung bạn nhập và cách mô hình ngôn ngữ lớn phản hồi) sẽ trở thành ngữ cảnh cho các phần tiếp theo của cuộc trò chuyện.

chatbot là một ứng dụng của một mô hình ngôn ngữ lớn.

chốt kiểm tra

Dữ liệu ghi lại trạng thái của các tham số của mô hình tại một lần lặp lại huấn luyện cụ thể. Các điểm kiểm tra cho phép xuất trọng số mô hình hoặc thực hiện việc huấn luyện trong nhiều phiên. Điểm kiểm tra cũng cho phép huấn luyện để tiếp tục các lỗi trước đó (ví dụ: giành quyền sử dụng công việc).

Khi điều chỉnh tinh chỉnh, điểm bắt đầu để huấn luyện mô hình mới sẽ là điểm kiểm tra cụ thể của mô hình huấn luyện trước.

lớp

#fundamentals

Một danh mục chứa một nhãn. Ví dụ:

Trong mô hình phân loại nhị phân phát hiện nội dung rác, hai lớp đó có thể là nội dung rác và không phải nội dung rác.
Trong mô hình phân loại nhiều lớp giúp xác định các giống chó, các lớp có thể là poodle, beagle, pug, v.v.

Mô hình phân loại dự đoán một lớp. Ngược lại, mô hình hồi quy sẽ dự đoán một số thay vì một lớp.

mô hình phân loại

#fundamentals

Một model có nội dung dự đoán là một model. Ví dụ: sau đây là tất cả mô hình phân loại:

Mô hình dự đoán ngôn ngữ của câu nhập vào (tiếng Pháp? Tiếng Tây Ban Nha? Ý?).
Mô hình dự đoán loài cây (Maple? Oak? Bao báp?).
Một mô hình dự đoán lớp dương tính hoặc âm cho một tình trạng y tế cụ thể.

Ngược lại, mô hình hồi quy dự đoán số thay vì lớp.

Có hai loại mô hình phân loại phổ biến:

phân loại nhị phân
phân loại nhiều lớp

ngưỡng phân loại

#fundamentals

Trong phân loại nhị phân, một số nằm trong khoảng từ 0 đến 1 sẽ chuyển đổi đầu ra thô của mô hình hồi quy logistic thành thông tin dự đoán cho lớp dương hoặc lớp phủ định. Lưu ý rằng ngưỡng phân loại là giá trị mà con người chọn, không phải là giá trị được chọn khi huấn luyện mô hình.

Mô hình hồi quy logistic cho ra giá trị thô từ 0 đến 1. Sau đó:

Nếu giá trị thô này lớn hơn ngưỡng phân loại, thì lớp dương tính sẽ được dự đoán.
Nếu giá trị thô này nhỏ hơn ngưỡng phân loại, thì lớp phủ định sẽ được dự đoán.

Ví dụ: giả sử ngưỡng phân loại là 0, 8. Nếu giá trị thô là 0, 9 thì mô hình sẽ dự đoán lớp dương. Nếu giá trị thô là 0,7, thì mô hình này sẽ dự đoán lớp âm.

Việc lựa chọn ngưỡng phân loại ảnh hưởng mạnh mẽ đến số lượng dương tính giả và âm tính giả.

Hãy nhấp vào biểu tượng để xem thêm ghi chú.

Khi các mô hình hoặc tập dữ liệu phát triển, đôi khi các kỹ sư cũng thay đổi ngưỡng phân loại. Khi ngưỡng phân loại thay đổi, các dự đoán tích cực về lớp có thể đột nhiên trở thành lớp phủ định và ngược lại.

Chẳng hạn hãy xem xét mô hình dự đoán bệnh theo phân loại nhị phân. Giả sử khi hệ thống chạy trong năm đầu tiên:

Giá trị thô cho một bệnh nhân cụ thể là 0,95.
Ngưỡng phân loại là 0,94.

Do đó, hệ thống sẽ chẩn đoán lớp dương tính. (Bệnh nhân thở khò khè, "Ôi không! Tôi bị ốm!")

Một năm sau, có thể các giá trị giờ đây sẽ có dạng như sau:

Giá trị thô cho cùng một bệnh nhân duy trì ở mức 0,95.
Ngưỡng phân loại sẽ thay đổi thành 0,97.

Do đó, hệ thống hiện sẽ phân loại lại bệnh nhân đó thành lớp phủ định. ("Chúc bạn một ngày vui vẻ! Tôi không bị ốm.") Vẫn bệnh nhân đó. Chẩn đoán khác.

tập dữ liệu bất cân bằng về lớp

#fundamentals

Một tập dữ liệu cho một vấn đề phân loại, trong đó tổng số nhãn của mỗi lớp có sự khác biệt đáng kể. Ví dụ: hãy xem xét một tập dữ liệu phân loại nhị phân có hai nhãn được phân chia như sau:

1.000.000 nhãn phủ định
10 nhãn khẳng định

Tỷ lệ giữa nhãn âm và nhãn dương là 100.000: 1,vì vậy, đây là tập dữ liệu mất cân bằng về lớp.

Ngược lại, tập dữ liệu sau đây không mất cân bằng về lớp vì tỷ lệ nhãn âm so với nhãn dương tương đối gần với 1:

517 nhãn phủ định
483 nhãn khẳng định

Các tập dữ liệu nhiều lớp cũng có thể không cân bằng về lớp. Ví dụ: tập dữ liệu phân loại nhiều lớp sau đây cũng không cân bằng về lớp vì một nhãn có nhiều ví dụ hơn so với hai nhãn còn lại:

1.000.000 nhãn với lớp "green"
200 nhãn có lớp "tím"
350 nhãn thuộc loại "cam"

Xem thêm về entropy, lớp đa số và lớp thiểu số.

cắt xén

#fundamentals

Một kỹ thuật để xử lý các điểm ngoại lai bằng cách thực hiện một hoặc cả hai thao tác sau:

Giảm các giá trị feature lớn hơn ngưỡng tối đa xuống ngưỡng tối đa đó.
Tăng các giá trị tính năng ít hơn ngưỡng tối thiểu lên đến ngưỡng tối thiểu đó.

Ví dụ: giả sử có <0, 5% giá trị của một đối tượng cụ thể nằm ngoài phạm vi 40–60. Trong trường hợp này, bạn có thể làm như sau:

Cắt tất cả các giá trị trên 60 (ngưỡng tối đa) thành 60 chính xác.
Cắt tất cả các giá trị dưới 40 (ngưỡng tối thiểu) thành 40 chính xác.

Các điểm ngoại lai có thể làm hỏng mô hình, đôi khi khiến trọng số bị tràn trong quá trình huấn luyện. Một số điểm ngoại lai cũng có thể làm hỏng đáng kể các chỉ số như độ chính xác. Cắt xén là một kỹ thuật phổ biến để hạn chế thiệt hại.

Cắt chuyển màu buộc các giá trị gradient trong phạm vi được chỉ định trong quá trình huấn luyện.

Cloud TPU

#TensorFlow

#GoogleCloud

Một trình tăng tốc phần cứng chuyên dụng được thiết kế để tăng tốc khối lượng công việc dùng cho mô hình học máy trên Google Cloud.

phân cụm

#clustering

Nhóm các ví dụ có liên quan, đặc biệt là trong quá trình học tập không có giám sát. Sau khi tất cả ví dụ được nhóm lại, người dùng có thể tuỳ ý cung cấp ý nghĩa cho từng cụm.

Tồn tại nhiều thuật toán phân cụm. Ví dụ: các ví dụ về các cụm thuật toán k-Medium dựa trên khoảng cách gần với tâm điểm, như trong sơ đồ sau:

Một biểu đồ hai chiều, trong đó trục x được gắn nhãn chiều rộng cây và trục y được gắn nhãn chiều cao cây. Biểu đồ này chứa hai
trọng tâm và vài chục điểm dữ liệu. Các điểm dữ liệu được phân loại dựa trên độ gần. Điều này có nghĩa là các điểm dữ liệu gần với một trọng tâm nhất sẽ được phân loại là cụm 1, trong khi những điểm dữ liệu gần với trọng tâm khác nhất được phân loại là cụm 2.

Sau đó, nhà nghiên cứu là con người có thể xem xét các cụm và ví dụ: gắn nhãn cụm 1 là "cây lùn" và cụm 2 là "cây có kích thước đầy đủ".

Một ví dụ khác là hãy xem xét thuật toán phân cụm dựa trên khoảng cách từ một điểm giữa của ví dụ, được minh hoạ như sau:

Rất nhiều điểm dữ liệu được sắp xếp theo các vòng tròn đồng tâm, gần giống
như các lỗ xung quanh tâm bảng phi tiêu. Vòng trong cùng của các điểm dữ liệu được phân loại là cụm 1, vòng ở giữa được phân loại là cụm 2 và vòng ngoài cùng là cụm 3.

đồng thích ứng

Khi nơ-ron dự đoán các mẫu trong dữ liệu huấn luyện bằng cách hầu như chỉ dựa vào kết quả của các nơron cụ thể khác, thay vì dựa vào toàn bộ hành vi của mạng. Khi các mẫu gây ra quá trình đồng thích ứng không xuất hiện trong dữ liệu xác thực, thì việc đồng thích ứng sẽ gây ra tình trạng quá mức. Quá trình điều chỉnh bỏ qua làm giảm quá trình đồng thích ứng vì tình trạng bỏ ngang đảm bảo các nơron không thể chỉ dựa vào các nơron cụ thể khác.

lọc cộng tác

#recsystems

Đưa ra dự đoán về mối quan tâm của một người dùng dựa trên mối quan tâm của nhiều người dùng khác. Tính năng lọc cộng tác thường được sử dụng trong hệ thống đề xuất.

trôi dạt khái niệm

Sự thay đổi trong mối quan hệ giữa các tính năng và nhãn. Theo thời gian, độ trôi của khái niệm sẽ làm giảm chất lượng của mô hình.

Trong quá trình huấn luyện, mô hình này sẽ tìm hiểu mối quan hệ giữa các tính năng và nhãn của chúng trong tập hợp huấn luyện. Nếu các nhãn trong tập hợp huấn luyện là những proxy phù hợp cho thế giới thực, thì mô hình này sẽ đưa ra các dự đoán chính xác trong thế giới thực. Tuy nhiên, do độ trôi của khái niệm, kết quả dự đoán của mô hình có xu hướng giảm theo thời gian.

Ví dụ: hãy xem xét mô hình phân loại nhị phân dự đoán xem một mẫu ô tô nhất định có "tiết kiệm nhiên liệu" hay không. Tức là các tính năng có thể là:

trọng lượng ô tô
nén động cơ
kiểu truyền dữ liệu

trong khi nhãn là:

hiệu quả về nhiên liệu
không tiết kiệm nhiên liệu

Tuy nhiên, khái niệm "xe tiết kiệm nhiên liệu" luôn thay đổi. Một mẫu ô tô được gắn nhãn tiết kiệm nhiên liệu vào năm 1994 gần như chắc chắn sẽ được gắn nhãn không tiết kiệm nhiên liệu vào năm 2024. Một mô hình bị trôi khái niệm có xu hướng đưa ra các dự đoán ngày càng kém hữu ích theo thời gian.

So sánh và đối chiếu với tính không cố định.

Hãy nhấp vào biểu tượng để xem thêm ghi chú.

Để bù đắp cho độ trôi của khái niệm, hãy huấn luyện lại các mô hình nhanh hơn so với tốc độ của độ trôi khái niệm. Ví dụ: nếu độ chính xác của khái niệm làm giảm độ chính xác của mô hình đi một biên độ có ý nghĩa hai tháng một lần, hãy huấn luyện lại mô hình thường xuyên hơn hai tháng một lần.

điều kiện

#df

Trong cây quyết định, mọi nút đánh giá một biểu thức. Ví dụ: phần sau đây của cây quyết định chứa 2 điều kiện:

Cây quyết định bao gồm 2 điều kiện: (x > 0) và (y > 0).

Một điều kiện còn được gọi là phần phân tách hoặc kiểm thử.

Điều kiện tương phản với leaf.

Xem thêm:

điều kiện nhị phân
điều kiện phi nhị phân.
điều kiện được căn chỉnh theo trục
điều kiện xiên

giao cấu

#language

Từ đồng nghĩa với Ảo giác.

Kết hợp có lẽ là một thuật ngữ chính xác hơn về mặt kỹ thuật so với ảo tưởng. Tuy nhiên, ảo tưởng trở nên phổ biến trước tiên.

cấu hình

Quá trình chỉ định giá trị thuộc tính ban đầu dùng để huấn luyện một mô hình, bao gồm:

các lớp tổng hợp của mô hình
vị trí của dữ liệu
siêu tham số như:

Trong các dự án học máy, bạn có thể định cấu hình thông qua một tệp cấu hình đặc biệt hoặc sử dụng các thư viện cấu hình như sau:

thiên kiến xác nhận

#fairness

Xu hướng tìm kiếm, diễn giải, ưu tiên và nhớ lại thông tin theo cách xác nhận những niềm tin hoặc giả thuyết có sẵn của một người. Các nhà phát triển sử dụng công nghệ học máy có thể vô tình thu thập hoặc gắn nhãn dữ liệu theo cách ảnh hưởng đến kết quả hỗ trợ cho niềm tin hiện có của họ. Thành kiến xác nhận là một dạng thành kiến ngầm định.

Thành kiến của người thử nghiệm là một dạng thiên kiến xác nhận, trong đó người thử nghiệm tiếp tục huấn luyện các mô hình cho đến khi giả thuyết có sẵn được xác nhận.

ma trận nhầm lẫn

#fundamentals

Bảng NxN tóm tắt số lượt dự đoán chính xác và không chính xác mà một mô hình phân loại đã đưa ra. Ví dụ: hãy xem xét ma trận nhầm lẫn sau đây cho mô hình phân loại nhị phân:

	Khối u (dự đoán)	Không phải khối u (dự đoán)
Khối u (sự thật)	18 (TP)	1 (FN)
Không phải khối u (sự thật)	6 (FP)	452 (TN)

Ma trận nhầm lẫn trước đó cho thấy những điều sau:

Trong số 19 dự đoán mà sự thật thực tế là Tumor, mô hình này đã phân loại chính xác 18 và phân loại không chính xác 1.
Trong số 458 dự đoán mà dữ liệu thực tế không phải là Un-Tumor, mô hình đã phân loại đúng 452 và phân loại không chính xác là 6.

Ma trận nhầm lẫn cho vấn đề phân loại nhiều lớp có thể giúp bạn xác định các quy luật của lỗi. Ví dụ: hãy xem xét ma trận nhầm lẫn sau đây cho mô hình phân loại nhiều lớp gồm 3 lớp, giúp phân loại 3 loại mống mắt khác nhau (Virginica, Versicolor và Setosa). Khi dữ liệu thực tế là Virginica, ma trận nhầm lẫn cho thấy mô hình này có nhiều khả năng dự đoán Versicolor nhầm hơn Setosa:

	Setosa (dự đoán)	Versicolor (dự đoán)	Virginica (dự đoán)
Setosa (sự thật)	88	12	0
Versicolor (sự thật về mặt đất)	6	141	7
Virginica (sự thật)	2	27	109

Một ví dụ khác là một ma trận nhầm lẫn có thể tiết lộ rằng một mô hình được huấn luyện để nhận dạng chữ số viết tay có xu hướng dự đoán nhầm 9 thay vì 4, hoặc dự đoán nhầm 1 thay vì 7.

Ma trận kết hợp chứa đủ thông tin để tính toán nhiều chỉ số hiệu suất, bao gồm cả độ chính xác và độ ghi nhớ.

phân tích cú pháp khu vực bầu cử

#language

Chia câu thành các cấu trúc ngữ pháp nhỏ hơn ("thành phần"). Phần sau của hệ thống ML, chẳng hạn như mô hình hiểu ngôn ngữ tự nhiên, có thể phân tích cú pháp các thành phần dễ dàng hơn so với câu gốc. Ví dụ: hãy xem xét câu sau:

Bạn tôi nhận nuôi hai chú mèo.

Trình phân tích cú pháp ứng dụng có thể chia câu này thành 2 thành phần sau:

Bạn của tôi là một cụm danh từ.
nuôi hai con mèo là một cụm động từ.

Những thành phần này có thể được chia nhỏ hơn thành các thành phần nhỏ hơn. Ví dụ: cụm động từ

nhận nuôi hai con mèo

có thể được chia nhỏ hơn thành:

adopt (đã thông qua) là một động từ.
hai con mèo là một cụm danh từ khác.

nhúng ngôn ngữ theo ngữ cảnh

#language

#AI tạo sinh

Nội dung được nhúng gần với các từ và cụm từ "hiểu" nhất theo cách mà người bản ngữ có thể làm. Nội dung nhúng bằng ngôn ngữ theo ngữ cảnh có thể hiểu cú pháp, ngữ nghĩa và ngữ cảnh phức tạp.

Ví dụ: hãy xem xét việc nhúng từ cow trong tiếng Anh. Các mục nhúng cũ hơn như word2vec có thể biểu thị các từ tiếng Anh sao cho khoảng cách trong không gian nhúng từ bò đến bò đực tương tự như khoảng cách từ ewe (cừu cái) đến ram (cừu đực) hoặc từ nữ đến đực. Nội dung nhúng bằng ngôn ngữ theo ngữ cảnh có thể tiến thêm một bước nữa bằng cách nhận ra rằng người nói tiếng Anh đôi khi sử dụng từ cow (bò) để ám chỉ bò cái hoặc bò.

cửa sổ ngữ cảnh

#language

#AI tạo sinh

Số lượng mã thông báo mà một mô hình có thể xử lý trong một lời nhắc nhất định. Cửa sổ ngữ cảnh càng lớn, mô hình càng có thể sử dụng nhiều thông tin để cung cấp phản hồi nhất quán và nhất quán cho lời nhắc.

tính năng liên tục

#fundamentals

Một tính năng dấu phẩy động có phạm vi vô hạn các giá trị có thể có, chẳng hạn như nhiệt độ hoặc trọng lượng.

Tương phản với tính năng riêng biệt.

lấy mẫu tiện lợi

Sử dụng một tập dữ liệu không được thu thập một cách khoa học để chạy các thử nghiệm nhanh. Sau này, bạn cần chuyển sang một tập dữ liệu được thu thập một cách khoa học.

hội tụ

#fundamentals

Trạng thái đạt đến khi giá trị mất thay đổi rất ít hoặc hoàn toàn không thay đổi với mỗi vòng lặp. Ví dụ: đường cong tổn thất sau đây cho thấy sự hội tụ ở khoảng 700 lần lặp:

cốt truyện Descartes. Trục X là trục mất. Trục Y là số lần lặp lại huấn luyện. Tỷ lệ mất rất cao trong vài lần lặp lại đầu tiên, nhưng sẽ giảm mạnh. Sau khoảng 100 lần lặp lại, tình trạng mất mát vẫn giảm dần nhưng dần dần. Sau khoảng 700 vòng lặp, tỷ lệ mất mát vẫn không thay đổi.

Một mô hình tập hợp khi quá trình huấn luyện bổ sung sẽ không cải thiện mô hình.

Trong học sâu, giá trị mất đi đôi khi không đổi hoặc gần như trong nhiều lần lặp lại trước khi giảm dần. Trong một thời gian dài giá trị mất đi không đổi, bạn có thể tạm thời có cảm nhận giả về sự hội tụ.

Hãy xem thêm thông tin về việc dừng sớm.

hàm lồi

Một hàm mà trong đó vùng phía trên biểu đồ của hàm số là một tập hợp lồi. Hàm lồi nguyên mẫu có hình dạng giống như chữ cái U. Ví dụ: sau đây là tất cả các hàm lồi:

Đường cong hình chữ U, mỗi đường cong có một điểm tối thiểu duy nhất.

Ngược lại, hàm sau không lồi. Lưu ý rằng vùng phía trên biểu đồ không phải là một tập hợp lồi:

Một đường cong chữ W có hai điểm tối thiểu cục bộ khác nhau.

Một hàm lồi nghiêm ngặt có đúng một điểm tối thiểu cục bộ, cũng là điểm nhỏ nhất toàn hệ thống. Các hàm hình chữ U cổ điển là các hàm lồi nghiêm ngặt. Tuy nhiên, một số hàm lồi (ví dụ: đường thẳng) không phải là hình chữ U.

Hãy nhấp vào biểu tượng này để xem thông tin toán học chi tiết hơn.

Có rất nhiều hàm suy giảm phổ biến, bao gồm cả các hàm lồi:

Thua₂ thua
lượng nhật ký bị mất
Điều chỉnh L₁
Điều chỉnh L₂

Nhiều biến thể của phương pháp đường xuống dốc (gradient) được đảm bảo để tìm một điểm gần với giá trị nhỏ nhất của một hàm lồi nghiêm ngặt. Tương tự, nhiều biến thể của phương pháp giảm độ dốc ngẫu nhiên có xác suất cao (mặc dù không đảm bảo) tìm thấy một điểm gần với giá trị nhỏ nhất của một hàm lồi nghiêm ngặt.

Tổng của 2 hàm lồi (ví dụ: mất L₂ + điều chỉnh L₁) là một hàm lồi.

Mô hình sâu không bao giờ là các hàm lồi. Đáng chú ý là các thuật toán được thiết kế để tối ưu hoá mặt lồi có xu hướng tìm được các giải pháp hợp lý trên các mạng sâu, mặc dù các giải pháp đó không đảm bảo là mức tối thiểu trên toàn cầu.

tối ưu hoá lồi

Quá trình sử dụng các kỹ thuật toán học như phương pháp giảm độ dốc để tìm giá trị tối thiểu của hàm lồi. Rất nhiều nghiên cứu trong lĩnh vực học máy tập trung vào việc hình thành nhiều vấn đề khác nhau dưới dạng bài toán tối ưu hoá lồi và giải quyết các vấn đề đó một cách hiệu quả hơn.

Để biết đầy đủ thông tin chi tiết, hãy xem bài viết Tối ưu hoá lồi của Boyd và Vandenberghe.

tập lồi

Một tập con của không gian Euclide sao cho một đường thẳng được vẽ giữa hai điểm bất kỳ trong tập con vẫn nằm hoàn toàn trong tập hợp con đó. Ví dụ: 2 hình dạng sau là các tập hợp lồi:

Ảnh minh hoạ một hình chữ nhật. Một hình minh hoạ khác về hình bầu dục.

Ngược lại, hai hình sau đây không phải là tập hợp lồi:

Một hình minh hoạ về biểu đồ hình tròn bị thiếu một phần.
Hình minh hoạ khác về một đa giác không đều.

tích chập

#image

Trong toán học, nói một cách tình cờ, đó là cả hai hàm số. Trong công nghệ học máy, phép tích chập sẽ kết hợp bộ lọc tích chập và ma trận đầu vào để huấn luyện trọng số.

Thuật ngữ "tích chập" trong công nghệ học máy thường là cách viết tắt để đề cập đến toán tử tích chập hoặc lớp tích chập.

Nếu không có tích chập, thuật toán học máy sẽ phải tìm hiểu trọng số riêng cho mỗi ô trong một tensor lớn. Ví dụ: Khi huấn luyện thuật toán học máy để huấn luyện các hình ảnh có kích thước 2K x 2K, chúng tôi sẽ buộc phải tìm các trọng số riêng biệt 4 triệu. Nhờ có tích chập, thuật toán học máy chỉ phải tìm trọng số cho mọi ô trong bộ lọc tích chập, giúp giảm đáng kể bộ nhớ cần thiết để huấn luyện mô hình. Khi áp dụng bộ lọc tích chập, bộ lọc này chỉ được sao chép trên các ô sao cho mỗi ô nhân với bộ lọc.

bộ lọc tích chập

#image

Một trong hai diễn viên trong toán tử tích chập. (Tác nhân còn lại là một lát của ma trận đầu vào.) Bộ lọc tích chập là một ma trận có cùng thứ hạng với ma trận đầu vào nhưng có hình dạng nhỏ hơn. Ví dụ: với một ma trận đầu vào có kích thước 28x28, bộ lọc có thể là bất kỳ ma trận 2D nào nhỏ hơn 28x28.

Trong thao tác chụp ảnh, tất cả các ô trong bộ lọc tích chập thường được đặt thành một mẫu không đổi gồm số một và số 0. Trong công nghệ học máy, bộ lọc tích chập thường được chèn các số ngẫu nhiên, sau đó mạng đào tạo các giá trị lý tưởng.

lớp tích chập

#image

Một lớp của mạng nơron sâu, trong đó bộ lọc tích chập truyền dọc theo một ma trận đầu vào. Ví dụ: hãy xem xét bộ lọc tích chập 3x3 sau đây:

Một ma trận 3x3 có các giá trị sau: [[0,1,0], [1,0,1], [0,1,0]]

Ảnh động sau đây cho thấy một lớp tích chập bao gồm 9 phép toán tích chập liên quan đến ma trận đầu vào 5x5. Lưu ý rằng mỗi phép tích chập hoạt động trên một lát 3x3 khác nhau của ma trận đầu vào. Ma trận 3x3 thu được (ở bên phải) bao gồm kết quả của 9 phép toán tích chập:

Ảnh động minh hoạ 2 ma trận. Ma trận đầu tiên là ma trận 5x5: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179,9],
Ma trận thứ hai là ma trận 3x3: [[181.303.618], [115.338.605], [169.351.560]].
Ma trận thứ hai được tính bằng cách áp dụng bộ lọc tích chập [[0, 1, 0], [1, 0, 1], [0, 1, 0]] trên các tập con 3x3 khác nhau của ma trận 5x5.

mạng nơron tích chập

#image

Một mạng nơron, trong đó ít nhất một lớp là lớp chập. Một mạng nơron tích chập điển hình bao gồm một số tổ hợp các lớp sau:

lớp tích chập
nhóm lớp
các lớp dày

Mạng nơron tích chập đã đạt được thành công lớn trong một số loại vấn đề, chẳng hạn như nhận dạng hình ảnh.

phép tích chập

#image

Phép toán gồm hai bước sau đây:

Phép nhân theo phần tử của bộ lọc tích chập và một lát của ma trận đầu vào. (Lát cắt của ma trận đầu vào có cùng thứ hạng và kích thước với bộ lọc tích chập.)
Tổng của tất cả giá trị trong ma trận sản phẩm thu được.

Ví dụ: hãy xem xét ma trận đầu vào 5x5 sau:

Ma trận 5x5: [[128,97,53,201,198], [35,22,25,200,195],
[37,24,28,197,182], [33,28,92,195,179], [31,4], [30,4]

Bây giờ, hãy tưởng tượng bộ lọc tích chập 2x2 sau:

Ma trận 2x2: [[1, 0], [0, 1]]

Mỗi phép tích chập liên quan đến một lát 2x2 của ma trận đầu vào. Ví dụ: giả sử chúng ta sử dụng lát cắt 2x2 ở trên cùng bên trái của ma trận đầu vào. Vì vậy, phép tích chập trên lát cắt này sẽ có dạng như sau:

Áp dụng bộ lọc tích chập [[1, 0], [0, 1]] cho phần 2x2 ở trên cùng bên trái của ma trận đầu vào, là [[128,97], [35,22]].
Bộ lọc tích chập giữ nguyên số 128 và 22, nhưng số 97 và 35 sẽ bị loại 0. Do đó, toán tử tích chập mang lại giá trị 150 (128 + 22).

Lớp tích chập bao gồm một loạt các phép tính tích chập, mỗi phép tính hoạt động trên một phần khác nhau của ma trận đầu vào.

chi phí

Từ đồng nghĩa với mất.

cùng đào tạo

Phương pháp học bán có giám sát đặc biệt hữu ích khi đáp ứng tất cả các điều kiện sau:

Tỷ lệ ví dụ không được gắn nhãn so với ví dụ có gắn nhãn trong tập dữ liệu ở mức cao.
Đây là bài toán phân loại (tệp nhị phân hoặc nhiều lớp).
Tập dữ liệu chứa hai tập hợp tính năng dự đoán riêng biệt, độc lập với nhau và bổ sung cho nhau.

Về cơ bản, việc cùng huấn luyện sẽ khuếch đại các tín hiệu độc lập thành tín hiệu mạnh hơn. Ví dụ: hãy xem xét một mô hình phân loại, phân loại từng ô tô đã qua sử dụng là Tốt hoặc Kém. Một bộ tính năng dự đoán có thể tập trung vào các đặc điểm tổng hợp như năm, nhà sản xuất và mẫu xe ô tô; một tập hợp tính năng dự đoán khác có thể tập trung vào hồ sơ lái xe của chủ sở hữu trước và nhật ký bảo dưỡng của ô tô.

Bài viết hữu ích về chương trình cùng đào tạo là Kết hợp dữ liệu có gắn nhãn và không có nhãn với chương trình Đồng huấn luyện của Blum và Scholar.

tính công bằng phản thực tế

#fairness

Chỉ số về tính công bằng giúp kiểm tra xem thuật toán phân loại có tạo ra cùng một kết quả cho một cá nhân giống như cho một cá nhân khác giống với cá nhân đầu tiên, ngoại trừ một hoặc nhiều thuộc tính nhạy cảm. Việc đánh giá một thuật toán phân loại về tính công bằng phản thực tế là một phương pháp để đưa ra các nguồn sai lệch tiềm ẩn trong mô hình.

Hãy xem phần "Khi các thế giới xung đột: Tích hợp các giả định khác nhau vào sự công bằng" để thảo luận chi tiết hơn về tính công bằng phản thực tế.

thiên kiến bao phủ

#fairness

Xem phần thiên vị trong lựa chọn.

hoa văn sập

#language

Một câu hoặc cụm từ có ý nghĩa không rõ ràng. Hoa sự cố cho thấy một vấn đề quan trọng trong khả năng hiểu ngôn ngữ tự nhiên. Ví dụ: dòng tiêu đề Red Tape giữ hình chữ nhật đứng là sự cố xuất hiện vì mô hình NLU có thể diễn giải dòng tiêu đề theo nghĩa đen hoặc nghĩa bóng.

Hãy nhấp vào biểu tượng để xem thêm ghi chú.

Tôi muốn làm rõ dòng tiêu đề bí ẩn đó:

Red Tape có thể là một trong những trường hợp sau:
- Keo dán
- Quan ly quá mức
Tạm ngưng có thể là một trong những trường hợp sau:
- Hỗ trợ về mặt kết cấu
- Các hoạt động gây trở ngại giao thông

phê bình

#rl

Từ đồng nghĩa với Deep Q-Network.

entropy chéo

Tổng quan về Tình trạng mất nhật ký trong các vấn đề về phân loại nhiều lớp. Entropy chéo định lượng sự chênh lệch giữa hai phân phối xác suất. Hãy xem thêm phần độ phức tạp.

xác thực chéo

Một cơ chế để ước tính mức độ tổng quát của một model với dữ liệu mới bằng cách kiểm thử mô hình đó với một hoặc nhiều tập hợp con dữ liệu không chồng chéo được giữ lại trong model.

hàm phân phối tích luỹ (CDF)

Một hàm xác định tần suất của các mẫu nhỏ hơn hoặc bằng một giá trị mục tiêu. Ví dụ: hãy xem xét phân phối chuẩn của các giá trị liên tục. CDF cho bạn biết rằng khoảng 50% số mẫu nên nhỏ hơn hoặc bằng giá trị trung bình và khoảng 84% số mẫu phải nhỏ hơn hoặc bằng một độ lệch chuẩn trên giá trị trung bình.

D

phân tích dữ liệu

Hiểu về dữ liệu bằng cách xem xét các mẫu, phép đo và trực quan hoá. Việc phân tích dữ liệu có thể đặc biệt hữu ích trong lần đầu nhận tập dữ liệu, trước khi người dùng tạo model đầu tiên. Điểm này cũng rất quan trọng trong việc hiểu rõ các thử nghiệm và gỡ lỗi về hệ thống.

tăng cường dữ liệu

#image

Tăng cường phạm vi và số lượng ví dụ đào tạo một cách giả tạo bằng cách chuyển đổi ví dụ hiện có để tạo thêm ví dụ. Ví dụ: giả sử hình ảnh là một trong các tính năng của bạn, nhưng tập dữ liệu không chứa đủ ví dụ hình ảnh để mô hình tìm hiểu các mối liên kết hữu ích. Tốt nhất là bạn nên thêm đủ hình ảnh có gắn nhãn vào tập dữ liệu để mô hình có thể huấn luyện đúng cách. Nếu không thể, tính năng tăng cường dữ liệu có thể xoay, kéo giãn và phản ánh từng hình ảnh để tạo ra nhiều biến thể của hình ảnh gốc, có thể mang lại đủ dữ liệu được gắn nhãn để cho phép huấn luyện hiệu quả.

DataFrame

#fundamentals

Một loại dữ liệu gấu phổ biến để biểu thị tập dữ liệu trong bộ nhớ.

DataFrame cũng tương tự như một bảng hoặc bảng tính. Mỗi cột của Khung dữ liệu có một tên (tiêu đề) và mỗi hàng được xác định bằng một số duy nhất.

Mỗi cột trong một DataFrame có cấu trúc như một mảng 2D, ngoại trừ việc mỗi cột có thể được chỉ định kiểu dữ liệu riêng.

Hãy xem thêm trang tham khảo chính thức về gấu trúc.DataFrame.

tính song song dữ liệu

Một phương pháp để mở rộng quy mô đào tạo hoặc suy luận sao chép toàn bộ mô hình trên nhiều thiết bị, sau đó truyền một tập hợp con dữ liệu đầu vào đến từng thiết bị. Tính năng song song dữ liệu có thể cho phép huấn luyện và dự đoán trên kích thước lô rất lớn; tuy nhiên, tính năng song song dữ liệu đòi hỏi mô hình phải đủ nhỏ để vừa trên tất cả các thiết bị.

Tính năng song song dữ liệu thường giúp đẩy nhanh tốc độ huấn luyện và dự đoán.

Xem thêm nội dung mô hình đo lường song song.

tập dữ liệu hoặc tập dữ liệu

#fundamentals

Tập hợp dữ liệu thô, thường (nhưng không chỉ) được sắp xếp theo một trong các định dạng sau:

một bảng tính
tệp ở định dạng CSV (các giá trị được phân tách bằng dấu phẩy)

Dataset API (tf.data)

#TensorFlow

API TensorFlow cấp cao để đọc và biến đổi dữ liệu thành một dạng mà thuật toán học máy yêu cầu. Đối tượng tf.data.Dataset đại diện cho một trình tự các phần tử, trong đó, mỗi phần tử chứa một hoặc nhiều Tensor. Đối tượng tf.data.Iterator cung cấp quyền truy cập vào các phần tử của Dataset.

Để biết thông tin chi tiết về Dataset API, hãy xem bài viết tf.data: Tạo quy trình đầu vào TensorFlow trong Hướng dẫn cho lập trình viên TensorFlow.

ranh giới quyết định

Dấu phân cách giữa lớp mà một mô hình học được trong lớp nhị phân hoặc bài toán phân loại nhiều lớp. Ví dụ: trong hình ảnh sau đây biểu thị một vấn đề phân loại nhị phân, ranh giới quyết định là ranh giới giữa lớp màu cam và lớp màu xanh dương:

Ranh giới được xác định rõ ràng giữa lớp này và lớp khác.

rừng quyết định

#df

Một mô hình được tạo từ nhiều cây quyết định. Rừng quyết định đưa ra dự đoán bằng cách tổng hợp các dự đoán của cây quyết định. Các loại rừng quyết định phổ biến bao gồm rừng ngẫu nhiên và cây tăng cường chuyển màu.

ngưỡng quyết định

Từ đồng nghĩa với ngưỡng phân loại.

cây quyết định

#df

Mô hình học có giám sát bao gồm một tập hợp conditions và conditions được sắp xếp theo thứ bậc. Ví dụ: sau đây là cây quyết định:

Cây quyết định bao gồm 4 điều kiện được sắp xếp theo thứ bậc, dẫn đến 5 lá.

bộ giải mã

#language

Nhìn chung, mọi hệ thống học máy chuyển đổi từ cách trình bày nội bộ, dày đặc hoặc đã được xử lý sang cách trình bày thô, thưa hoặc thô hơn.

Bộ giải mã thường là một thành phần của mô hình lớn hơn, trong đó chúng thường được ghép nối với một bộ mã hoá.

Trong tác vụ theo trình tự, bộ giải mã bắt đầu với trạng thái nội bộ do bộ mã hoá tạo ra để dự đoán trình tự tiếp theo.

Tham khảo Transformer để biết định nghĩa về bộ giải mã trong cấu trúc Transformer.

mô hình sâu

#fundamentals

Một mạng nơron chứa nhiều hơn một lớp ẩn.

Mô hình sâu còn được gọi là mạng nơron sâu.

Tương phản với mô hình rộng.

mạng nơron sâu

Từ đồng nghĩa với deep model.

Mạng Q sâu (DQN)

#rl

Trong Q-học, một mạng nơron sâu dự đoán hàm Q.

Phê bình là một từ đồng nghĩa với Deep Q-Network.

tính tương đồng về nhân khẩu học

#fairness

Chỉ số về độ công bằng được đáp ứng nếu kết quả phân loại mô hình không phụ thuộc vào một thuộc tính nhạy cảm nhất định.

Ví dụ: nếu cả Hoa Kỳ

Trái ngược với tỷ lệ cân bằng và sự bình đẳng của cơ hội, cho phép việc phân loại kết quả tổng hợp phụ thuộc vào các thuộc tính nhạy cảm, nhưng không cho phép kết quả phân loại đối với một số nhãn sự thật được chỉ định cụ thể để phụ thuộc vào các thuộc tính nhạy cảm. Xem phần "Tấn công phân biệt đối xử bằng công nghệ học máy thông minh hơn" để có hình ảnh trực quan về các điểm đánh đổi khi tối ưu hoá cho tính đồng nhất về nhân khẩu học.

khử tiếng ồn

#language

Một phương pháp phổ biến đối với hình thức học tự giám sát, trong đó:

Độ nhiễu được thêm một cách giả tạo vào tập dữ liệu.
model sẽ cố gắng loại bỏ tiếng ồn.

Tính năng khử nhiễu cho phép học hỏi từ các ví dụ không có nhãn. Tập dữ liệu gốc đóng vai trò là mục tiêu hoặc nhãn và dữ liệu gây nhiễu đóng vai trò là dữ liệu đầu vào.

Một số mô hình ngôn ngữ được che giấu sử dụng tính năng khử tiếng ồn như sau:

Tiếng ồn được thêm một cách giả tạo vào một câu không được gắn nhãn bằng cách che một số mã thông báo.
Mô hình này sẽ cố gắng dự đoán các mã thông báo ban đầu.

tính chất dày đặc

#fundamentals

Một tính năng trong đó hầu hết hoặc tất cả các giá trị đều khác 0, thường là Tensor của các giá trị dấu phẩy động. Ví dụ: Tensor 10 phần tử sau đây là dày đặc vì 9 giá trị của nó khác 0:

Tương phản với tính năng thưa thớ.

lớp dày đặc

Từ đồng nghĩa với lớp được kết nối đầy đủ.

chiều sâu

#fundamentals

Tổng của giá trị sau trong mạng nơron:

số lượng lớp ẩn
số lượng lớp đầu ra, thường là 1
số lượng lớp nhúng bất kỳ

Ví dụ: một mạng nơron có 5 lớp ẩn và một lớp đầu ra có độ sâu là 6.

Lưu ý rằng lớp đầu vào không ảnh hưởng đến chiều sâu.

mạng nơron tích chập phân tách được theo chiều sâu (sepCNN)

#image

Cấu trúc mạng nơron tích chập dựa trên Inception, nhưng trong đó các mô-đun Inception được thay thế bằng quyền tích chập có thể phân tách theo chiều sâu. Còn được gọi là Xception.

Phép tích chập có thể phân tách theo chiều sâu (còn viết tắt là tích chập 3D chuẩn) chia tích chập 3D chuẩn thành hai phép tích chập riêng biệt hiệu quả hơn: thứ nhất là tích chập theo chiều sâu, với độ sâu 1 (n x n x 1), sau đó là tích chập 3x với độ dài và chiều rộng x x.

Để tìm hiểu thêm, hãy xem bài viết XTiếp theo: Học sâu với tách dữ liệu chuyên sâu để phân tách.

nhãn dẫn xuất

Từ đồng nghĩa với nhãn proxy.

thiết bị

#TensorFlow

#GoogleCloud

Thuật ngữ nạp chồng có hai định nghĩa sau đây:

Một danh mục phần cứng có thể chạy phiên TensorFlow, bao gồm CPU, GPU và TPU.
Khi huấn luyện một mô hình học máy trên khối tăng tốc (GPU hoặc TPU), phần của hệ thống thực sự thao tác với tensor và tệp nhúng. Thiết bị chạy trên chip tăng tốc. Ngược lại, máy chủ lưu trữ thường chạy trên CPU.

sự riêng tư biệt lập

Trong công nghệ học máy, một phương pháp ẩn danh giúp bảo vệ mọi dữ liệu nhạy cảm (ví dụ: thông tin cá nhân của một cá nhân) có trong bộ huấn luyện của mô hình không bị lộ. Phương pháp này đảm bảo rằng model không tìm hiểu hoặc nhớ nhiều về một cá nhân cụ thể. Điều này có thể được thực hiện bằng cách lấy mẫu và thêm độ nhiễu trong quá trình huấn luyện mô hình để che khuất từng điểm dữ liệu, giảm thiểu nguy cơ để lộ dữ liệu huấn luyện nhạy cảm.

Sự riêng tư biệt lập cũng được sử dụng bên ngoài công nghệ học máy. Ví dụ: các nhà khoa học dữ liệu đôi khi sử dụng giải pháp sự riêng tư biệt lập để bảo vệ quyền riêng tư cá nhân khi tính toán số liệu thống kê về việc sử dụng sản phẩm cho nhiều nhóm nhân khẩu học.

giảm kích thước

Giảm số lượng kích thước dùng để biểu thị một đối tượng cụ thể trong vectơ đối tượng, thường bằng cách chuyển đổi thành vectơ nhúng.

phương diện

Thuật ngữ về quá tải có bất kỳ định nghĩa nào sau đây:

Số cấp toạ độ trong một Tensor. Ví dụ:
- Một đại lượng vô hướng có chiều bằng 0; ví dụ: ["Hello"].
- Mỗi vectơ có một chiều; ví dụ: [3, 5, 7, 11].
- Ma trận có hai chiều; ví dụ: [[2, 4, 18], [5, 7, 14]].
Bạn có thể chỉ định duy nhất một ô cụ thể trong vectơ một chiều bằng một toạ độ; bạn cần hai toạ độ để chỉ định duy nhất một ô cụ thể trong ma trận hai chiều.
Số lượng mục trong một vectơ tính năng.
Số phần tử trong một lớp nhúng.

nhắc nhở trực tiếp

#language

#AI tạo sinh

Từ đồng nghĩa với lời nhắc tự động đăng ký.

tính năng rời rạc

#fundamentals

Một tính năng với một tập hợp các giá trị có thể có hữu hạn. Ví dụ: một đối tượng có các giá trị chỉ có thể là động vật, rau củ hoặc khoáng sản là một tính năng riêng biệt (hoặc phân loại).

Tương phản với tính năng liên tục.

mô hình phân biệt đối xử

Một model dự đoán model từ một tập hợp gồm một hoặc nhiều model. Nói một cách chính thức hơn, mô hình phân biệt đối xử xác định xác suất có điều kiện của một đầu ra dựa trên các tính năng và trọng số; đó là:

p(output | features, weights)

Ví dụ: một mô hình dự đoán liệu một email có phải là thư rác từ các tính năng và trọng số là mô hình phân biệt đối xử hay không.

Phần lớn các mô hình học tập có giám sát, bao gồm cả mô hình phân loại và hồi quy, là mô hình phân biệt đối xử.

Tương phản với mô hình tạo sinh.

người phân biệt đối xử

Một hệ thống xác định xem ví dụ là thật hay giả.

Ngoài ra, hệ thống con trong mạng đối nghịch tạo sinh sẽ xác định xem các ví dụ do trình tạo tạo là thật hay giả.

tác động khác nhau

#fairness

Đưa ra quyết định không cân đối về những người có ảnh hưởng đến các nhóm nhỏ nhóm dân số khác nhau. Điều này thường xảy ra trong những tình huống trong đó quy trình đưa ra quyết định bằng thuật toán sẽ gây tổn hại hoặc mang lại lợi ích cho một số nhóm con nhiều hơn so với các nhóm con khác.

Ví dụ: giả sử một thuật toán xác định rằng khách hàng của Lilliputian có đủ điều kiện cho khoản vay mua nhà thu nhỏ có nhiều khả năng phân loại họ là "không đủ điều kiện" nếu địa chỉ gửi thư của họ chứa một mã bưu chính nhất định. Nếu Big-Endian Lilliputians có nhiều khả năng sử dụng các địa chỉ gửi thư có mã bưu chính này hơn Little-Endian Lilliputians, thì thuật toán này có thể tạo ra tác động khác nhau.

Trái ngược với phương thức xử lý khác biệt, tập trung vào sự khác biệt dẫn đến khi các đặc điểm của nhóm con là dữ liệu đầu vào rõ ràng cho một quá trình đưa ra quyết định bằng thuật toán.

xử lý khác nhau

#fairness

Đưa thuộc tính nhạy cảm của các chủ thể vào quy trình đưa ra quyết định bằng thuật toán để các nhóm con khác nhau được xử lý theo cách khác nhau.

Ví dụ: hãy xem xét một thuật toán giúp xác định xem Liliputians có đủ điều kiện vay tiền để mua nhà quy mô nhỏ hay không dựa trên dữ liệu mà họ cung cấp trong hồ sơ vay tiền. Nếu thuật toán sử dụng mối liên kết của Lilliputian là Big-Endian hoặc Little-Endian làm dữ liệu đầu vào, thì thuật toán sẽ tạo ra hoạt động xử lý khác nhau theo chiều đó.

Trái ngược với tác động khác nhau, tập trung vào sự khác biệt về tác động xã hội do các quyết định bằng thuật toán đối với các nhóm con, bất kể các nhóm con đó có phải là dữ liệu đầu vào cho mô hình hay không.

tinh lọc

#AI tạo sinh

Quá trình giảm kích thước của một model (gọi là model) thành một mô hình nhỏ hơn (còn gọi là model) mô phỏng các dự đoán của mô hình ban đầu một cách trung thực nhất có thể. Tính năng lọc rất hữu ích vì mô hình nhỏ hơn có hai lợi ích chính so với mô hình lớn hơn (giáo viên):

Thời gian suy luận nhanh hơn
Giảm mức sử dụng bộ nhớ và năng lượng

Tuy nhiên, dự đoán của học sinh thường không tốt bằng dự đoán của giáo viên.

Tinh lọc huấn luyện mô hình học viên để giảm thiểu hàm mất dữ liệu dựa trên sự khác biệt giữa kết quả dự đoán của mô hình học viên và giáo viên.

So sánh và đối chiếu quá trình tinh lọc với các thuật ngữ sau:

tinh chỉnh
học tập theo câu lệnh

Phân phối

Tần suất và phạm vi của các giá trị khác nhau cho một tính năng hoặc nhãn nhất định. Biểu đồ phân phối ghi lại khả năng của một giá trị cụ thể.

Hình ảnh sau đây cho thấy biểu đồ của hai phân phối khác nhau:

Ở bên trái là phân bố của quyền lực của sự giàu có so với số người sở hữu của cải đó.
Ở bên phải, phân phối chiều cao chuẩn so với số người sở hữu chiều cao đó.

Hai biểu đồ. Một biểu đồ thể hiện sự phân phối theo luật luỹ thừa với trục x và số người có tài sản đó trên trục y. Hầu hết mọi người đều có rất ít của cải, còn một vài người thì có rất nhiều của cải. Biểu đồ còn lại cho thấy phân phối chuẩn với chiều cao trên trục x và số người có chiều cao đó trên trục y. Hầu hết mọi người tập trung ở đâu đó gần mức trung bình.

Khi hiểu rõ cách phân phối của từng tính năng và nhãn, bạn có thể xác định cách chuẩn hoá các giá trị và phát hiện điểm ngoại lai.

Cụm từ ngoài phân phối đề cập đến một giá trị không xuất hiện trong tập dữ liệu hoặc rất hiếm. Ví dụ: hình ảnh hành tinh Sao Thổ sẽ được coi là không phân phối cho một tập dữ liệu chứa hình ảnh mèo.

phân cụm có chia

#clustering

Xem phần phân cụm phân cấp.

giảm tần số lấy mẫu

#image

Thuật ngữ bị quá tải có thể có nghĩa là một trong những trường hợp sau:

Giảm lượng thông tin trong một tính năng để huấn luyện mô hình hiệu quả hơn. Ví dụ: trước khi huấn luyện một mô hình nhận dạng hình ảnh, hãy giảm tần số lấy mẫu hình ảnh có độ phân giải cao xuống định dạng có độ phân giải thấp hơn.
Đào tạo về một tỷ lệ không cân đối thấp các ví dụ về lớp có quá nhiều đại diện để cải thiện quy trình huấn luyện mô hình trên các lớp học có ít người đại diện. Ví dụ: trong một tập dữ liệu không cân bằng giữa lớp, các mô hình có xu hướng tìm hiểu nhiều về lớp đa số và không đủ thông tin về lớp phần phụ thuộc. Việc giảm tần số lấy mẫu giúp cân bằng thời lượng huấn luyện cho các lớp đa số và thiểu số.

DQN (Mã số sản phẩm thương mại toàn cầu)

#rl

Tên viết tắt của Deep Q-Network.

điều chỉnh bỏ học

Một hình thức chính quy hữu ích trong việc huấn luyện mạng nơron. Quy trình điều chỉnh bỏ qua sẽ xoá lựa chọn ngẫu nhiên một số đơn vị cố định trong một lớp mạng cho một bước chuyển màu. Càng có nhiều đơn vị bỏ ngang, việc điều chỉnh càng mạnh. Điều này tương tự như việc huấn luyện mạng để mô phỏng một tập hợp theo cấp số nhân của các mạng nhỏ hơn. Để biết toàn bộ thông tin chi tiết, hãy xem phần Huỷ bỏ: Một cách đơn giản để ngăn mạng nơron quá mức.

linh động

#fundamentals

Việc gì đó được thực hiện thường xuyên hoặc liên tục. Các thuật ngữ động và trực tuyến là các từ đồng nghĩa trong công nghệ học máy. Sau đây là một số cách sử dụng phổ biến của phương thức động và trực tuyến trong công nghệ học máy:

Mô hình động (hay mô hình trực tuyến) là một mô hình được đào tạo lại thường xuyên hoặc liên tục.
Đào tạo động (hay đào tạo trực tuyến) là quá trình huấn luyện thường xuyên hoặc liên tục.
Suy luận động (hay suy luận trực tuyến) là quá trình tạo thông tin dự đoán theo yêu cầu.

mô hình động

#fundamentals

Một model thường xuyên (thậm chí có thể liên tục) được huấn luyện lại. Mô hình linh động là một "người học suốt đời" liên tục thích ứng với dữ liệu không ngừng phát triển. Mô hình động còn được gọi là mô hình trực tuyến.

Tương phản với mô hình tĩnh.

E

thực thi chờ

#TensorFlow

Một môi trường lập trình TensorFlow trong đó operations chạy ngay lập tức. Ngược lại, các thao tác được gọi trong thực thi biểu đồ sẽ không chạy cho đến khi được đánh giá rõ ràng. Thực thi Eager là giao diện bắt buộc, giống như mã trong hầu hết các ngôn ngữ lập trình. Chương trình thực thi Eager thường dễ gỡ lỗi hơn nhiều so với chương trình thực thi biểu đồ.

dừng sớm

#fundamentals

Phương thức điều chỉnh quy trình bao gồm việc kết thúc huấn luyện trước khi tình trạng ngừng huấn luyện kết thúc việc giảm dần. Khi dừng lại, bạn chủ ý ngừng huấn luyện mô hình khi mức độ mất dữ liệu trên tập dữ liệu xác thực bắt đầu tăng lên; tức là khi hiệu suất tổng quát hoá trở nên kém đi.

Hãy nhấp vào biểu tượng để xem thêm ghi chú.

Việc dừng sớm có vẻ khác thường. Suy cho cùng, việc yêu cầu một mô hình tạm dừng huấn luyện trong khi tổn thất vẫn giảm dần có vẻ giống như việc yêu cầu một đầu bếp dừng nấu trước khi món tráng miệng nướng hoàn toàn. Tuy nhiên, việc huấn luyện một mô hình quá dài có thể dẫn đến tình trạng quá mức. Điều đó nghĩa là nếu bạn huấn luyện một mô hình quá dài, thì mô hình đó có thể phù hợp với dữ liệu huấn luyện đến mức mô hình đó sẽ không đưa ra dự đoán chính xác trên các ví dụ mới.

khoảng cách di chuyển trái đất (EMD)

Đo lường độ tương đồng của hai bản phân phối. Khoảng cách của vật di chuyển trái đất càng thấp, các bản phân phối càng giống nhau.

chỉnh sửa khoảng cách

#language

Đo lường mức độ tương tự của hai chuỗi văn bản với nhau. Trong công nghệ học máy, việc chỉnh sửa khoảng cách rất hữu ích vì rất đơn giản để tính toán và là một cách hiệu quả để so sánh hai chuỗi đã biết là tương tự nhau hoặc để tìm các chuỗi tương tự với một chuỗi nhất định.

Có một số định nghĩa về khoảng cách chỉnh sửa, mỗi định nghĩa sử dụng các thao tác chuỗi khác nhau. Ví dụ: Khoảng cách Levershtein được xem là ít thao tác xoá, chèn và thay thế nhất.

Ví dụ: khoảng cách L Cngayshtein giữa hai từ "trái tim" và "phi tiêu" là 3 vì 3 nội dung chỉnh sửa sau đây là ít thay đổi nhất để chuyển một từ thành từ kia:

tim → deart (thay "h" bằng "d")
deart → dart (xoá "e")
phi tiêu → phi tiêu (chèn "s")

Ký hiệu Einsum

Một ký hiệu hiệu quả để mô tả cách kết hợp 2 tensor. Các tensor này được kết hợp bằng cách nhân các phần tử của một tensor với các phần tử của các tensor khác, sau đó tính tổng các tích. Ký hiệu Einsum sử dụng các ký hiệu để xác định trục của mỗi tensor và các ký hiệu tương tự đó được sắp xếp lại để chỉ định hình dạng của tensor mới tạo ra.

NumPy cung cấp một phương thức triển khai Einsum phổ biến.

lớp nhúng

#language

#fundamentals

Một lớp ẩn đặc biệt được huấn luyện dựa trên tính năng phân loại có chiều cao để tìm hiểu dần một vectơ nhúng có chiều thấp hơn. Lớp nhúng giúp mạng nơron huấn luyện hiệu quả hơn nhiều so với việc chỉ huấn luyện tính năng phân loại đa chiều.

Ví dụ: Trái Đất hiện hỗ trợ khoảng 73.000 loài cây. Giả sử các loài cây là một tính năng trong mô hình của bạn, vì vậy,lớp đầu vào của mô hình bao gồm một vectơ một nóng gồm 73.000 phần tử dài. Ví dụ: có thể baobab sẽ được biểu thị như sau:

Một mảng gồm 73.000 phần tử. 6.232 phần tử đầu tiên có giá trị
0. Phần tử tiếp theo chứa giá trị 1. 66.767 phần tử cuối cùng có giá trị bằng 0.

Một mảng 73.000 phần tử là rất dài. Nếu bạn không thêm lớp nhúng vào mô hình, thì việc huấn luyện sẽ tốn rất nhiều thời gian do phải nhân 72.999 số 0. Có thể bạn chọn lớp nhúng gồm 12 chiều. Do đó, lớp nhúng sẽ dần học được một vectơ nhúng mới cho từng loài cây.

Trong một số trường hợp nhất định, băm là một lựa chọn thay thế hợp lý cho lớp nhúng.

không gian nhúng

#language

Không gian vectơ d chiều có các đặc điểm của không gian vectơ có chiều cao hơn được ánh xạ tới. Lý tưởng nhất là không gian nhúng chứa một cấu trúc mang lại kết quả toán học có ý nghĩa. Ví dụ: trong một không gian nhúng lý tưởng, phép cộng và trừ các mục nhúng có thể giải quyết các nhiệm vụ tương tự từ.

Tích số chấm của 2 lượt nhúng là thước đo mức độ tương đồng.

vectơ nhúng

#language

Nói chung là một mảng các số dấu phẩy động được lấy từ bất kỳ lớp ẩn nào mô tả dữ liệu đầu vào cho lớp ẩn đó. Thông thường, vectơ nhúng là một mảng các số dấu phẩy động được huấn luyện trong một lớp nhúng. Ví dụ: giả sử một lớp nhúng phải tìm hiểu một vectơ nhúng cho từng loài trong số 73.000 loài cây trên Trái đất. Có thể mảng sau đây là vectơ nhúng cho cây bao báp:

Một mảng gồm 12 phần tử, mỗi phần tử có một số dấu phẩy động từ 0,0 đến 1,0.

Vectơ nhúng không phải là một nhóm các số ngẫu nhiên. Lớp nhúng sẽ xác định các giá trị này thông qua quá trình huấn luyện, tương tự như cách mạng nơron tìm hiểu các trọng số khác trong quá trình huấn luyện. Mỗi phần tử của mảng là một điểm xếp hạng theo một số đặc điểm của một loài cây. Phần tử nào đại diện cho đặc điểm của loài cây? Con người rất khó để xác định.

Điều đáng chú ý về mặt toán học của vectơ nhúng là các mục tương tự nhau có các tập hợp số dấu phẩy động tương tự. Ví dụ: các loài cây tương tự có tập hợp số dấu phẩy động giống nhau hơn so với các loài cây không giống nhau. Cây hồng sam và cây cự sam là các loài cây có liên quan với nhau, vì vậy, chúng sẽ có tập hợp số dấu phẩy động tương tự hơn so với gỗ đỏ và cây cọ dừa. Các con số trong vectơ nhúng sẽ thay đổi mỗi khi bạn đào tạo lại mô hình, ngay cả khi bạn huấn luyện lại mô hình với dữ liệu đầu vào giống hệt nhau.

hàm phân phối tích luỹ thực nghiệm (eCDF hoặc EDF)

Hàm phân phối tích luỹ dựa trên phép đo lường thực nghiệm từ tập dữ liệu thực. Giá trị của hàm ở bất kỳ điểm nào dọc theo trục x là tỷ lệ quan sát trong tập dữ liệu nhỏ hơn hoặc bằng giá trị được chỉ định.

giảm thiểu rủi ro theo thực nghiệm (ERM)

Chọn hàm giúp giảm thiểu sự mất mát trên tập huấn luyện. Trái ngược với tính năng giảm thiểu rủi ro về cấu trúc.

bộ mã hóa

#language

Nhìn chung, mọi hệ thống ML chuyển đổi từ một cách trình bày thô, thưa thớt hoặc bên ngoài thành một cách trình bày nội bộ được xử lý kỹ lưỡng hơn, dày đặc hơn hoặc có nội bộ hơn.

Bộ mã hoá thường là một thành phần của mô hình lớn hơn và thường được kết hợp với một bộ giải mã. Một số Transformer ghép nối bộ mã hoá với bộ giải mã, mặc dù những loại Transformer khác chỉ sử dụng bộ mã hoá hoặc chỉ bộ giải mã.

Một số hệ thống sử dụng đầu ra của bộ mã hoá làm đầu vào cho mạng phân loại hoặc mạng hồi quy.

Trong tác vụ theo trình tự, bộ mã hoá sẽ lấy trình tự đầu vào và trả về trạng thái nội bộ (vectơ). Sau đó, bộ giải mã sẽ sử dụng trạng thái nội bộ đó để dự đoán trình tự tiếp theo.

Tham khảo Transformer để biết định nghĩa về bộ mã hoá trong cấu trúc Transformer.

trang phục

Tập hợp mô hình được đào tạo độc lập có thông tin dự đoán được tính trung bình hoặc tổng hợp. Trong nhiều trường hợp, một tập hợp sẽ tạo ra các dự đoán tốt hơn so với một mô hình đơn lẻ. Ví dụ: rừng ngẫu nhiên là một tập hợp được xây dựng từ nhiều cây quyết định. Hãy lưu ý rằng không phải rừng quyết định nào cũng là tập hợp.

entropy

#df

Trong lý thuyết thông tin, nội dung mô tả về mức độ khó dự đoán của hàm phân phối xác suất. Ngoài ra, entropy còn được định nghĩa là lượng thông tin mà mỗi ví dụ chứa. Một bản phân phối có entropy cao nhất có thể khi tất cả các giá trị của biến ngẫu nhiên đều có khả năng bằng nhau.

Entropy của một tập hợp có hai giá trị có thể có "0" và "1" (ví dụ: nhãn trong bài toán phân loại nhị phân) có công thức sau:

H = -p log p - q log q = -p log p – (1-p) * log (1-p)

trong đó:

H là entropy.
p là tỷ lệ phần trăm của ví dụ "1".
q là phân số của "0". Lưu ý rằng q = (1 - p)
log thường là nhật ký₂. Trong trường hợp này, đơn vị entropy là một chút.

Ví dụ: giả sử như sau:

100 ví dụ chứa giá trị "1"
300 ví dụ chứa giá trị "0"

Do đó, giá trị entropy là:

p = 0,25
q = 0,75
H = (-0,25)log₂(0,25) – (0,75)log₂(0,75) = 0,81 bit mỗi ví dụ

Một tập hợp cân bằng hoàn toàn (ví dụ: 200 "0" và 200 "1") sẽ có entropy là 1 bit. Khi một tập hợp trở nên mất cân bằng hơn, entropy của tập hợp đó sẽ di chuyển về 0.0.

Trong cây quyết định, entropy giúp lập công thức thu thập thông tin để giúp bộ tách chọn điều kiện trong quá trình phát triển cây quyết định phân loại.

So sánh entropy với:

tạp chất gini
Hàm tổn thất cross-entropy

entropy thường được gọi là entropy Shannon.

môi trường

#rl

Trong mô hình học tăng cường, thế giới chứa tác nhân và cho phép tác nhân quan sát trạng thái của thế giới đó. Ví dụ: thế giới được đại diện có thể là một trò chơi như cờ vua hoặc thế giới thực như một mê cung. Khi tác nhân áp dụng một hành động cho môi trường, thì môi trường sẽ chuyển đổi giữa các trạng thái.

tập

#rl

Trong mô hình học tăng cường, mỗi lần tác nhân lặp lại để tìm hiểu một môi trường.

thời gian bắt đầu của hệ thống

#fundamentals

Một lượt huấn luyện đầy đủ sẽ áp dụng cho toàn bộ bộ huấn luyện, sao cho mỗi ví dụ đều được xử lý một lần.

Thời gian bắt đầu của hệ thống đại diện cho N/kích thước lô huấn luyện vòng lặp, trong đó N là tổng số ví dụ.

Ví dụ: giả sử như sau:

Tập dữ liệu bao gồm 1.000 ví dụ.
Kích thước lô là 50 ví dụ.

Do đó, một thời gian bắt đầu của hệ thống cần 20 vòng lặp:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

chính sách về mục đích tham lam của epsilon

#rl

Trong mô hình học tăng cường, một chính sách tuân theo chính sách ngẫu nhiên với xác suất epsilon hoặc chính sách tham lam. Ví dụ: nếu epsilon là 0, 9, thì chính sách này sẽ tuân theo một chính sách ngẫu nhiên 90% thời gian và chính sách tham lam là 10%.

Trong các tập liên tiếp, thuật toán sẽ giảm giá trị của epsilon để chuyển từ tuân theo một chính sách ngẫu nhiên sang tuân theo một chính sách tham lam. Bằng cách thay đổi chính sách, trước tiên, tác nhân sẽ khám phá ngẫu nhiên môi trường, sau đó khai thác kết quả khám phá ngẫu nhiên một cách tham lam.

sự bình đẳng về cơ hội

#fairness

Chỉ số về tính công bằng dùng để đánh giá xem một mô hình có dự đoán kết quả mong muốn như nhau đối với tất cả giá trị của thuộc tính nhạy cảm hay không. Nói cách khác, nếu kết quả mong muốn cho một mô hình là lớp giá trị dương, thì mục tiêu sẽ là có tỷ lệ dương thực sự giống nhau cho tất cả các nhóm.

Bình đẳng về cơ hội liên quan đến tỷ lệ chênh lệch bằng nhau, điều này yêu cầu cả tỷ lệ dương tính thật và tỷ lệ dương tính giả ở tất cả các nhóm đều phải giống nhau.

Giả sử Đại học Glubbdubdrib cho cả hai nhà Liliputians và Brobdingnagians vào một chương trình toán học nghiêm ngặt. Các trường trung học của Lilliputians cung cấp một chương trình học mạnh mẽ gồm các lớp toán và phần lớn học sinh đều đủ điều kiện tham gia chương trình đại học. Các trường trung học cơ sở của Brobdingnagian không cung cấp lớp học toán. Vì vậy, số học sinh đủ điều kiện của họ rất ít. Mức độ bình đẳng về cơ hội sẽ được đáp ứng đối với nhãn "được chấp nhận" liên quan đến quốc tịch (Lilliputian hoặc Brobdingnagian) nếu những sinh viên đủ điều kiện có khả năng được nhận như nhau, bất kể họ là người Brazil hay người Brobdingnagian.

Ví dụ: giả sử 100 thí sinh [ nghĩa] và 100 sinh viên ở Brobdingnagian nộp đơn vào Đại học Glubbdubdrib và các quyết định tuyển sinh được đưa ra như sau:

Bảng 1. Ứng viên Lilliputian (90% đủ điều kiện)

	Đủ tiêu chuẩn	Không đủ tiêu chuẩn
Đã chấp nhận	45	3
Bị từ chối	45	7
Tổng	90	10
Tỷ lệ học viên đủ điều kiện được nhận vào: 45/90 = 50% Tỷ lệ học viên không đủ điều kiện bị từ chối: 7/10 = 70% Tổng tỷ lệ học viên của Lilliputian được nhập học: (45+3)/100 = 48%

Bảng 2. Ứng viên Brobdingnagian (10% đủ điều kiện):

	Đủ tiêu chuẩn	Không đủ tiêu chuẩn
Đã chấp nhận	5	9
Bị từ chối	5	81
Tổng	10	90
Tỷ lệ sinh viên đủ điều kiện được nhận: 5/10 = 50% Tỷ lệ học viên không đủ điều kiện bị từ chối: 81/90 = 90% Tổng tỷ lệ sinh viên ở Brobdingnagian được nhận: (5+9)/100 = 14%

Các ví dụ trên đáp ứng sự công bằng về cơ hội chấp nhận sinh viên đủ điều kiện, vì cả hai sinh viên đủ điều kiện đều có cơ hội được nhận vào cả 50%.

Mặc dù đáp ứng được sự bình đẳng về cơ hội, nhưng hai chỉ số về tính công bằng sau đây không được đáp ứng:

tính đồng nhất về nhân khẩu học: Sinh viên Lilliputians và Brobdingnagian được nhận vào trường đại học với tỷ lệ khác nhau; 48% sinh viên Philippines được nhận, nhưng chỉ 14% sinh viên Brobdingnagian được nhận.
tỷ lệ chênh lệch bằng nhau: Mặc dù cả sinh viên đủ điều kiện của Lilliputian và Brobdingnagian đều có cùng cơ hội được nhận vào, nhưng một hạn chế khác là cả hai sinh viên không đủ điều kiện đều có cơ hội bị từ chối đều không được thoả mãn. Những người không đủ tiêu chuẩn Lilliputian có tỷ lệ từ chối là 70%, trong khi những người ở Brobdingnagian không đủ tiêu chuẩn có tỷ lệ từ chối là 90%.

Vui lòng xem bài viết "Công bằng của cơ hội trong mô hình học tập có giám sát" để biết nội dung thảo luận chi tiết hơn về sự bình đẳng trong các cơ hội. Ngoài ra, hãy xem bài viết "Tấn công phân biệt đối xử bằng công nghệ học máy thông minh hơn" để có hình ảnh trực quan về sự đánh đổi khi tối ưu hoá nhằm đạt được sự bình đẳng về cơ hội.

tỷ lệ cược cân bằng

#fairness

Chỉ số về tính công bằng để đánh giá xem một mô hình có đang dự đoán kết quả như nhau đối với tất cả các giá trị của một thuộc tính nhạy cảm trong đó sự tôn trọng của cả lớp dương và lớp phủ định (không chỉ một lớp hay các lớp khác) Nói cách khác, cả tỷ lệ dương tính thực và tỷ lệ âm tính giả phải giống nhau đối với tất cả các nhóm.

Tỷ lệ chênh lệch bằng liên quan đến bình đẳng về cơ hội, tức là chỉ tập trung vào tỷ lệ lỗi của một lớp (dương hoặc âm).

Ví dụ: giả sử Đại học Glubbdubdrib chấp nhận cả người Lilliputians và người Brebdingnagian vào một chương trình toán học nghiêm ngặt. Các trường trung học cơ sở của Lilliputians cung cấp một chương trình giảng dạy phong phú gồm các lớp toán và phần lớn học sinh đều đủ điều kiện tham gia chương trình đại học. Các trường trung học cơ sở của Brobdingnagian hoàn toàn không cung cấp các lớp học toán. Vì vậy, số học sinh của họ đủ tiêu chuẩn rất ít. Xác suất cân bằng được đáp ứng với điều kiện là bất kể người đăng ký là người thuộc Lilliputian hay người Brobdingnagian, nếu họ đủ điều kiện, thì họ đều có khả năng được nhận vào chương trình như nhau và nếu không đủ điều kiện, thì họ cũng có khả năng bị từ chối như nhau.

Giả sử 100 sinh viên Lilliputians và 100 sinh viên Brobdingnagian đăng ký vào Đại học Glubbdubdrib và quyết định tuyển sinh được đưa ra như sau:

Bảng 3. Ứng viên Lilliputian (90% đủ điều kiện)

	Đủ tiêu chuẩn	Không đủ tiêu chuẩn
Đã chấp nhận	45	2
Bị từ chối	45	8
Tổng	90	10
Tỷ lệ học viên đủ điều kiện được nhận vào: 45/90 = 50% Tỷ lệ học viên không đủ điều kiện bị từ chối: 8/10 = 80% Tổng tỷ lệ học sinh của Trường được nhận: (45+2)/100 = 47%

Bảng 4. Ứng viên Brobdingnagian (10% đủ điều kiện):

	Đủ tiêu chuẩn	Không đủ tiêu chuẩn
Đã chấp nhận	5	18
Bị từ chối	5	72
Tổng	10	90
Tỷ lệ học viên đủ điều kiện được nhận: 5/10 = 50% Tỷ lệ học viên không đủ điều kiện bị từ chối: 72/90 = 80% Tổng tỷ lệ học viên ở Brobdingnagian được nhận vào: (5+18)/100 = 23%

Tỷ lệ cược bằng nhau là thoả mãn vì cả hai học viên đủ điều kiện của Lilliputian và Brobdingnagian đều có 50% cơ hội được nhận vào, còn Lilliputian và Brobdingnagian không đủ điều kiện có 80% cơ hội bị từ chối.

Tỷ lệ cân bằng được định nghĩa chính thức trong "Tính bình đẳng của cơ hội trong hoạt động học tập có giám sát" như sau: "công cụ dự đoán nút đáp ứng tỷ lệ cân bằng đối với thuộc tính được bảo vệ A và kết quả Y nếu đàn và A là độc lập, có điều kiện đối với Y".

Công cụ ước tính

#TensorFlow

API TensorFlow không còn được dùng nữa. Sử dụng tf.keras thay vì Công cụ ước tính.

đánh giá

Quá trình đo lường chất lượng của thông tin dự đoán của mô hình học máy. Trong khi phát triển mô hình, bạn thường áp dụng các chỉ số đánh giá không chỉ trên bộ huấn luyện mà còn trên bộ xác thực và bộ kiểm thử. Bạn cũng có thể sử dụng các chỉ số đánh giá để so sánh các mô hình với nhau.

ví dụ

#fundamentals

Giá trị của một hàng tính năng và có thể là nhãn. Ví dụ trong công nghệ học có giám sát thuộc 2 danh mục chung:

Ví dụ được gắn nhãn bao gồm một hoặc nhiều tính năng và một nhãn. Các ví dụ có gắn nhãn sẽ được dùng trong quá trình huấn luyện.
Ví dụ không được gắn nhãn bao gồm một hoặc nhiều tính năng nhưng không có nhãn. Các ví dụ không có nhãn được sử dụng trong quá trình suy luận.

Ví dụ: giả sử bạn đang huấn luyện một mô hình để xác định ảnh hưởng của điều kiện thời tiết đối với điểm kiểm tra của học sinh. Sau đây là 3 ví dụ được gắn nhãn:

Tính năng			Hãng nhạc
Nhiệt độ	Độ ẩm	Áp lực	Điểm kiểm tra
15	47	998	Tốt
19	34	1020	Rất tốt
18	92	1012	Kém

Dưới đây là ba ví dụ không được gắn nhãn:

Nhiệt độ	Độ ẩm	Áp lực
12	62	1014
21	47	1017
19	41	1021

Ví dụ: Hàng của tập dữ liệu thường là nguồn thô. Điều này có nghĩa là một ví dụ thường bao gồm một tập hợp con các cột trong tập dữ liệu. Hơn nữa, các tính năng trong một ví dụ cũng có thể bao gồm tính năng tổng hợp, chẳng hạn như các tính năng kết hợp.

phát lại trải nghiệm

#rl

Trong học tăng cường, một kỹ thuật DQN được dùng để giảm các mối tương quan tạm thời trong dữ liệu huấn luyện. Tác nhân lưu trữ hoạt động chuyển đổi trạng thái trong vùng đệm phát lại, sau đó lấy mẫu hiệu ứng chuyển đổi từ vùng đệm phát lại để tạo dữ liệu huấn luyện.

thiên kiến của người thử nghiệm

#fairness

Xem phần thiên vị xác nhận.

vấn đề bùng nổ về độ dốc

#seq

Xu hướng chuyển màu trong mạng nơron sâu (đặc biệt là mạng nơron lặp lại) trở nên dốc một cách bất ngờ (cao). Chuyển màu dốc thường gây ra những bản cập nhật rất lớn cho trọng số của mỗi nút trong mạng nơron sâu.

Các mô hình gặp phải vấn đề về chuyển màu bùng nổ sẽ trở nên khó hoặc không thể huấn luyện được. Tính năng Cắt chuyển màu có thể giảm thiểu vấn đề này.

So sánh với vấn đề về độ dốc biến mất.

F

Mục F₁

Chỉ số phân loại nhị phân "tổng hợp" dựa trên cả độ chính xác và nhắc lại. Dưới đây là công thức:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Ví dụ như sau:

độ chính xác = 0,6
thu hồi = 0,4

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Khi độ chính xác và mức độ ghi nhớ tương đối giống nhau (như trong ví dụ trước), F₁ sẽ gần bằng giá trị trung bình. Khi độ chính xác và mức độ ghi nhớ khác nhau đáng kể, F₁ sẽ gần hơn với giá trị thấp hơn. Ví dụ:

độ chính xác = 0,9
thu hồi = 0,1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

quy tắc ràng buộc về tính công bằng

#fairness

Áp dụng quy tắc ràng buộc cho một thuật toán để đảm bảo đáp ứng một hoặc nhiều định nghĩa về tính công bằng. Sau đây là ví dụ về các quy tắc ràng buộc về tính công bằng:

Xử lý hậu kỳ kết quả của mô hình.
Thay đổi hàm tổn thất để kết hợp hình phạt do vi phạm chỉ số về sự công bằng.
Thêm trực tiếp một quy tắc ràng buộc toán học vào một bài toán tối ưu hoá.

chỉ số về tính công bằng

#fairness

Một định nghĩa toán học về "sự công bằng" có thể đo lường được. Một số chỉ số thường dùng về tính công bằng bao gồm:

tỷ lệ cân bằng
tương đương dự đoán
tính công bằng phản thực tế
tính tương đồng về nhân khẩu học

Nhiều chỉ số về tính công bằng mang tính loại trừ lẫn nhau; hãy xem các chỉ số về tính công bằng không tương thích.

âm tính giả (FN)

#fundamentals

Một ví dụ trong đó mô hình này dự đoán nhầm lớp phủ định. Ví dụ: mô hình này dự đoán một email cụ thể không phải là thư rác (lớp phủ định), nhưng email đó thực sự là thư rác.

tỷ lệ âm tính giả

Tỷ lệ các ví dụ dương tính thực tế mà mô hình đã dự đoán nhầm lớp phủ định. Công thức sau đây sẽ tính tỷ lệ âm tính giả:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

dương tính giả (FP)

#fundamentals

Một ví dụ trong đó mô hình này dự đoán nhầm lớp dương. Ví dụ: mô hình này dự đoán một email cụ thể là thư rác (lớp khẳng định), nhưng email đó thực sự không phải là thư rác.

tỷ lệ dương tính giả (FPR)

#fundamentals

Tỷ lệ các ví dụ phủ định thực tế mà mô hình đã dự đoán nhầm lớp dương. Công thức sau đây sẽ tính tỷ lệ dương tính giả:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Tỷ lệ dương tính giả là trục x trong đường cong ROC.

đối tượng

#fundamentals

Biến đầu vào cho mô hình học máy. Ví dụ bao gồm một hoặc nhiều tính năng. Ví dụ: giả sử bạn đang huấn luyện một mô hình để xác định ảnh hưởng của điều kiện thời tiết đối với điểm kiểm tra của học viên. Bảng sau đây trình bày 3 ví dụ, mỗi ví dụ có 3 tính năng và 1 nhãn:

Tính năng			Hãng nhạc
Nhiệt độ	Độ ẩm	Áp lực	Điểm kiểm tra
15	47	998	92
19	34	1020	84
18	92	1012	87

Tương phản với label.

chữ thập

#fundamentals

Một tính năng tổng hợp hình thành do các tính năng phân loại hoặc phân nhóm.

Ví dụ: hãy xem xét mô hình "dự báo tâm trạng" biểu thị nhiệt độ ở một trong 4 nhóm sau:

freezing
chilly
temperate
warm

Đồng thời, biểu thị tốc độ gió ở một trong ba nhóm sau:

still
light
windy

Nếu không có đối tượng nào đi qua, mô hình tuyến tính sẽ huấn luyện độc lập trên mỗi bộ chứa trong số 7 bộ chứa trước đó. Ví dụ: mô hình sẽ huấn luyện trên freezing một cách độc lập với hoạt động huấn luyện trên windy, chẳng hạn như.

Ngoài ra, bạn có thể tạo một tính năng gồm nhiệt độ và tốc độ gió. Tính năng tổng hợp này sẽ có thể có 12 giá trị sau:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

Nhờ các tính năng chéo, mô hình này có thể tìm hiểu sự khác biệt về tâm trạng giữa một ngày freezing-windy và một ngày freezing-still.

Nếu bạn tạo một tính năng tổng hợp từ hai tính năng mà mỗi tính năng có rất nhiều bộ chứa khác nhau, thì kết quả giao diện tính năng sẽ có rất nhiều tổ hợp khả thi. Ví dụ: nếu một đối tượng có 1.000 bộ chứa và tính năng còn lại có 2.000 bộ chứa, thì kết quả tính năng kết quả sẽ có 2.000.000 bộ chứa.

Chính thức, dấu thập là một sản phẩm Cartesian.

Các tính năng chéo chủ yếu được sử dụng với mô hình tuyến tính và hiếm khi được sử dụng với mạng nơron.

kỹ thuật tính năng

#fundamentals

#TensorFlow

Quy trình bao gồm các bước sau:

Việc xác định tính năng nào có thể hữu ích trong việc huấn luyện mô hình.
Chuyển đổi dữ liệu thô từ tập dữ liệu thành các phiên bản hiệu quả của các tính năng đó.

Ví dụ: bạn có thể xác định rằng temperature có thể là một tính năng hữu ích. Sau đó, bạn có thể thử nghiệm bằng cách phân nhóm để tối ưu hoá những gì mô hình có thể học được từ nhiều phạm vi temperature.

Kỹ thuật tính năng đôi khi được gọi là trích xuất tính năng hoặc tính năng.

Nhấp vào biểu tượng này để xem thêm ghi chú về TensorFlow.

Trong TensorFlow, kỹ thuật tính năng thường có nghĩa là chuyển đổi các mục nhập tệp nhật ký thô thành vùng đệm giao thức tf.Example. Xem thêm tf.Transform.

trích xuất đối tượng

Thuật ngữ bị quá tải có một trong các định nghĩa sau:

Truy xuất các cách biểu diễn tính năng trung gian được tính toán bằng một mô hình không được giám sát hoặc mô hình luyện sẵn (ví dụ: các giá trị của lớp ẩn trong một mạng nơron) để dùng trong một mô hình khác làm dữ liệu đầu vào.
Từ đồng nghĩa với kỹ thuật tính năng.

tầm quan trọng của tính năng

#df

Từ đồng nghĩa với mức độ quan trọng biến.

bộ tính năng

#fundamentals

Nhóm tính năng mà mô hình học máy mà bạn sử dụng để huấn luyện. Ví dụ: mã bưu chính, quy mô cơ sở lưu trú và tình trạng bất động sản có thể bao gồm một tập hợp tính năng đơn giản cho một mô hình dự đoán giá nhà ở.

thông số kỹ thuật của tính năng

#TensorFlow

Mô tả thông tin cần thiết để trích xuất dữ liệu tính năng từ vùng đệm giao thức tf.Example. Vì vùng đệm giao thức tf.Example chỉ là một vùng chứa dữ liệu nên bạn phải chỉ định những nội dung sau:

Dữ liệu cần trích xuất (nghĩa là khoá cho các đối tượng)
Loại dữ liệu (ví dụ: số thực có độ chính xác đơn hoặc số nguyên)
Độ dài (cố định hoặc có thể thay đổi)

vectơ đặc trưng

#fundamentals

Mảng các giá trị feature bao gồm một ví dụ. Vectơ tính năng được nhập vào trong quá trình huấn luyện và trong quá trình dự đoán. Ví dụ: vectơ đối tượng cho một mô hình có hai tính năng riêng biệt có thể là:

[0.92, 0.56]

Bốn lớp: lớp đầu vào, hai lớp ẩn và một lớp đầu ra.
Lớp đầu vào chứa hai nút, một nút chứa giá trị 0,92 và nút còn lại chứa giá trị 0,56.

Mỗi ví dụ cung cấp các giá trị khác nhau cho vectơ tính năng, vì vậy, vectơ đặc trưng cho ví dụ tiếp theo có thể là:

[0.73, 0.49]

Kỹ thuật tính năng xác định cách biểu thị các tính năng trong vectơ của tính năng. Ví dụ: một tính năng phân loại nhị phân có 5 giá trị có thể được biểu thị bằng mã hoá một lần nhấn. Trong trường hợp này, phần của vectơ tính năng cho một ví dụ cụ thể sẽ bao gồm bốn số 0 và một số 1.0 ở vị trí thứ ba, như sau:

[0.0, 0.0, 1.0, 0.0, 0.0]

Một ví dụ khác, giả sử mô hình của bạn bao gồm ba tính năng:

một tính năng phân loại nhị phân có 5 giá trị có thể có được biểu thị bằng mã hoá một lần; ví dụ: [0.0, 1.0, 0.0, 0.0, 0.0]
một tính năng phân loại nhị phân khác có ba giá trị có thể có được biểu thị bằng phương thức mã hoá một lần; ví dụ: [0.0, 0.0, 1.0]
một đối tượng dấu phẩy động; ví dụ: 8.3.

Trong trường hợp này, vectơ đối tượng cho từng ví dụ sẽ được biểu thị bằng 9 giá trị. Với các giá trị ví dụ trong danh sách trước đó, vectơ tính năng sẽ là:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

lông vũ

Quá trình trích xuất tính năng từ một nguồn đầu vào, chẳng hạn như tài liệu hoặc video và ánh xạ các đối tượng đó thành một vectơ đối tượng.

Một số chuyên gia học máy sử dụng tính năng tạo thành công như một từ đồng nghĩa với kỹ thuật tính năng hoặc trích xuất tính năng.

học liên kết

Là một phương pháp học máy phân tán giúp đào tạo mô hình học máy bằng cách sử dụng ví dụ phi tập trung cư trú trên các thiết bị như điện thoại thông minh. Trong phương pháp học liên kết, một tập hợp con các thiết bị sẽ tải mô hình hiện tại xuống từ máy chủ điều phối trung tâm. Các thiết bị sử dụng ví dụ được lưu trữ trên thiết bị để cải thiện mô hình. Sau đó, các thiết bị sẽ tải các nội dung cải tiến của mô hình (chứ không phải ví dụ huấn luyện) lên máy chủ điều phối. Tại đây, các nội dung đó được tổng hợp với các nội dung cập nhật khác để tạo ra mô hình toàn cầu được cải thiện. Sau khi tổng hợp, các bản cập nhật mô hình do thiết bị tính toán không còn cần thiết nữa và có thể bị loại bỏ.

Vì các ví dụ huấn luyện không bao giờ được tải lên, nên phương pháp học liên kết tuân theo các nguyên tắc về quyền riêng tư trong đó tập trung vào việc thu thập dữ liệu và giảm thiểu tối đa việc thu thập dữ liệu.

Để biết thêm thông tin về phương pháp học liên kết, hãy xem hướng dẫn này.

vòng hồi tiếp

#fundamentals

Trong công nghệ học máy, một tình huống trong đó thông tin dự đoán của một mô hình sẽ ảnh hưởng đến dữ liệu huấn luyện cho cùng một mô hình hoặc một mô hình khác. Ví dụ: một mô hình đề xuất phim sẽ tác động đến các phim mà mọi người xem, sau đó sẽ ảnh hưởng đến các mô hình đề xuất phim tiếp theo.

mạng nơron chuyển tiếp nguồn cấp dữ liệu (FFN)

Mạng nơron không có kết nối tuần hoàn hoặc đệ quy. Ví dụ: mạng nơron sâu truyền thống là mạng nơron chuyển tiếp nguồn cấp dữ liệu. Trái ngược với mạng nơron định kỳ, mạng theo chu kỳ.

học trong vài bước

Phương pháp học máy, thường dùng để phân loại đối tượng, được thiết kế để huấn luyện các thuật toán phân loại hiệu quả chỉ dựa trên một số ít ví dụ huấn luyện.

Hãy xem thêm về mô hình học một lần và mô hình học tự động.

nhắc sau một vài lần

#language

#AI tạo sinh

Một lời nhắc chứa nhiều ví dụ (một "nhiều") ví dụ minh hoạ cách mô hình ngôn ngữ lớn sẽ phản hồi. Ví dụ: câu lệnh dài sau đây chứa hai ví dụ minh hoạ một mô hình ngôn ngữ lớn về cách trả lời một truy vấn.

Các thành phần trong một câu lệnh	Ghi chú
`Đơn vị tiền tệ chính thức của quốc gia được chỉ định là gì?`	Câu hỏi mà bạn muốn LLM trả lời.
`Pháp: EUR`	Một ví dụ.
`Vương quốc Anh: GBP`	Một ví dụ khác.
`Ấn Độ:`	Truy vấn thực tế.

Yêu cầu nhắc nhanh một lần thường mang lại kết quả mong muốn hơn so với lời nhắc một lần và lời nhắc một lần. Tuy nhiên, lời nhắc chỉ cần thực hiện vài lần sẽ yêu cầu lời nhắc dài hơn.

Lời nhắc trong vài lần thực hiện là một hình thức học vài lần áp dụng cho hình thức học qua câu lệnh.

Đàn vĩ cầm

#language

Thư viện cấu hình ưu tiên Python đặt giá trị của các hàm và lớp mà không cần mã hoặc cơ sở hạ tầng xâm phạm. Trong trường hợp Pax và các cơ sở mã học máy khác, các hàm và lớp này đại diện cho mô hình và huấn luyện siêu tham số.

Fiddle giả định rằng cơ sở mã học máy thường được chia thành:

Mã thư viện, xác định các lớp và trình tối ưu hoá.
Mã "keo" tập dữ liệu có chức năng gọi các thư viện và liên kết mọi thứ với nhau.

Fiddle ghi lại cấu trúc lệnh gọi của mã kết nối ở dạng chưa được đánh giá và có thể thay đổi.

tinh chỉnh

#language

#image

#AI tạo sinh

Lượt huấn luyện thứ hai, dành riêng cho từng tác vụ được thực hiện trên một mô hình luyện sẵn để tinh chỉnh các tham số cho một trường hợp sử dụng cụ thể. Ví dụ: trình tự huấn luyện đầy đủ cho một số mô hình ngôn ngữ lớn như sau:

Đào tạo trước: Đào tạo một mô hình ngôn ngữ lớn trên một tập dữ liệu chung rộng lớn, chẳng hạn như tất cả các trang Wikipedia bằng tiếng Anh.
Tinh chỉnh: Huấn luyện mô hình đã được huấn luyện trước để thực hiện một tác vụ cụ thể, chẳng hạn như phản hồi các truy vấn y tế. Việc tinh chỉnh thường bao gồm hàng trăm hoặc hàng nghìn ví dụ tập trung vào tác vụ cụ thể.

Một ví dụ khác về trình tự huấn luyện đầy đủ cho một mô hình hình ảnh lớn như sau:

Đào tạo trước: Đào tạo một mô hình hình ảnh lớn trên một tập dữ liệu hình ảnh chung rộng lớn, chẳng hạn như tất cả hình ảnh trong Wikimedia commons.
Tinh chỉnh: Huấn luyện mô hình được huấn luyện trước để thực hiện một tác vụ cụ thể, chẳng hạn như tạo hình ảnh cá voi sát thủ.

Việc tinh chỉnh có thể đòi hỏi bất kỳ tổ hợp nào của các chiến lược sau:

Sửa đổi tất cả tham số hiện có của mô hình luyện sẵn. Quá trình này đôi khi được gọi là tinh chỉnh đầy đủ.
Chỉ sửa đổi một số tham số hiện có của mô hình luyện sẵn (thường là các lớp gần nhất với lớp đầu ra), trong khi giữ nguyên các tham số hiện có khác (thường là các lớp gần nhất với lớp đầu vào). Xem phần điều chỉnh hiệu quả tham số.
Thêm các lớp khác, thường là ở trên các lớp hiện có gần với lớp đầu ra nhất.

Tinh chỉnh là một hình thức học tập chuyển giao. Do đó, tính năng tinh chỉnh có thể sử dụng một hàm tổn hao khác hoặc một loại mô hình khác với các hàm dùng để huấn luyện mô hình được huấn luyện trước. Ví dụ: bạn có thể tinh chỉnh một mô hình hình ảnh lớn đã được huấn luyện trước để tạo một mô hình hồi quy trả về số lượng chim trong một hình ảnh đầu vào.

So sánh và đối chiếu tính năng tinh chỉnh với các thuật ngữ sau:

chưng cất
học tập theo câu lệnh

Cây lanh

#language

Một thư viện nguồn mở hiệu suất cao dành cho hoạt động học sâu, được xây dựng dựa trên JAX. Flax cung cấp các hàm để huấn luyện mạng nơron, cũng như phương pháp để đánh giá hiệu suất.

Vải lanh

#language

Thư viện Transformer nguồn mở, xây dựng dựa trên Flax, được thiết kế chủ yếu cho việc xử lý ngôn ngữ tự nhiên và nghiên cứu đa phương thức.

bỏ qua cổng

#seq

Phần của ô Bộ nhớ ngắn hạn điều chỉnh luồng thông tin qua ô. Các cổng bỏ qua sẽ duy trì ngữ cảnh bằng cách quyết định thông tin cần loại bỏ khỏi trạng thái ô.

Softmax đầy đủ

Từ đồng nghĩa với softmax.

Trái ngược với chế độ lấy mẫu đề xuất.

lớp liên kết toàn bộ

Một lớp ẩn trong đó mỗi nút được kết nối với mọi nút trong lớp ẩn tiếp theo.

Lớp được kết nối đầy đủ còn được gọi là lớp dày đặc.

phép biến đổi hàm

Một hàm nhận một hàm làm dữ liệu đầu vào và trả về một hàm đã chuyển đổi làm đầu ra. JAX sử dụng các phép biến đổi hàm.

G

BB

Từ viết tắt của mạng đối nghịch tạo sinh.

tổng quát hoá

#fundamentals

Khả năng đưa ra dự đoán chính xác của mô hình đối với dữ liệu mới chưa từng thấy trước đây. Mô hình có thể tổng quát hoá là mô hình ngược lại với mô hình tập hợp quá mức.

Hãy nhấp vào biểu tượng để xem thêm ghi chú.

Bạn huấn luyện một mô hình dựa trên các ví dụ trong tập huấn luyện. Do đó, mô hình này sẽ tìm hiểu các đặc điểm của dữ liệu trong tập huấn luyện. Tổng quát hoá sẽ hỏi liệu mô hình của bạn có thể đưa ra dự đoán chính xác trên các ví dụ không có trong tập huấn luyện hay không.

Để khuyến khích việc tổng quát hoá, việc chuẩn hoá sẽ giúp một mô hình huấn luyện ít chính xác hơn theo các đặc điểm của dữ liệu trong tập huấn luyện.

đường cong tổng quát

#fundamentals

Biểu đồ về cả số lần bị mất trong quá trình huấn luyện và mất tính xác thực dưới dạng hàm của số lượng số lần lặp lại.

Đường cong tổng quát hoá có thể giúp bạn phát hiện vấn đề quá mức có thể xảy ra. Ví dụ: đường cong tổng quát sau đây cho thấy việc điều chỉnh quá mức vì tỷ lệ mất xác thực cuối cùng trở nên cao hơn đáng kể so với tổn thất trong quá trình huấn luyện.

Một đồ thị Descartes, trong đó trục y được gắn nhãn là mất và trục x được gắn nhãn là lặp lại. 2 ô sẽ xuất hiện. Một biểu đồ cho thấy tổn thất trong quá trình huấn luyện và biểu đồ còn lại cho thấy tổn thất về mặt xác thực.
Hai biểu đồ có khởi đầu tương tự nhau, nhưng tổn thất trong quá trình huấn luyện cuối cùng giảm xuống thấp hơn nhiều so với số lượng mất mát xác thực.

mô hình tuyến tính tổng quát

Khái quát các mô hình hồi quy ít bình phương nhất, dựa trên độ nhiễu Gaussian, sang các loại mô hình khác dựa trên các loại nhiễu khác, chẳng hạn như độ nhiễu Poisson hoặc nhiễu phân loại. Ví dụ về mô hình tuyến tính tổng quát:

hồi quy logistic
hồi quy nhiều lớp
hồi quy bình phương tối thiểu

Bạn có thể tìm thấy các tham số của mô hình tuyến tính tổng quát thông qua tính năng tối ưu hoá lồi.

Mô hình tuyến tính tổng quát có các tính chất sau:

Thông tin dự đoán trung bình của mô hình hồi quy bình phương tối thiểu tối ưu bằng với nhãn trung bình của dữ liệu huấn luyện.
Xác suất trung bình được mô hình hồi quy logistic tối ưu dự đoán bằng với nhãn trung bình trên dữ liệu huấn luyện.

Luỹ thừa của mô hình tuyến tính tổng quát bị giới hạn bởi các đặc điểm của nó. Không giống như mô hình sâu, mô hình tuyến tính tổng quát không thể "học các tính năng mới".

mạng đối nghịch tạo sinh (GAN)

Một hệ thống để tạo dữ liệu mới, trong đó trình tạo sẽ tạo dữ liệu và một phân biệt đối xử sẽ xác định liệu dữ liệu đã tạo đó hợp lệ hay không hợp lệ.

AI tạo sinh

#language

#image

#AI tạo sinh

Một trường biến đổi mới nổi chưa có định nghĩa chính thức. Tuy nhiên, hầu hết các chuyên gia đều đồng ý rằng mô hình AI tạo sinh có thể tạo ra nội dung đáp ứng tất cả những điều sau:

phức tạp
mạch lạc
gốc

Ví dụ: Một mô hình AI tạo sinh có thể tạo các bài tiểu luận hoặc hình ảnh phức tạp.

Một số công nghệ trước đây, bao gồm cả LSTM và RNN, cũng có thể tạo nội dung nguyên gốc và nhất quán. Một số chuyên gia xem những công nghệ cũ này là AI tạo sinh, trong khi một số khác cho rằng AI tạo sinh thực sự đòi hỏi đầu ra phức tạp hơn so với những công nghệ trước đó có thể tạo ra.

Trái ngược với công nghệ học máy dự đoán.

mô hình tạo sinh

Trên thực tế, đây là một mô hình thực hiện những việc sau:

Tạo (tạo) các ví dụ mới từ tập dữ liệu huấn luyện. Ví dụ: một mô hình tạo sinh có thể tạo thơ sau khi huấn luyện trên một tập dữ liệu bài thơ. Phần trình tạo của mạng đối nghịch tạo sinh sẽ thuộc danh mục này.
Xác định xác suất mà một ví dụ mới xuất phát từ tập huấn luyện hoặc được tạo từ cùng một cơ chế đã tạo tập huấn luyện. Ví dụ: sau khi huấn luyện trên một tập dữ liệu gồm các câu tiếng Anh, mô hình tạo sinh có thể xác định xác suất dữ liệu nhập mới là một câu tiếng Anh hợp lệ.

Về mặt lý thuyết, mô hình tạo sinh có thể phân biệt các ví dụ hoặc tính năng cụ thể trong một tập dữ liệu. Đó là:

p(examples)

Mô hình học tập không giám sát là mô hình tạo sinh.

Trái ngược với mô hình phân biệt đối xử.

trình tạo

Hệ thống con trong một mạng đối nghịch tạo sinh giúp tạo ví dụ mới.

Trái ngược với mô hình phân biệt đối xử.

tạp chất gini

#df

Một chỉ số tương tự như entropy. Bộ phân tách sử dụng các giá trị bắt nguồn từ tạp chất gini hoặc entropy để lập điều kiện nhằm phân loại cây quyết định. Mức thu thập thông tin được lấy từ entropy. Không có thuật ngữ tương đương nào được chấp nhận trên toàn cầu cho chỉ số bắt nguồn từ tạp chất gini; tuy nhiên, chỉ số chưa được đặt tên này cũng quan trọng như việc thu thập thông tin.

Tạp chất Gini còn được gọi là chỉ số gini hoặc đơn giản là gini.

Nhấp vào biểu tượng để xem chi tiết toán học về tạp chất gini.

Tạp chất Gini là xác suất phân loại sai một phần dữ liệu mới lấy từ cùng một sự phân phối. Tạp chất gini của một tập hợp có hai giá trị có thể có là "0" và "1" (ví dụ: nhãn trong bài toán phân loại nhị phân) được tính theo công thức sau:

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

trong đó:

I là tạp chất gini.
p là tỷ lệ phần trăm của ví dụ "1".
q là phân số của "0". Lưu ý rằng q = 1-p

Ví dụ: hãy xem xét tập dữ liệu sau:

100 nhãn (0,25 của tập dữ liệu) chứa giá trị "1"
300 nhãn (0,75 của tập dữ liệu) chứa giá trị "0"

Do đó, tạp chất gini là:

p = 0,25
q = 0,75
I = 1 - (0,25² + 0,75²) = 0,375

Do đó, một nhãn ngẫu nhiên từ cùng một tập dữ liệu sẽ có 37,5% cơ hội bị phân loại sai và 62,5% cơ hội được phân loại đúng.

Một nhãn cân bằng hoàn toàn (ví dụ: 200 "0" và 200 "1") sẽ có độ tạp chất gini là 0, 5. Một nhãn không cân bằng sẽ có độ không tinh khiết gini gần bằng 0.0.

tập dữ liệu vàng

Một nhóm dữ liệu được tuyển chọn theo cách thủ công để thu thập thông tin thực tế. Các nhóm có thể sử dụng một hoặc nhiều tập dữ liệu vàng để đánh giá chất lượng của mô hình.

Một số tập dữ liệu vàng ghi lại các miền con khác nhau của dữ liệu thực tế. Ví dụ: một tập dữ liệu vàng để phân loại hình ảnh có thể ghi lại các điều kiện ánh sáng và độ phân giải của hình ảnh.

GPT (Trình biến đổi được huấn luyện trước)

#language

Một nhóm mô hình ngôn ngữ lớn dựa trên Transformer do OpenAI phát triển.

Các biến thể GPT có thể áp dụng cho nhiều phương thức, bao gồm:

tạo hình ảnh (ví dụ: ImageGPT)
tạo văn bản với hình ảnh (ví dụ: DALL-E).

chuyển màu

Vectơ của các đạo hàm một phần đối với tất cả các biến độc lập. Trong công nghệ học máy, độ dốc là vectơ của các đạo hàm riêng của hàm mô hình. Độ dốc trỏ theo hướng đi lên dốc nhất.

tích luỹ chuyển màu

Kỹ thuật truyền ngược chỉ cập nhật tham số một lần cho mỗi khoảng thời gian bắt đầu của hệ thống thay vì một lần cho mỗi vòng lặp. Sau khi xử lý mỗi gói nhỏ, tính năng tích luỹ độ dốc chỉ cập nhật tổng số độ dốc đang chạy. Tiếp đến, sau khi xử lý lô nhỏ cuối cùng trong thời gian bắt đầu của hệ thống, cuối cùng hệ thống sẽ cập nhật các tham số dựa trên tổng số lần thay đổi độ dốc.

Việc tích luỹ độ dốc rất hữu ích khi kích thước lô quá lớn so với dung lượng bộ nhớ còn trống để huấn luyện. Khi bộ nhớ gặp vấn đề, xu hướng tự nhiên là giảm kích thước lô. Tuy nhiên, việc giảm kích thước lô trong quy trình truyền ngược thông thường sẽ làm tăng số lần cập nhật tham số. Việc tích luỹ chuyển dần giúp mô hình này tránh được các vấn đề về bộ nhớ nhưng vẫn huấn luyện hiệu quả.

cây tăng độ dốc (quyết định) (GBT)

#df

Một loại rừng quyết định trong đó:

Huấn luyện dựa trên tính năng tăng độ chuyển màu.
Mô hình yếu là cây quyết định.

tăng độ chuyển màu

#df

Thuật toán huấn luyện trong đó các mô hình yếu được huấn luyện để cải thiện chất lượng (giảm tình trạng hao tổn) của mô hình mạnh bằng cách lặp lại. Ví dụ: mô hình yếu có thể là mô hình cây quyết định tuyến tính hoặc mô hình cây quyết định nhỏ. Mô hình mạnh trở thành tổng của tất cả mô hình yếu đã huấn luyện trước đó.

Ở hình thức tăng độ dốc đơn giản nhất, ở mỗi lần lặp lại, một mô hình yếu sẽ được huấn luyện để dự đoán độ dốc bị mất của mô hình mạnh. Sau đó, kết quả của mô hình mạnh được cập nhật bằng cách trừ đi độ dốc theo dự đoán, tương tự như giảm xuống chuyển màu.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

trong đó:

$F_{0}$ là mô hình mạnh mẽ khởi đầu.
$F_{i+1}$ là mô hình mạnh mẽ tiếp theo.
$F_{i}$ là mô hình mạnh hiện tại.
$\xi$ là một giá trị nằm trong khoảng từ 0 đến 1,0 được gọi là shrinkage, tương tự như tốc độ học tập trong phương pháp giảm độ dốc.
$f_{i}$ là mô hình yếu được huấn luyện để dự đoán độ dốc của $F_{i}$.

Các biến thể hiện đại của việc tăng độ dốc cũng bao gồm đạo hàm cấp hai (Hessian) của độ mất trong phép tính.

Cây quyết định thường được dùng làm mô hình yếu trong việc tăng cường độ dốc. Hãy xem cây tăng độ dốc (quyết định).

cắt độ dốc

#seq

Một cơ chế thường dùng để giảm thiểu vấn đề về chuyển màu phát nổ bằng cách giới hạn (cắt) giá trị tối đa của độ dốc một cách giả tạo khi sử dụng tính năng giảm độ chuyển màu để huấn luyện một mô hình.

phương thức giảm độ dốc

#fundamentals

Một kỹ thuật toán học để giảm thiểu tình trạng mất. Phương pháp giảm độ dốc chuyển dần theo cách lặp lại điều chỉnh trọng số và độ lệch, dần tìm ra kết hợp phù hợp nhất để giảm thiểu tình trạng mất mát.

Phương pháp giảm dần độ dốc sẽ cũ hơn nhiều so với công nghệ học máy.

đồ thị

#TensorFlow

Trong TensorFlow, một thông số kỹ thuật tính toán. Các nút trong biểu đồ đại diện cho các hoạt động. Các cạnh được định hướng và biểu thị việc truyền kết quả của một thao tác (Tensor) dưới dạng một toán tử và đến một thao tác khác. Sử dụng TensorBoard để trực quan hoá biểu đồ.

thực thi biểu đồ

#TensorFlow

Là môi trường lập trình TensorFlow, trong đó chương trình tạo biểu đồ trước tiên, sau đó thực thi toàn bộ hoặc một phần biểu đồ đó. Thực thi biểu đồ là chế độ thực thi mặc định trong TensorFlow 1.x.

Trái ngược với thực thi eager (thực thi eager).

chính sách tham lam

#rl

Trong mô hình học tăng cường, một chính sách luôn chọn hành động có trả về dự kiến cao nhất.

thông tin thực tế

#fundamentals

Thực tế.

Sự việc đã xảy ra trên thực tế.

Ví dụ: hãy xem xét mô hình phân loại nhị phân dự đoán liệu một sinh viên trong năm thứ nhất đại học có tốt nghiệp trong vòng 6 năm hay không. Nền tảng của mô hình này là liệu sinh viên đó có thực sự tốt nghiệp trong vòng 6 năm hay không.

Hãy nhấp vào biểu tượng để xem thêm ghi chú.

Chúng tôi đánh giá chất lượng mô hình dựa trên dữ kiện thực tế. Tuy nhiên, dữ kiện thực tế không phải lúc nào cũng hoàn toàn, tốt, trung thực. Ví dụ: hãy xem xét các ví dụ sau đây về các khiếm khuyết có thể xảy ra trong dữ liệu thực tế:

Trong ví dụ tốt nghiệp, chúng tôi có chắc chắn rằng hồ sơ tốt nghiệp của từng học viên luôn chính xác không? Quy trình lưu giữ hồ sơ của trường đại học này có hoàn hảo không?
Giả sử nhãn là một giá trị dấu phẩy động được đo bằng các dụng cụ (ví dụ: khí áp kế). Làm cách nào để chúng tôi đảm bảo rằng mỗi công cụ được hiệu chuẩn giống nhau hoặc mỗi kết quả đo được thực hiện trong cùng một trường hợp?
Nếu nhãn là vấn đề theo quan điểm của con người, làm cách nào để chúng tôi đảm bảo rằng mỗi người đánh giá đều đang đánh giá các sự kiện theo cùng một cách? Để cải thiện tính nhất quán, đôi khi, nhân viên đánh giá chuyên gia sẽ can thiệp.

thiên kiến phân bổ nhóm

#fairness

Giả sử những gì đúng đối với một cá nhân thì cũng đúng với mọi người trong nhóm đó. Nếu bạn sử dụng phương pháp lấy mẫu sự thuận tiện để thu thập dữ liệu, thì tác động của thiên kiến trong mô hình phân bổ theo nhóm có thể trở nên nghiêm trọng hơn. Trong mẫu không đại diện, các thuộc tính có thể được thực hiện không phản ánh thực tế.

Hãy xem thêm thiên về tính đồng nhất ngoài nhóm và thiên vị trong nhóm.

Số lần bị đánh trúng bóng

ảo tưởng

#language

Việc tạo ra kết quả có vẻ hợp lý nhưng thực tế không chính xác bằng mô hình AI tạo sinh giả vờ đưa ra một nhận định về thế giới thực. Ví dụ: một mô hình AI tạo sinh tuyên bố rằng Barack Obama qua đời năm 1865 là ảo giác.

băm

Trong công nghệ học máy, cơ chế phân nhóm dữ liệu phân loại, đặc biệt là khi số lượng danh mục lớn, nhưng số lượng danh mục thực sự xuất hiện trong tập dữ liệu là tương đối ít.

Ví dụ, Trái Đất là ngôi nhà của khoảng 73.000 loài cây. Bạn có thể đại diện cho từng trong số 73.000 loài cây trong 73.000 nhóm phân loại riêng biệt. Ngoài ra, nếu chỉ có 200 loài cây đó thực sự xuất hiện trong một tập dữ liệu, thì bạn có thể sử dụng hàm băm để chia các loài cây thành khoảng 500 nhóm.

Một nhóm có thể chứa nhiều loài cây. Ví dụ: hàm băm có thể đặt baobab và phong đỏ (hai loài không giống nhau về mặt di truyền) vào cùng một bộ chứa. Dù vậy, hàm băm vẫn là một cách hiệu quả để liên kết các tập hợp phân loại lớn vào số lượng nhóm đã chọn. Hàm băm biến một tính năng phân loại có nhiều giá trị có thể có thành một số lượng giá trị nhỏ hơn nhiều bằng cách nhóm các giá trị theo cách xác định.

phỏng đoán

Một giải pháp đơn giản và được triển khai nhanh chóng cho một vấn đề. Ví dụ: "Với phương pháp phỏng đoán, chúng tôi đã đạt được độ chính xác 86%. Khi chúng tôi chuyển sang sử dụng mạng nơron sâu, độ chính xác tăng lên 98%."

lớp ẩn

#fundamentals

Một lớp trong mạng nơron giữa lớp đầu vào (tính năng) và lớp đầu ra (nội dung dự đoán). Mỗi lớp ẩn bao gồm một hoặc nhiều tế bào thần kinh. Ví dụ: mạng nơron sau đây chứa 2 lớp ẩn, lớp thứ nhất có 3 nơron và lớp thứ hai có 2 nơron:

Một mạng nơron sâu chứa nhiều lớp ẩn. Ví dụ: hình minh hoạ trước là một mạng nơron sâu vì mô hình này chứa 2 lớp ẩn.

phân cụm phân cấp

#clustering

Một danh mục thuật toán trùng lặp để tạo cây cụm. Việc phân cụm theo thứ bậc rất phù hợp với dữ liệu phân cấp, chẳng hạn như hệ thống phân loại thực vật. Có hai loại thuật toán phân cụm phân cấp:

Phân cụm tổng hợp trước tiên sẽ chỉ định mọi ví dụ cho cụm riêng của nó rồi hợp nhất lặp lại các cụm gần nhất để tạo một cây phân cấp.
Phân cụm phân chia trước tiên sẽ nhóm tất cả các ví dụ vào một cụm, sau đó chia liên tục cụm vào một cây phân cấp.

Ngược với tính năng phân cụm dựa trên trọng tâm.

tổn thất bản lề

Nhóm hàm mất để phân loại được thiết kế nhằm tìm ra ranh giới quyết định càng xa càng tốt với mỗi ví dụ huấn luyện, nhờ đó tối đa hoá khoảng cách giữa các ví dụ và ranh giới. KSVM sử dụng chức năng mất bản lề (hoặc một hàm có liên quan, chẳng hạn như mất bản lề vuông). Đối với phân loại nhị phân, hàm mất bản lề được định nghĩa như sau:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

trong đó y là nhãn thực, -1 hoặc +1 và y' là đầu ra thô của mô hình thuật toán phân loại:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Do đó, biểu đồ tổn thất bản lề so với (y * y') sẽ như sau:

Một đồ thị Descartes bao gồm hai đoạn thẳng nối với nhau. Đoạn thẳng đầu tiên bắt đầu từ (-3, 4) và kết thúc ở (1, 0). Đoạn đường thứ hai bắt đầu tại (1, 0) và tiếp tục vô thời hạn với độ dốc bằng 0.

thiên kiến lịch sử

#fairness

Một loại thành kiến đã tồn tại trên thế giới và đã xuất hiện trong tập dữ liệu. Những thiên kiến này có xu hướng phản ánh các định kiến văn hoá, bất bình đẳng nhân khẩu học và định kiến hiện có đối với một số nhóm xã hội nhất định.

Ví dụ: hãy xem xét một mô hình phân loại dự đoán liệu người đăng ký vay có bị vỡ nợ hay không. Mô hình này được huấn luyện dựa trên dữ liệu về mặc định cho vay trong quá khứ từ những năm 1980 do các ngân hàng địa phương thuộc 2 cộng đồng khác nhau cung cấp. Nếu những người đăng ký trước đây từ Cộng đồng A có khả năng không vay được nhiều hơn 6 lần so với những người đăng ký từ Cộng đồng B, thì mô hình này có thể gặp phải sai lệch trong quá khứ. Do đó, mô hình này ít có khả năng phê duyệt các khoản vay trong Cộng đồng A hơn, ngay cả khi các điều kiện trong quá khứ dẫn đến tỷ lệ mặc định cao hơn của cộng đồng đó không còn phù hợp nữa.

dữ liệu không lưu trữ

Ví dụ cố tình không được sử dụng ("giữ lại") trong quá trình huấn luyện. Tập dữ liệu xác thực và tập dữ liệu kiểm thử là ví dụ về dữ liệu giữ lại. Dữ liệu giữ lại giúp đánh giá khả năng tổng quát hoá của mô hình thành dữ liệu khác với dữ liệu mà mô hình đó được huấn luyện. Tổn thất trên tập dữ liệu tạm ngưng cung cấp dữ liệu ước tính chính xác hơn về tổn thất trên tập dữ liệu không nhìn thấy so với tổn thất trên tập dữ liệu huấn luyện.

người tổ chức

#TensorFlow

#GoogleCloud

Khi huấn luyện một mô hình học máy trên khối tăng tốc (GPU hoặc TPU), phần của hệ thống kiểm soát cả hai nội dung sau:

Quy trình chung của mã.
Trích xuất và chuyển đổi quy trình đầu vào.

Máy chủ lưu trữ thường chạy trên CPU chứ không chạy trên chip tăng tốc; thiết bị thao tác trên tensor trên chip tăng tốc.

siêu tham số

#fundamentals

Các biến mà bạn hoặc dịch vụ điều chỉnh siêu tham sốsẽ điều chỉnh trong các lần chạy huấn luyện mô hình liên tiếp. Ví dụ: tốc độ học tập là một siêu tham số. Bạn có thể đặt tốc độ học là 0,01 trước một phiên đào tạo. Nếu xác định rằng 0,01 là quá cao, có thể bạn có thể đặt tốc độ học thành 0,003 cho lần huấn luyện tiếp theo.

Ngược lại, tham số là các trọng số và độ lệch mà mô hình học trong quá trình huấn luyện.

siêu mặt phẳng

Ranh giới phân tách một không gian thành hai không gian con. Ví dụ: đường thẳng là siêu mặt phẳng trong hai chiều và một mặt phẳng là siêu mặt phẳng trong không gian ba chiều. Thường thì trong công nghệ học máy, siêu mặt phẳng là ranh giới phân tách một không gian có chiều cao. Máy vectơ hỗ trợ hạt nhân sử dụng siêu mặt phẳng để tách lớp dương khỏi lớp âm, thường là trong không gian có nhiều chiều.

I

phân phối độc lập và đồng nhất

Từ viết tắt của được phân phối độc lập và đồng nhất.

nhận dạng hình ảnh

#image

Một quy trình phân loại (các) đối tượng, mẫu hoặc khái niệm trong một hình ảnh. Tính năng nhận dạng hình ảnh còn được gọi là phân loại hình ảnh.

Để biết thêm thông tin, hãy xem Thực hành học máy: Phân loại hình ảnh.

tập dữ liệu không cân bằng

Từ đồng nghĩa với tập dữ liệu không cân bằng lớp.

thiên kiến ngầm

#fairness

Tự động tạo ra một mối liên kết hoặc giả định dựa trên mô hình tư duy và kỷ niệm của mỗi người. Thành kiến ngầm có thể ảnh hưởng đến những điều sau:

Cách thu thập và phân loại dữ liệu.
Cách các hệ thống học máy được thiết kế và phát triển.

Ví dụ: khi xây dựng một thuật toán phân loại để xác định ảnh cưới, một kỹ sư có thể sử dụng sự hiện diện của chiếc váy màu trắng trong ảnh làm tính năng. Tuy nhiên, váy trắng chỉ thường có trong một số thời đại và trong một số nền văn hoá nhất định.

Xem thêm bài viết thiên vị xác nhận.

cắt bỏ

Dạng thức ngắn của việc áp dụng giá trị.

không tương thích của các chỉ số về tính công bằng

#fairness

Ý tưởng cho rằng một số khái niệm về sự công bằng không tương thích lẫn nhau và không thể được thoả mãn đồng thời. Do đó, không có một chỉ số chung nào có thể áp dụng cho mọi bài toán về học máy để định lượng tính công bằng.

Mặc dù điều này nghe có vẻ không khuyến khích, nhưng sự không tương thích của các chỉ số về tính công bằng không có nghĩa là các nỗ lực về sự công bằng là không có kết quả. Thay vào đó, hệ thống này đề xuất rằng tính công bằng phải được định nghĩa theo ngữ cảnh cho một vấn đề nhất định về học máy, nhằm mục tiêu ngăn chặn các thiệt hại cụ thể cho những trường hợp sử dụng của vấn đề đó.

Hãy xem bài viết "Về khả năng (không) của sự công bằng" để biết nội dung thảo luận chi tiết hơn về chủ đề này.

học theo ngữ cảnh

#language

#AI tạo sinh

Từ đồng nghĩa với lời nhắc vài lần.

phân phối độc lập và đồng nhất (i.i.d)

#fundamentals

Dữ liệu được vẽ từ một phân phối không thay đổi, và trong đó mỗi giá trị được vẽ không phụ thuộc vào các giá trị đã được vẽ trước đó. Ví dụ i là khí lý tưởng của công nghệ học máy – một cấu trúc toán học hữu ích nhưng hầu như không được tìm thấy chính xác trong thế giới thực. Ví dụ: việc phân phối khách truy cập vào một trang web có thể là cố định trong một khoảng thời gian ngắn; nghĩa là sự phân phối này không thay đổi trong khoảng thời gian ngắn đó và lượt truy cập của một người thường độc lập với lượt truy cập của người khác. Tuy nhiên, nếu bạn mở rộng khoảng thời gian đó, thì những khác biệt theo mùa về lượng khách truy cập trang web có thể xuất hiện.

Xem thêm về tính không cố định.

tính công bằng của cá nhân

#fairness

Chỉ số về tính công bằng giúp kiểm tra xem các cá nhân tương tự có được phân loại theo cách tương tự nhau hay không. Ví dụ: Học viện Brobdingnagian có thể muốn đáp ứng sự công bằng cho từng cá nhân bằng cách đảm bảo rằng hai học sinh có điểm giống nhau và điểm kiểm tra chuẩn hoá có khả năng được nhập học như nhau.

Xin lưu ý rằng tính công bằng của từng cá nhân hoàn toàn phụ thuộc vào cách bạn xác định "mức độ tương đồng" (trong trường hợp này là điểm và điểm kiểm tra). Đồng thời, bạn có thể có nguy cơ đưa ra các vấn đề mới về tính công bằng nếu chỉ số tương đồng của bạn bỏ lỡ các thông tin quan trọng (chẳng hạn như tính nghiêm ngặt trong chương trình học của học viên).

Hãy xem bài viết "Sự công bằng thông qua nhận thức" để biết nội dung thảo luận chi tiết hơn về sự công bằng cá nhân.

suy luận

#fundamentals

Trong công nghệ học máy, quá trình đưa ra thông tin dự đoán bằng cách áp dụng một mô hình đã huấn luyện cho các ví dụ không có nhãn.

Suy luận có ý nghĩa hơi khác trong số liệu thống kê. Vui lòng xem Bài viết trên Wikipedia về suy luận thống kê để biết thông tin chi tiết.

đường dẫn suy luận

#df

Trong cây quyết định, trong quá trình dự đoán, tuyến mà một ví dụ cụ thể sẽ lấy từ gốc đến các điều kiện khác, kết thúc bằng lá. Ví dụ: trong cây quyết định sau, các mũi tên dày hơn hiển thị đường dẫn dự đoán cho một ví dụ với các giá trị tính năng sau:

x = 7
y = 12
z = -3

Lộ trình dự đoán trong hình minh hoạ sau đây trải qua 3 điều kiện trước khi đến lá (Zeta).

Một cây quyết định bao gồm 4 điều kiện và 5 lá.
Điều kiện gốc là (x > 0). Vì câu trả lời là Có, đường dẫn suy luận sẽ đi từ điều kiện gốc đến điều kiện tiếp theo (y > 0).
Vì câu trả lời là Có, đường dẫn suy luận sẽ chuyển đến điều kiện tiếp theo (z > 0). Vì câu trả lời là Không, đường dẫn dự đoán sẽ chuyển đến nút cuối là lá (Zeta).

Ba mũi tên dày cho thấy đường dẫn suy luận.

mức thu thông tin

#df

Trong rừng quyết định, sự khác biệt giữa entropy của một nút và tổng entropy có trọng số (theo số lượng ví dụ) của entropy của các nút con. Entropy của một nút là entropy của các ví dụ trong nút đó.

Ví dụ: hãy xem xét các giá trị entropy sau:

entropy của nút mẹ = 0,6
entropy của một nút con với 16 ví dụ liên quan = 0,2
entropy của một nút con khác với 24 ví dụ có liên quan = 0,1

Như vậy, 40% số ví dụ nằm ở một nút con và 60% nằm ở nút con khác. Vì thế:

Tổng entropy có trọng số của các nút con = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Vì vậy, thông tin thu thập được là:

mức tăng thông tin = entropy của nút mẹ - tổng entropy có trọng số của các nút con
thông tin thu được = 0,6 – 0,14 = 0,46

Hầu hết các trình phân tách đều tìm cách tạo ra các điều kiện để tăng tối đa khả năng thu thập thông tin.

thiên kiến cùng nhóm

#fairness

Nội dung thể hiện sự không phù hợp với một nhóm người hoặc đặc điểm riêng của một người. Nếu người kiểm thử hoặc người đánh giá có bạn bè, gia đình hoặc đồng nghiệp của nhà phát triển công nghệ học máy, thì sự thiên vị trong nhóm có thể vô hiệu hoá việc kiểm thử sản phẩm hoặc tập dữ liệu.

Thiên vị trong nhóm là một dạng của xu hướng ghi nhận trong nhóm. Xem thêm về thiên vị về tính đồng nhất ngoài nhóm.

trình tạo đầu vào

Cơ chế tải dữ liệu vào mạng nơron.

Bạn có thể coi trình tạo dữ liệu đầu vào là một thành phần chịu trách nhiệm xử lý dữ liệu thô thành các tensor được lặp lại để tạo các lô cho việc huấn luyện, đánh giá và suy luận.

lớp đầu vào

#fundamentals

Lớp của mạng nơron chứa vectơ tính năng. Điều này nghĩa là lớp đầu vào cung cấp ví dụ cho hoạt động huấn luyện hoặc suy luận. Ví dụ: lớp đầu vào trong mạng nơron sau đây bao gồm hai tính năng:

Bốn lớp: lớp đầu vào, hai lớp ẩn và lớp đầu ra.

điều kiện cố định

#df

Trong cây quyết định, một điều kiện sẽ kiểm tra sự hiện diện của một mục trong tập hợp các mục. Ví dụ: sau đây là một điều kiện sẵn có:

  house-style in [tudor, colonial, cape]

Trong quá trình suy luận, nếu giá trị của tính năng kiểu ngôi nhà là tudor hoặc colonial hoặc cape, thì điều kiện này sẽ được đánh giá là Có. Nếu giá trị của tính năng kiểu ngôi nhà là một giá trị khác (ví dụ: ranch), thì điều kiện này sẽ được đánh giá là Không.

Các điều kiện trong tập hợp thường dẫn đến cây quyết định hiệu quả hơn so với các điều kiện kiểm thử các tính năng được mã hoá một nóng.

đối tượng

Từ đồng nghĩa với example.

điều chỉnh hướng dẫn

#AI tạo sinh

Một dạng điều chỉnh tinh chỉnh giúp cải thiện khả năng tuân theo hướng dẫn của mô hình AI tạo sinh. Quá trình điều chỉnh lệnh bao gồm việc huấn luyện một mô hình theo một loạt các câu lệnh hướng dẫn, thường bao gồm nhiều thao tác. Sau đó, mô hình được điều chỉnh theo hướng dẫn thu được sẽ có xu hướng tạo ra các phản hồi hữu ích cho lời nhắc cài đặt tự động trong nhiều tác vụ.

So sánh và đối chiếu với:

điều chỉnh hiệu quả thông số
điều chỉnh lời nhắc

mức độ diễn giải

#fundamentals

Khả năng giải thích hoặc trình bày lý luận của mô hình học máy bằng các cụm từ dễ hiểu.

Ví dụ: hầu hết các mô hình hồi quy tuyến tính đều dễ hiểu. (Bạn chỉ cần xem xét các trọng số được huấn luyện cho mỗi tính năng.) Rừng quyết định cũng có thể diễn giải cao. Tuy nhiên, một số mô hình yêu cầu hình ảnh trực quan phức tạp để có thể diễn giải được.

Bạn có thể sử dụng Công cụ diễn giải học tập (LIT) để diễn giải các mô hình học máy.

mức độ đồng thuận

Chỉ số đo lường tần suất người đánh giá đồng ý khi thực hiện một nhiệm vụ. Nếu người đánh giá không đồng ý thì có thể bạn cần cải thiện phần hướng dẫn nhiệm vụ. Đôi khi còn được gọi là thoả thuận giữa người chú thích hoặc độ tin cậy giữa người xếp hạng. Hãy xem thêm kappa Cohen, một trong những phép đo phổ biến nhất về thoả thuận giữa các bên xếp hạng.

giao điểm qua phần giao nhau (IoU)

#image

Giao điểm của hai tập hợp được chia cho hợp của chúng. Trong các tác vụ phát hiện hình ảnh trong công nghệ học máy, IoU được dùng để đo lường độ chính xác của hộp giới hạn được dự đoán của mô hình đối với hộp giới hạn thực tế. Trong trường hợp này, IoU cho hai hộp là tỷ lệ giữa diện tích chồng chéo và tổng diện tích, đồng thời giá trị của nó dao động từ 0 (không chồng chéo hộp giới hạn dự đoán và hộp giới hạn thực tế) đến 1 (hộp giới hạn dự đoán và hộp giới hạn thực tế có cùng toạ độ).

Ví dụ như trong hình dưới đây:

Hộp giới hạn dự đoán (các toạ độ phân định vị trí của mô hình dự đoán bảng ban đêm trong tranh) được vẽ màu tím.
Hộp giới hạn dữ liệu thực (các toạ độ phân định vị trí thực sự của bảng đêm trong tranh) được vẽ bằng màu xanh lục.

Bức tranh của Van Gogh đã vẽ Phòng ngủ của Vincent ở Arles, với hai
hộp giới hạn khác nhau xung quanh bàn đêm bên cạnh giường. Hộp giới hạn thực tế (màu xanh lục) bao quanh hoàn hảo bàn đêm. Hộp giới hạn dự đoán (màu tím) được bù trừ 50% xuống dưới và ở bên phải hộp giới hạn thực tế; bao gồm một phần tư dưới cùng bên phải của bảng ban đêm, nhưng bỏ lỡ phần còn lại của bảng.

Ở đây, giao điểm của các hộp giới hạn cho việc dự đoán và dữ liệu mặt đất (bên dưới bên trái) là 1, và sự hợp nhất của các hộp giới hạn cho việc dự đoán và dữ liệu mặt đất (ở dưới bên phải) là 7, vì vậy IoU là $\frac{1}{7}$.

Hình ảnh tương tự như trên, nhưng với mỗi hộp giới hạn được chia thành 4 góc phần tư. Tổng cộng có 7 góc phần tư, vì góc phần tư dưới cùng bên phải của hộp giới hạn thực tế và góc phần tư trên cùng bên trái của hộp giới hạn được dự đoán chồng lên nhau. Phần chồng chéo này (được đánh dấu bằng màu xanh lục) đại diện cho giao lộ và có diện tích bằng 1.

IoU

Tên viết tắt của giao lộ trên phần hợp nhất.

ma trận mục

#recsystems

Trong hệ thống đề xuất, một ma trận vectơ nhúng được tạo bằng cách phân tích ma trận chứa các tín hiệu ẩn về từng mục. Mỗi hàng của ma trận mục chứa giá trị của một tính năng ẩn duy nhất cho tất cả các mục. Chẳng hạn, bạn có thể cân nhắc đến một hệ thống đề xuất phim. Mỗi cột trong ma trận mục đại diện cho một bộ phim. Các tín hiệu tiềm ẩn có thể đại diện cho thể loại hoặc có thể là các tín hiệu khó hiểu hơn, liên quan đến những tương tác phức tạp giữa thể loại, ngôi sao, độ tuổi của phim hoặc các yếu tố khác.

Ma trận mục có số lượng cột bằng với ma trận mục tiêu đang được phân tích thành nhân tử. Ví dụ: trong một hệ thống đề xuất phim đánh giá 10.000 tựa phim, ma trận mục sẽ có 10.000 cột.

items

#recsystems

Trong hệ thống đề xuất, các thực thể mà hệ thống đề xuất. Ví dụ: video là các mặt hàng mà cửa hàng video đề xuất, còn sách là các mặt hàng mà cửa hàng sách đề xuất.

lặp lại

#fundamentals

Cập nhật một lần các tham số của mô hình – trọng số và độ lệch của mô hình trong quá trình huấn luyện. Kích thước lô xác định số lượng ví dụ mà mô hình xử lý trong một vòng lặp. Ví dụ: nếu kích thước lô là 20, thì mô hình sẽ xử lý 20 ví dụ trước khi điều chỉnh tham số.

Khi huấn luyện mạng nơron, một lần lặp sẽ bao gồm 2 lượt truyền sau:

Chuyển tiếp để đánh giá tổn thất trong một lô.
Truyền ngược (backpropagation) để điều chỉnh các thông số của mô hình dựa trên tỷ lệ mất mát và tốc độ học.

J

Tiếng JAX

Một thư viện điện toán mảng, kết hợp XLA (Đại số tuyến tính tăng tốc) và tính năng phân biệt tự động để tính toán số hiệu suất cao. JAX cung cấp một API đơn giản và mạnh mẽ để viết mã số tăng tốc với các phép biến đổi có thể kết hợp. JAX cung cấp các tính năng như:

grad (phân biệt tự động)
jit (biên dịch đúng lúc)
vmap (tự động vectơ hoá hoặc tạo lô)
pmap (song song)

JAX là một ngôn ngữ để diễn đạt và kết hợp các phép biến đổi của mã số, tương tự (nhưng có phạm vi lớn hơn nhiều) đối với thư viện NumPy của Python. (Trên thực tế, thư viện .numpy của JAX là một thư viện tương đương về mặt chức năng, nhưng là phiên bản được viết lại hoàn toàn của thư viện Python NumPy.)

JAX đặc biệt phù hợp để tăng tốc nhiều nhiệm vụ học máy bằng cách chuyển đổi các mô hình và dữ liệu thành một dạng phù hợp để chạy song song trên GPU và khối tăng tốc TPU.

Flax, Optax, Pax và nhiều thư viện khác được xây dựng trên cơ sở hạ tầng JAX.

nghìn

Keras

API học máy Python phổ biến. Keras chạy trên một số khung học sâu, bao gồm cả TensorFlow, trong đó TensorFlow được cung cấp dưới dạng tf.keras.

Máy vectơ hỗ trợ hạt nhân (KSVM)

Một thuật toán phân loại tìm cách tối đa hoá khoảng cách giữa các lớp dương và các lớp âm bằng cách ánh xạ các vectơ dữ liệu đầu vào với một không gian thứ nguyên cao hơn. Ví dụ: hãy xem xét một bài toán phân loại, trong đó tập dữ liệu đầu vào có một trăm đối tượng. Để tối đa hoá biên độ giữa các lớp dương và âm, KSVM có thể ánh xạ nội bộ các tính năng đó vào một không gian triệu thứ nguyên. KSVM sử dụng một hàm suy hao có tên là mất bản lề.

điểm chính

#image

Toạ độ của các đối tượng cụ thể trong một hình ảnh. Ví dụ: đối với mô hình nhận dạng hình ảnh giúp phân biệt các loài hoa, điểm chính có thể là tâm của mỗi cánh hoa, thân, nhị hoa, v.v.

xác thực chéo k-fold

Một thuật toán giúp dự đoán khả năng tổng quát hoá đối với dữ liệu mới của một mô hình. k trong gấp k lần đề cập đến số nhóm bằng nhau mà bạn chia các ví dụ của một tập dữ liệu; tức là bạn huấn luyện và kiểm thử mô hình của mình k lần. Đối với mỗi vòng huấn luyện và kiểm thử, một nhóm khác là tập hợp kiểm thử và tất cả các nhóm còn lại sẽ trở thành tập hợp huấn luyện. Sau k vòng huấn luyện và kiểm thử, bạn sẽ tính toán giá trị trung bình và độ lệch chuẩn của(các) chỉ số kiểm thử đã chọn.

Ví dụ: giả sử tập dữ liệu của bạn bao gồm 120 ví dụ. Giả sử bạn quyết định đặt k thành 4. Do đó, sau khi xáo trộn các ví dụ, bạn chia tập dữ liệu thành 4 nhóm bằng nhau gồm 30 ví dụ và tiến hành 4 vòng huấn luyện/kiểm thử:

Ví dụ: Lỗi bình phương trung bình (MSE) có thể là chỉ số có ý nghĩa nhất cho mô hình hồi quy tuyến tính. Do đó, bạn sẽ thấy độ lệch trung bình và độ lệch chuẩn của MSE trong cả 4 vòng.

k trung bình

#clustering

Một thuật toán trùng lặp phổ biến giúp nhóm các ví dụ trong mô hình học tập không giám sát. Về cơ bản, thuật toán k-Medium thực hiện những việc sau:

Xác định lặp lại các điểm tâm k tốt nhất (còn gọi là tâm điểm).
Gán từng ví dụ cho trọng tâm gần nhất. Những ví dụ đó có cùng trọng tâm gần nhất thuộc cùng một nhóm.

Thuật toán k-Medium chọn các vị trí trọng tâm để giảm thiểu bình phương tích luỹ của khoảng cách từ mỗi ví dụ đến trọng tâm gần nhất của ví dụ đó.

Ví dụ: hãy xem xét biểu đồ sau đây về chiều cao của chó so với chiều rộng của chó:

Biểu đồ Descartes với vài chục điểm dữ liệu.

Nếu k=3, thuật toán k-Medium sẽ xác định ba trọng tâm. Mỗi ví dụ được gán cho trọng tâm gần nhất, tạo ra 3 nhóm:

Biểu đồ Descartes tương tự như trong hình minh hoạ trước, ngoại trừ việc thêm 3 trọng tâm.
Các điểm dữ liệu trước đó được nhóm thành ba nhóm riêng biệt, trong đó mỗi nhóm đại diện cho các điểm dữ liệu gần nhất với một trọng tâm cụ thể.

Hãy tưởng tượng rằng một nhà sản xuất muốn xác định kích thước lý tưởng cho áo len nhỏ, trung bình và lớn dành cho chó. Ba trọng tâm xác định chiều cao trung bình và chiều rộng trung bình của mỗi chú chó trong cụm đó. Vì vậy, nhà sản xuất có thể nên đặt kích thước áo len dựa trên ba trọng tâm đó. Lưu ý rằng trọng tâm của một cụm thường không phải là một ví dụ trong cụm.

Các hình minh hoạ trước đó cho thấy giá trị k cho các ví dụ chỉ có 2 tính năng (chiều cao và chiều rộng). Xin lưu ý rằng giá trị k- {4/} có thể nhóm các ví dụ lại cho nhiều tính năng.

k trung bình

#clustering

Một thuật toán phân cụm có liên quan chặt chẽ đến k- Áp dụng. Sau đây là sự khác biệt thực tế giữa 2 công cụ này:

Theo giá trị k, giá trị tâm điểm được xác định bằng cách giảm thiểu tổng bình phương của khoảng cách giữa ứng viên có trọng tâm và từng ví dụ tương ứng.
Theo hệ k-trung bình, số trọng tâm được xác định bằng cách giảm thiểu tổng khoảng cách giữa ứng cử viên trọng tâm và từng ví dụ tương ứng.

Xin lưu ý rằng các định nghĩa về khoảng cách cũng sẽ khác nhau:

k-Medium dựa trên khoảng cách Euclidean từ trọng tâm đến một ví dụ. (Trong hai chiều, khoảng cách Euclide có nghĩa là sử dụng định lý Pytago để tính cạnh huyền.) Ví dụ: khoảng cách k-trung bình giữa (2,2) và (5,-2) sẽ là:

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

k-median dựa vào khoảng cách Manhattan từ trọng tâm đến một ví dụ. Khoảng cách này là tổng của các delta tuyệt đối trong mỗi chiều. Ví dụ: khoảng cách trung bình k giữa (2,2) và (5,-2) sẽ là:

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

Chuẩn hoá L₀

#fundamentals

Một loại quy chuẩn hoá hình phạt tổng số các trọng số khác 0 trong một mô hình. Ví dụ: một mô hình có 11 trọng số khác 0 sẽ bị phạt nhiều hơn một mô hình tương tự có 10 trọng số khác 0.

Việc chuẩn hoá L₀ đôi khi được gọi là điều chỉnh chuẩn L0-norm.

Hãy nhấp vào biểu tượng để xem thêm ghi chú.

Việc chuẩn hoá L₀ thường không thực tế trong các mô hình lớn vì việc chuẩn hoá L₀ sẽ biến việc huấn luyện thành một vấn đề tối ưu hoá lõm.

L₁ thua

#fundamentals

Một hàm tổn thất tính toán giá trị tuyệt đối của mức chênh lệch giữa các giá trị nhãn thực tế và các giá trị mà một mô hình dự đoán. Ví dụ: dưới đây là cách tính tổn thất L₁ cho một gói trong số 5 ví dụ:

Giá trị thực tế của ví dụ	Giá trị dự đoán của mô hình	Giá trị tuyệt đối của delta
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = L₁

tổn thất L₁ ít nhạy cảm hơn với các điểm ngoại lai so với L₂ tổn thất.

Lỗi tuyệt đối trung bình là mức tổn thất trung bình L₁ cho mỗi ví dụ.

Nhấp vào biểu tượng để xem phép toán chính thức.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

trong đó:

$n$ là số lượng ví dụ.
$y$ là giá trị thực tế của nhãn.
$\hat{y}$ là giá trị mà mô hình dự đoán cho $y$.

Chuẩn hoá L₁

#fundamentals

Một loại quy tắc chuẩn hoá hình phạt trọng số theo tỷ lệ với tổng giá trị tuyệt đối của các trọng số. Việc chính quy L₁ giúp tăng trọng số của các tính năng không liên quan hoặc hầu như không liên quan tới chính xác 0. Một tính năng có trọng số bằng 0 sẽ bị xoá một cách hiệu quả khỏi mô hình.

Trái ngược với quy trình điều chỉnh L₂.

L₂ thua

#fundamentals

Một hàm mất dữ liệu tính bình phương độ chênh lệch giữa các giá trị nhãn thực tế và các giá trị mà một mô hình dự đoán. Ví dụ: dưới đây là cách tính tổn thất L₂ cho một lô gồm năm ví dụ:

Giá trị thực tế của ví dụ	Giá trị dự đoán của mô hình	Quảng trường delta
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = L₂ lỗ

Do bình phương, tổn thất L₂ làm tăng mức ảnh hưởng của các điểm ngoại lai. Nghĩa là, tổn thất L₂ phản ứng mạnh hơn với các dự đoán xấu so với L₁ tổn thất Ví dụ: tổn thất L₁ của lô trước đó sẽ là 8 thay vì 16. Xin lưu ý rằng một điểm ngoại lai chiếm 9/16.

Mô hình hồi quy thường sử dụng tỷ lệ mất L₂ làm hàm tổn thất.

Lỗi bình phương trung bình là mức tổn thất trung bình L₂ cho mỗi ví dụ. Tỷ lệ mất hình bình phương là tên khác của tổn thất L₂.

Nhấp vào biểu tượng để xem phép toán chính thức.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

trong đó:

$n$ là số lượng ví dụ.
$y$ là giá trị thực tế của nhãn.
$\hat{y}$ là giá trị mà mô hình dự đoán cho $y$.

Chuẩn hoá L₂

#fundamentals

Một loại quy chuẩn hoá hình phạt trọng số theo tỷ lệ với tổng bình phương của các trọng số. Việc chuẩn hoá L₂ giúp thúc đẩy trọng số ngoại lệ (những người có giá trị dương cao hoặc âm thấp) về gần 0 nhưng không hoàn toàn bằng 0. Các tính năng có giá trị rất gần bằng 0 vẫn tồn tại trong mô hình nhưng không ảnh hưởng nhiều đến thông tin dự đoán của mô hình.

Việc chuẩn hoá L₂ luôn cải thiện việc tổng quát hoá trong mô hình tuyến tính.

Trái ngược với quy trình điều chỉnh L₁.

nhãn

#fundamentals

Trong công nghệ học máy có giám sát, phần "câu trả lời" hoặc "kết quả" của một ví dụ.

Mỗi ví dụ được gắn nhãn bao gồm một hoặc nhiều tính năng và một nhãn. Ví dụ: trong một tập dữ liệu phát hiện thư rác, nhãn có thể sẽ là "thư rác" hoặc "không phải thư rác". Trong tập dữ liệu về lượng mưa, nhãn này có thể là lượng mưa đã rơi trong một khoảng thời gian nhất định.

ví dụ được gắn nhãn

#fundamentals

Ví dụ chứa một hoặc nhiều tính năng và một nhãn. Ví dụ: bảng sau đây cho thấy 3 ví dụ được gắn nhãn từ mô hình định giá ngôi nhà, trong đó mỗi ví dụ có 3 tính năng và một nhãn:

Số lượng phòng ngủ	Số lượng phòng tắm	Tuổi	Giá nhà (nhãn)
3	2	15	$345.000
2	1	72	$179.000
4	2	34	$392.000

Trong công nghệ học máy có giám sát, các mô hình sẽ huấn luyện dựa trên các ví dụ được gắn nhãn và đưa ra dự đoán trên các ví dụ không có nhãn.

So sánh ví dụ được gắn nhãn với ví dụ chưa được gắn nhãn.

rò rỉ nhãn

Một lỗi thiết kế mô hình, trong đó tính năng là proxy cho nhãn. Ví dụ: hãy xem xét mô hình phân loại nhị phân dự đoán việc khách hàng tiềm năng có mua một sản phẩm cụ thể hay không. Giả sử một trong các tính năng của mô hình là Boolean có tên SpokeToCustomerAgent. Ngoài ra, giả sử một tác nhân khách hàng chỉ được chỉ định sau khi khách hàng tiềm năng đã thực sự mua sản phẩm. Trong quá trình huấn luyện, mô hình sẽ nhanh chóng tìm hiểu mối liên kết giữa SpokeToCustomerAgent và nhãn.

hàm lambda

#fundamentals

Từ đồng nghĩa với tỷ lệ chuẩn hoá.

Lambda là một thuật ngữ bị quá tải. Ở đây, chúng tôi đang tập trung vào định nghĩa về thuật ngữ này trong quy trình điều chỉnh theo chuẩn.

LaMDA (Mô hình ngôn ngữ cho ứng dụng hội thoại)

#language

Một mô hình ngôn ngữ lớn dựa trên Transformer do Google phát triển được huấn luyện trên một tập dữ liệu hội thoại lớn có thể tạo ra các phản hồi trò chuyện chân thực.

LaMDA: công nghệ trò chuyện đột phá của chúng tôi mang đến thông tin tổng quan.

điểm mốc

#image

Từ đồng nghĩa với keypoints.

mô hình ngôn ngữ

#language

Một model ước tính xác suất của một model hoặc một chuỗi mã thông báo xảy ra trong một chuỗi mã thông báo dài hơn.

Hãy nhấp vào biểu tượng để xem thêm ghi chú.

Mặc dù có vẻ khác thường, nhưng nhiều mô hình đánh giá văn bản không phải là mô hình ngôn ngữ. Ví dụ: mô hình phân loại văn bản và mô hình phân tích cảm xúc không phải là mô hình ngôn ngữ.

mô hình ngôn ngữ lớn

#language

Một thuật ngữ không chính thức không có định nghĩa nghiêm ngặt thường có nghĩa là một mô hình ngôn ngữ có số lượng tham số lớn. Một số mô hình ngôn ngữ lớn chứa hơn 100 tỷ tham số.

Hãy nhấp vào biểu tượng để xem thêm ghi chú.

Bạn có thể thắc mắc khi nào một mô hình ngôn ngữ đủ lớn để được gọi là mô hình ngôn ngữ lớn. Hiện tại, chưa có thoả thuận nào về dòng xác định số lượng thông số.

Hầu hết các mô hình ngôn ngữ lớn hiện tại (ví dụ: GPT) đều dựa trên kiến trúc Transformer.

không gian tiềm ẩn

#language

Từ đồng nghĩa với không gian nhúng.

lớp

#fundamentals

Một tập hợp nơ-ron trong một mạng nơron. Sau đây là 3 loại lớp phổ biến:

Lớp đầu vào, cung cấp giá trị cho tất cả tính năng.
Một hoặc nhiều lớp ẩn giúp tìm mối quan hệ phi tuyến tính giữa các đối tượng và nhãn.
Lớp đầu ra cung cấp thông tin dự đoán.

Ví dụ: hình minh hoạ sau đây cho thấy một mạng nơron có một lớp đầu vào, 2 lớp ẩn và một lớp đầu ra:

Một mạng nơron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra. Lớp đầu vào bao gồm hai tính năng. Lớp ẩn đầu tiên bao gồm ba nơron và lớp ẩn thứ hai gồm hai nơron. Lớp đầu ra bao gồm một nút duy nhất.

Trong TensorFlow, lớp cũng là các hàm Python. Hàm này lấy Tensor và các tuỳ chọn cấu hình làm dữ liệu đầu vào cũng như tạo ra các tensor khác làm dữ liệu đầu ra.

API Lớp (tf.layers)

#TensorFlow

API TensorFlow dùng để tạo mạng nơron sâu dưới dạng một thành phần của các lớp. API Lớp cho phép bạn tạo nhiều loại lớp, chẳng hạn như:

tf.layers.Dense cho lớp kết nối đầy đủ.
tf.layers.Conv2D cho lớp tích chập.

API Lớp tuân theo các quy ước API lớp Keras. Điều này nghĩa là, ngoài một tiền tố khác, tất cả các hàm trong Layer API (API Lớp) đều có cùng tên và chữ ký với các hàm tương ứng trong API Lớp Keras.

lá

#df

Điểm cuối bất kỳ trong cây quyết định. Không giống như condition, lá không thực hiện kiểm thử. Thay vào đó, một chiếc lá là một thông tin dự đoán có thể xảy ra. Lá cũng là nút cuối của đường dẫn dự đoán.

Ví dụ: cây quyết định sau đây có 3 lá:

Cây quyết định có hai điều kiện dẫn đến 3 lá.

Công cụ diễn giải trong quá trình học tập (LIT)

Công cụ trực quan hoá dữ liệu, tìm hiểu mô hình và tương tác trực quan.

Bạn có thể sử dụng LIT nguồn mở để diễn giải các mô hình hoặc để trực quan hoá văn bản, hình ảnh và dữ liệu dạng bảng.

tốc độ học

#fundamentals

Số dấu phẩy động cho biết thuật toán giảm xuống chuyển tiếp (gradient xuống) mức độ điều chỉnh trọng số và độ chệch trên mỗi lần lặp lại. Ví dụ: tốc độ học 0,3 sẽ điều chỉnh trọng số và độ chệch hiệu quả hơn gấp 3 lần so với tốc độ học là 0,1.

Tốc độ tìm hiểu là một siêu tham số chính. Nếu bạn đặt tốc độ học quá thấp, thì việc đào tạo sẽ mất quá nhiều thời gian. Nếu bạn đặt tốc độ học quá cao, thì phương pháp giảm độ dốc thường gặp khó khăn với việc tiếp cận mức độ hội tụ.

Nhấp vào biểu tượng để xem lời giải thích toán học hơn.

Trong mỗi vòng lặp, thuật toán giảm xuống dốc nhân tốc độ học tập với độ dốc. Sản phẩm thu được được gọi là bước chuyển màu.

hồi quy bình phương tối thiểu

Mô hình hồi quy tuyến tính được huấn luyện bằng cách giảm thiểu L₂ Mất.

tuyến tính

#fundamentals

Mối quan hệ giữa hai hoặc nhiều biến chỉ có thể được biểu thị thông qua phép cộng và nhân.

Biểu đồ của mối quan hệ tuyến tính là một đường.

Tương phản với phi tuyến tính.

mô hình tuyến tính

#fundamentals

Một model chỉ định một model cho mỗi model để đưa ra model. (Mô hình tuyến tính cũng kết hợp thiên vị.) Ngược lại, mối quan hệ của các tính năng với dự đoán trong mô hình sâu thường là phi tuyến tính.

Mô hình tuyến tính thường dễ huấn luyện hơn và dễ hiểu hơn so với mô hình sâu. Tuy nhiên, các mô hình sâu có thể tìm hiểu mối quan hệ phức tạp giữa các tính năng.

Hồi quy tuyến tính và hồi quy logistic là hai loại mô hình tuyến tính.

Nhấp vào biểu tượng để xem phép tính.

Mô hình tuyến tính tuân theo công thức sau:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

trong đó:

y' là dự đoán thô. (Trong một số loại mô hình tuyến tính nhất định, dự đoán thô này sẽ được sửa đổi thêm. Ví dụ: xem phần hồi quy logistic.)
b là độ lệch.
w là trọng số, vì vậy w₁ là trọng số của tính năng đầu tiên, w₂ là trọng số của tính năng thứ hai, và cứ tiếp tục như vậy.
x là một tính năng, vì vậy, x₁ là giá trị của tính năng đầu tiên, x₂ là giá trị của tính năng thứ hai, và cứ tiếp tục như vậy.

Ví dụ: giả sử một mô hình tuyến tính cho 3 đối tượng tìm hiểu độ chệch và trọng số sau:

b = 7
w₁ = -2,5
w₂ = -1,2
w₃ = 1,4

Do đó, với 3 đối tượng (x₁, x₂ và x₃), mô hình tuyến tính sẽ sử dụng phương trình sau đây để tạo từng thông tin dự đoán:

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

Giả sử một ví dụ cụ thể chứa các giá trị sau:

x₁ = 4
x₂ = -10
x₃ = 5

Việc cắm các giá trị đó vào công thức sẽ cho ra kết quả dự đoán cho ví dụ sau:

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

Mô hình tuyến tính không chỉ bao gồm các mô hình chỉ sử dụng phương trình tuyến tính để đưa ra dự đoán mà còn bao gồm cả một tập hợp mô hình rộng hơn sử dụng phương trình tuyến tính chỉ làm một thành phần của công thức để đưa ra dự đoán. Ví dụ: hồi quy logistic sau khi xử lý dự đoán thô (y') để tạo ra giá trị dự đoán cuối cùng trong khoảng từ 0 đến 1.

hồi quy tuyến tính

#fundamentals

Một loại mô hình học máy đáp ứng cả hai điều kiện sau:

Mô hình này là một mô hình tuyến tính.
Thông tin dự đoán là một giá trị dấu phẩy động. (Đây là phần hồi quy của hồi quy tuyến tính.)

Đối chiếu hồi quy tuyến tính với hồi quy logistic. Ngoài ra, đối chiếu sự hồi quy với tính năng phân loại.

LIT

Từ viết tắt của Công cụ diễn giải ngôn ngữ (LIT), trước đây được gọi là Công cụ diễn giải ngôn ngữ.

Mô hình ngôn ngữ lớn (LLM)

#language

Tên viết tắt của mô hình ngôn ngữ lớn.

hồi quy logistic

#fundamentals

Một loại mô hình hồi quy dự đoán một xác suất. Mô hình hồi quy logistic có các đặc điểm sau:

Nhãn này là phân loại. Thuật ngữ hồi quy logistic thường đề cập đến hồi quy logistic nhị phân, tức là đến một mô hình tính xác suất cho các nhãn có 2 giá trị khả thi. Một biến thể ít phổ biến hơn là hồi quy logistic đa thức, tính xác suất cho các nhãn có nhiều hơn 2 giá trị có thể có.
Hàm bị mất trong quá trình huấn luyện là Log loss. (Có thể đặt nhiều đơn vị tổn thất nhật ký song song cho các nhãn có nhiều hơn hai giá trị có thể có.)
Mô hình này có kiến trúc tuyến tính chứ không phải mạng nơron sâu. Tuy nhiên, phần còn lại của định nghĩa này cũng áp dụng cho mô hình sâu giúp dự đoán xác suất cho các nhãn phân loại.

Ví dụ: hãy xem xét mô hình hồi quy logistic để tính xác suất một email đầu vào là thư rác hoặc không phải thư rác. Trong quá trình suy luận, giả sử mô hình dự đoán giá trị 0,72. Do đó, mô hình này sẽ ước tính:

72% khả năng email là thư rác.
28% khả năng email không phải là thư rác.

Mô hình hồi quy logistic sử dụng cấu trúc hai bước sau:

Mô hình này tạo thông tin dự đoán thô (y") bằng cách áp dụng hàm tuyến tính của các tính năng đầu vào.
Mô hình sử dụng thông tin dự đoán thô đó làm dữ liệu đầu vào cho hàm sigmoid. Hàm này sẽ chuyển đổi dự đoán thô thành giá trị nằm trong khoảng từ 0 đến 1.

Giống như mọi mô hình hồi quy khác, mô hình hồi quy logistic dự đoán một số. Tuy nhiên, số này thường trở thành một phần của mô hình phân loại nhị phân như sau:

Nếu số dự đoán lớn hơn ngưỡng phân loại, thì mô hình phân loại nhị phân sẽ dự đoán lớp dương.
Nếu số dự đoán nhỏ hơn ngưỡng phân loại, thì mô hình phân loại nhị phân sẽ dự đoán lớp phủ định.

logit

Vectơ dự đoán thô (không chuẩn hoá) mà mô hình phân loại tạo ra, sau đó được truyền đến hàm chuẩn hoá. Nếu mô hình này đang giải quyết vấn đề phân loại nhiều lớp, thì nhật ký thường trở thành dữ liệu đầu vào cho hàm softmax. Sau đó, hàmsoftmax sẽ tạo một vectơ xác suất (được chuẩn hoá) với một giá trị cho mỗi lớp có thể có.

tổn thất nhật ký

#fundamentals

Hàm mất dữ liệu được dùng trong hồi quy logistic nhị phân.

Nhấp vào biểu tượng để xem phép tính.

Công thức sau đây sẽ tính tổn thất nhật ký:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

trong đó:

$(x,y)\in D$ là tập dữ liệu chứa nhiều ví dụ được gắn nhãn, đó là các cặp $(x,y)$ .
$y$ là nhãn trong ví dụ về nhãn. Vì đây là hồi quy logistic, nên mọi giá trị của $y$ phải là 0 hoặc 1.
$y'$ là giá trị dự đoán (không bao gồm từ 0 đến 1), dựa trên tập hợp các tính năng trong $x$.

tỷ lệ nhật ký

#fundamentals

Lôgarit xác suất của một số sự kiện.

Nhấp vào biểu tượng để xem phép tính.

Nếu sự kiện đó là xác suất nhị phân, thì lẻ là tỷ lệ xác suất thành công (p) với xác suất không thành công (1-p). Ví dụ: giả sử một sự kiện nhất định có xác suất thành công là 90% và xác suất thất bại là 10%. Trong trường hợp này, tỷ lệ chênh lệch được tính như sau:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

Lôgarit chỉ đơn giản là lôgarit của xác suất. Theo quy ước, "logarith" đề cập đến logarit tự nhiên, nhưng thực tế thì logarit có thể là bất kỳ cơ số nào lớn hơn 1. Do đó, theo quy ước, giá trị nhật ký trong ví dụ của chúng tôi là:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

Hàm logarit là giá trị nghịch đảo của hàm sigmoid.

Bộ nhớ ngắn hạn dài hạn (LSTM)

#seq

Một loại ô trong mạng nơron định kỳ được dùng để xử lý trình tự dữ liệu trong các ứng dụng như nhận dạng chữ viết tay, dịch máy và phụ đề hình ảnh. LSTM giải quyết vấn đề về độ dốc biến mất xảy ra khi huấn luyện RNN do trình tự dữ liệu dài bằng cách duy trì nhật ký ở trạng thái bộ nhớ trong dựa trên dữ liệu đầu vào và ngữ cảnh mới từ các ô trước đó trong RNN.

LoRA

#language

#AI tạo sinh

Từ viết tắt của Khả năng thích ứng cấp thấp.

thua

#fundamentals

Trong quá trình huấn luyện mô hình được giám sát, thước đo khoảng cách giữa dự đoán của mô hình so với nhãn của mô hình đó.

Hàm tổn thất tính toán tổn thất.

đơn vị thu thập dữ liệu

Một loại thuật toán học máy giúp cải thiện hiệu suất của một mô hình bằng cách kết hợp các dự đoán của nhiều mô hình và sử dụng các dự đoán đó để đưa ra một dự đoán. Do đó, trình tổng hợp dữ liệu mất mát có thể làm giảm chênh lệch của thông tin dự đoán và cải thiện độ chính xác của thông tin dự đoán.

đường cong tổn thất

#fundamentals

Biểu đồ mất dưới dạng hàm của số lượng vòng lặp huấn luyện. Biểu đồ sau đây cho thấy một đường cong tổn thất thông thường:

Biểu đồ Descartes về số lần lặp lại bị mất so với số lần lặp lại trong quá trình huấn luyện, cho thấy sự sụt giảm nhanh chóng trong số lần lặp lại ban đầu, sau đó giảm dần và sau đó là một đường dốc phẳng trong các lần lặp cuối cùng.

Đường cong tổn thất có thể giúp bạn xác định thời điểm mô hình hội tụ hoặc tập hợp quá mức.

Đường cong tổn thất có thể biểu thị tất cả các loại tổn thất sau đây:

mất khả năng huấn luyện
mất tính xác thực
kiểm thử thất bại

Xem thêm đường cong tổng quát hoá.

hàm mất dữ liệu

#fundamentals

Trong quá trình huấn luyện hoặc kiểm thử, một hàm toán học sẽ tính toán tổn thất trên một số lô ví dụ. Hàm tổn thất sẽ trả về mức tổn thất thấp hơn đối với các mô hình đưa ra dự đoán phù hợp so với các mô hình đưa ra dự đoán không chính xác.

Mục tiêu của việc huấn luyện thường là giảm thiểu tổn thất do hàm mất trả về.

Có nhiều loại hàm mất dữ liệu. Chọn hàm suy hao phù hợp cho loại mô hình mà bạn đang xây dựng. Ví dụ:

L₂ lỗ (hoặc Lỗi bình phương trung bình) là hàm tổn hao cho hồi quy tuyến tính.
Logloss là hàm suy giảm cho hồi quy logistic.

bề mặt tổn thất

Biểu đồ về(các) cân nặng so với mức giảm. Giảm độ chuyển màu nhằm tìm(các) trọng lượng mà bề mặt bị mất ở mức tối thiểu cục bộ.

Khả năng thích ứng cấp thấp (LoRA)

#language

#AI tạo sinh

Thuật toán để thực hiện điều chỉnh hiệu quả tham số nhằm tinh chỉnh một tập hợp con của các tham số của mô hình ngôn ngữ lớn. LoRA mang lại các lợi ích sau:

Tinh chỉnh nhanh hơn so với các kỹ thuật yêu cầu tinh chỉnh tất cả các tham số của mô hình.
Giảm chi phí tính toán của suy luận trong mô hình đã tinh chỉnh.

Mô hình được điều chỉnh bằng LoRA sẽ duy trì hoặc cải thiện chất lượng của các dự đoán.

LoRA cho phép nhiều phiên bản chuyên biệt của một mô hình.

LSTM

#seq

Từ viết tắt của Bộ nhớ dài hạn.

M

học máy

#fundamentals

Một chương trình hoặc hệ thống đào tạo mô hình từ dữ liệu đầu vào. Mô hình đã huấn luyện có thể đưa ra các dự đoán hữu ích từ dữ liệu mới (chưa từng thấy trước đó) được rút ra từ cùng một bản phân phối với dữ liệu dùng để huấn luyện mô hình.

Công nghệ học máy cũng là lĩnh vực nghiên cứu liên quan đến các chương trình hoặc hệ thống này.

lớp đa số

#fundamentals

Nhãn phổ biến hơn trong tập dữ liệu bất cân bằng lớp. Ví dụ: với một tập dữ liệu chứa 99% nhãn âm và 1% nhãn dương, thì các nhãn âm sẽ chiếm phần lớn lớp.

Ngược lại với lớp thiểu số.

Quy trình quyết định Markov (MDP)

#rl

Một biểu đồ biểu thị mô hình ra quyết định trong đó các quyết định (hoặc hành động) được đưa ra để điều hướng một chuỗi các trạng thái theo giả định là thuộc tính Markov. Trong phương pháp học tăng cường, những hoạt động chuyển đổi này giữa các trạng thái sẽ trả về một phần thưởng dạng số.

Thuộc tính Markov

#rl

Thuộc tính của một số môi trường nhất định, trong đó việc chuyển đổi trạng thái được xác định hoàn toàn theo thông tin ngầm ẩn trong trạng thái hiện tại và hành động của tác nhân.

mô hình ngôn ngữ bị che giấu

#language

Một mô hình ngôn ngữ dự đoán xác suất của mã thông báo đề xuất cần điền vào chỗ trống trong một trình tự. Ví dụ: mô hình ngôn ngữ được che có thể tính xác suất để(các) từ đề xuất thay thế dấu gạch dưới trong câu sau:

____ đội mũ trở lại.

Tài liệu thường dùng chuỗi "Mask" thay vì dấu gạch dưới. Ví dụ:

"Mask" trong chiếc mũ đã xuất hiện trở lại.

Hầu hết các mô hình ngôn ngữ được che giấu hiện đại đều là hai chiều.

matplotlib

Một thư viện lập biểu đồ 2D mã nguồn mở trên Python. matplotlib giúp bạn trực quan hoá các khía cạnh khác nhau của công nghệ học máy.

phân tích ma trận thành thừa số

#recsystems

Trong toán học, đó là một cơ chế để tìm ma trận có tích điểm gần đúng với một ma trận mục tiêu.

Trong hệ thống đề xuất, ma trận mục tiêu thường chứa điểm xếp hạng của người dùng cho các mục. Ví dụ: ma trận mục tiêu của một hệ thống đề xuất phim có thể có dạng như sau, trong đó số nguyên dương là điểm xếp hạng từ người dùng và 0 có nghĩa là người dùng chưa xếp hạng bộ phim đó:

	Casablanca	Câu chuyện của Phi thuyền	Black Panther (Chiến binh Báo Đen)	Nữ thần chiến binh	Tiểu thuyết bột
Người dùng 1	5	3	0,0	2	0,0
Người dùng 2	4	0,0	0,0	1	5
Người dùng 3	3	1	4	5	0,0

Hệ thống đề xuất phim nhằm dự đoán xếp hạng của người dùng cho các bộ phim chưa xếp hạng. Ví dụ: Người dùng 1 có thích Black Panther không?

Một phương pháp dành cho các hệ thống đề xuất là sử dụng phương pháp phân tích ma trận để tạo 2 ma trận sau:

Ma trận người dùng, có hình dạng bằng số người dùng X số thứ nguyên nhúng.
Một ma trận mục, có hình dạng là số lượng thứ nguyên nhúng X số lượng mục.

Ví dụ: sử dụng tính năng phân tích ma trận cho 3 người dùng và 5 mục có thể tạo ra ma trận người dùng và ma trận mục sau đây:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

Tích điểm của ma trận người dùng và ma trận mục tạo ra một ma trận đề xuất không chỉ chứa điểm xếp hạng ban đầu của người dùng mà còn chứa thông tin dự đoán về những bộ phim mà mỗi người dùng chưa xem. Ví dụ: hãy xem xét điểm xếp hạng Casablanca của Người dùng 1, là 5.0. Sản phẩm chấm tương ứng với ô đó trong ma trận đề xuất sẽ ở khoảng 5.0 và như sau:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Quan trọng hơn, Người dùng 1 có thích Black Panther không? Việc lấy sản phẩm dấu chấm tương ứng với hàng đầu tiên và cột thứ ba sẽ cho ra điểm xếp hạng dự đoán là 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

Việc phân tích nhân tử của ma trận thường tạo ra một ma trận người dùng và ma trận mục, cùng với nhau, nhỏ gọn hơn đáng kể so với ma trận mục tiêu.

sai số tuyệt đối trung bình (MAE)

Tỷ lệ mất mát trung bình cho mỗi ví dụ khi sử dụng L₁ tổn thất. Tính sai số tuyệt đối trung bình như sau:

Tính toán tổn thất L₁ cho một lô.
Chia mức tổn thất L₁ cho số lượng ví dụ trong lô.

Nhấp vào biểu tượng để xem phép toán chính thức.

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

trong đó:

$n$ là số lượng ví dụ.
$y$ là giá trị thực tế của nhãn.
$\hat{y}$ là giá trị mà mô hình dự đoán cho $y$.

Ví dụ: hãy xem xét việc tính toán tổn thất L₁ trong lô 5 ví dụ sau đây:

Giá trị thực tế của ví dụ	Giá trị dự đoán của mô hình	Mất mát (chênh lệch giữa số liệu thực tế và dự đoán)
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = L₁

Vậy, tổn thất L₁ là 8 và số lượng ví dụ là 5. Do đó, sai số tuyệt đối trung bình là:

Mean Absolute Error = L₁ loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

So sánh giá trị tuyệt đối trung bình với Mean Squared Error và Root Mean Squared Error (Lỗi trung bình bình phương của giá trị trung bình).

sai số bình phương trung bình (MSE)

Tỷ lệ tổn thất trung bình của mỗi ví dụ khi sử dụng L₂ lỗ. Tính sai số bình phương trung bình như sau:

Tính toán tổn thất L₂ cho một lô.
Chia tổn thất L₂ cho số ví dụ trong lô.

Nhấp vào biểu tượng để xem phép toán chính thức.

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ trong đó:

$n$ là số lượng ví dụ.
$y$ là giá trị thực tế của nhãn.
$\hat{y}$ là dự đoán của mô hình cho $y$.

Chẳng hạn, hãy xem xét việc thua lỗ trong lô 5 ví dụ sau đây:

Giá trị thực tế	Dự đoán của mô hình	Thua	Biểu đồ tổn thất bình phương
7	6	1	1
5	4	1	1
8	11	3	9
4	6	2	4
9	8	1	1
			16 = L₂ lỗ

Do đó, sai số bình phương trung bình là:

Mean Squared Error = L₂ loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Lỗi bình phương trung bình là một trình tối ưu hoá huấn luyện phổ biến, đặc biệt là cho hồi quy tuyến tính.

Lỗi bình phương trung bình tương phản (tương phản trung bình bình phương) với Trung bình sai tuyệt đối và Lỗi trung bình bình phương gốc.

TensorFlow Playground sử dụng sai số bình phương trung bình để tính toán giá trị tổn thất.

Nhấp vào biểu tượng này để xem thêm thông tin chi tiết về các điểm ngoại lai.

Các ngoại lệ ảnh hưởng mạnh đến sai số bình phương trung bình. Ví dụ: lỗ 1 là mất bình phương của 1, nhưng mất 3 là mất bình phương của 9. Trong bảng trước, ví dụ có tổn thất 3 chiếm khoảng 56% Lỗi bình phương trung bình, trong khi mỗi ví dụ bị mất 1 chỉ chiếm 6% Lỗi bình phương trung bình.

Các điểm ngoại lai không ảnh hưởng đến sai số tuyệt đối trung bình nhiều như lỗi trung bình bình phương. Ví dụ: tổn thất 3 chỉ chiếm ~38% Lỗi tuyệt đối trung bình.

Cắt bớt là một cách để ngăn chặn các điểm ngoại lai quá mức làm ảnh hưởng đến khả năng dự đoán của mô hình.

lưới

#TensorFlow

#GoogleCloud

Trong lập trình song song bằng công nghệ học máy, một thuật ngữ liên quan đến việc chỉ định dữ liệu và mô hình cho các khối TPU, đồng thời xác định cách các giá trị này sẽ được phân đoạn hoặc sao chép.

Lưới là một thuật ngữ về tình trạng quá tải có thể có nghĩa là một trong các thuật ngữ sau:

Bố cục thực của khối TPU.
Một cấu trúc logic trừu tượng để ánh xạ dữ liệu và mô hình đến các khối TPU.

Trong cả hai trường hợp, lưới sẽ được chỉ định ở dạng hình dạng.

học siêu

#language

Một tập hợp con gồm công nghệ học máy giúp phát hiện hoặc cải thiện một thuật toán học tập. Hệ thống học siêu dữ liệu cũng có thể nhằm mục đích huấn luyện một mô hình để nhanh chóng học một công việc mới từ một lượng nhỏ dữ liệu hoặc từ kinh nghiệm thu được trong các nhiệm vụ trước đó. Các thuật toán học meta thường cố gắng đạt được những mục tiêu sau:

Cải thiện hoặc tìm hiểu các tính năng được chế tạo thủ công (chẳng hạn như trình khởi chạy hoặc trình tối ưu hoá).
Tiết kiệm chi phí dữ liệu và điện toán hơn.
Cải thiện khả năng khái quát hoá.

Phương pháp học meta liên quan đến phương thức học qua vài lần.

chỉ số

#TensorFlow

Số liệu thống kê mà bạn quan tâm.

Mục tiêu là chỉ số mà hệ thống học máy sẽ cố gắng tối ưu hoá.

API Chỉ số (tf.metrics)

API TensorFlow để đánh giá mô hình. Ví dụ: tf.metrics.accuracy xác định tần suất các cụm từ gợi ý của một mô hình khớp với nhãn.

lô nhỏ

#fundamentals

Một tập hợp con nhỏ, được chọn ngẫu nhiên của một lô được xử lý trong một vòng lặp. Kích thước lô của một lô nhỏ thường nằm trong khoảng từ 10 đến 1.000 ví dụ.

Ví dụ: giả sử toàn bộ tập hợp huấn luyện (toàn bộ lô) bao gồm 1.000 ví dụ. Ngoài ra, giả sử bạn đặt kích thước lô của mỗi lô nhỏ thành 20. Do đó, mỗi lần lặp lại sẽ xác định tổn thất trên 20 ví dụ ngẫu nhiên trong số 1.000 ví dụ,sau đó điều chỉnh trọng số và độ lệch cho phù hợp.

Việc tính toán tổn thất trên một lô nhỏ hiệu quả hơn nhiều so với việc mất dữ liệu trên tất cả ví dụ trong toàn bộ lô.

phương pháp giảm độ dốc ngẫu nhiên theo lô nhỏ

Thuật toán giảm xuống chuyển màu sử dụng gói nhỏ. Nói cách khác, tính năng giảm độ dốc ngẫu nhiên theo lô nhỏ ước tính độ dốc dựa trên một tập hợp nhỏ dữ liệu huấn luyện. Phương thức giảm xuống ngẫu nhiên thông thường sử dụng một lô nhỏ có kích thước 1.

tổn thất minimax

Một hàm suy hao cho mạng đối nghịch tạo sinh, dựa trên nhiều entropy giữa quá trình phân phối dữ liệu được tạo và dữ liệu thực.

tổn thất Minimax được sử dụng trong bài viết đầu tiên để mô tả các mạng đối nghịch tạo sinh.

lớp dân tộc thiểu số

#fundamentals

Nhãn ít phổ biến hơn trong tập dữ liệu mất cân bằng lớp. Ví dụ: với một tập dữ liệu chứa 99% nhãn âm và 1% nhãn dương, thì các nhãn dương tính là lớp thiểu số.

Tương phản với lớp đa số.

Hãy nhấp vào biểu tượng để xem thêm ghi chú.

Một bộ huấn luyện với một triệu ví dụ nghe có vẻ ấn tượng. Tuy nhiên, nếu lớp thiểu số được biểu thị không tốt, thì ngay cả một tập hợp huấn luyện rất lớn cũng có thể không đủ. Ít tập trung hơn vào tổng số ví dụ trong tập dữ liệu và tập trung nhiều hơn vào số lượng ví dụ trong lớp thiểu số.

Nếu tập dữ liệu của bạn không chứa đủ ví dụ về lớp thiểu số, hãy cân nhắc sử dụng phương pháp giảm tần số lấy mẫu (định nghĩa trong dấu đầu dòng thứ hai) để bổ sung cho lớp thiểu số.

ML (Mali)

Từ viết tắt của công nghệ học máy.

MNIST

#image

Một tập dữ liệu thuộc phạm vi công cộng do LeCun, Cortes và Burges biên dịch, chứa 60.000 hình ảnh, mỗi hình ảnh cho thấy cách một người viết thủ công một chữ số cụ thể từ 0 đến 9. Mỗi hình ảnh được lưu trữ dưới dạng một mảng số nguyên có kích thước 28x28, trong đó mỗi số nguyên là một giá trị thang màu xám từ 0 đến 255.

MNIST là một tập dữ liệu chuẩn hoá cho công nghệ học máy, thường được dùng để thử nghiệm các phương pháp học máy mới. Để biết thông tin chi tiết, hãy xem Cơ sở dữ liệu MNIST về Chữ số viết tay.

phương thức

#language

Danh mục dữ liệu cấp cao. Ví dụ: số, văn bản, hình ảnh, video và âm thanh là 5 phương thức khác nhau.

model

#fundamentals

Nói chung, mọi cấu trúc toán học xử lý dữ liệu đầu vào và trả về đầu ra. Diễn đạt theo cách khác, mô hình là tập hợp các tham số và cấu trúc cần thiết để hệ thống đưa ra dự đoán. Trong công nghệ học máy có giám sát, một mô hình sẽ lấy một ví dụ làm dữ liệu đầu vào và dự đoán một dự đoán làm đầu ra. Trong công nghệ học máy có giám sát, các mô hình sẽ có chút khác biệt. Ví dụ:

Mô hình hồi quy tuyến tính bao gồm một tập hợp trọng số và độ lệch.
Mô hình mạng nơron bao gồm:
- Một tập hợp lớp ẩn, mỗi lớp chứa một hoặc nhiều nơron.
- Các trọng số và độ chệch liên quan đến mỗi nơron.
Mô hình cây quyết định bao gồm:
- Hình dạng của cây; tức là mẫu kết nối các điều kiện và lá.
- Điều kiện và lá cây.

Bạn có thể lưu, khôi phục hoặc tạo bản sao của mô hình.

Công nghệ học máy không được giám sát cũng tạo các mô hình, thường là một hàm có khả năng liên kết một mẫu dữ liệu đầu vào với cụm phù hợp nhất.

Nhấp vào biểu tượng này để so sánh các hàm đại số và lập trình với các mô hình học máy.

Một hàm đại số, chẳng hạn như sau đây là một mô hình:

  f(x, y) = 3x -5xy + y² + 17

Hàm trên ánh xạ các giá trị đầu vào (x và y) với đầu ra.

Tương tự, một hàm lập trình như sau cũng là một mô hình:

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

Phương thức gọi truyền các đối số đến hàm Python trước đó và hàm Python tạo đầu ra (thông qua câu lệnh return).

Mặc dù mạng nơron sâu có cấu trúc toán học rất khác với hàm đại số hoặc hàm lập trình, nhưng mạng nơron sâu vẫn lấy dữ liệu đầu vào (ví dụ) và trả về đầu ra (một thông tin dự đoán).

Một lập trình viên viết mã cho một hàm lập trình theo cách thủ công. Ngược lại, một mô hình học máy sẽ dần học các tham số tối ưu trong quá trình huấn luyện tự động.

dung lượng mô hình

Sự phức tạp của các vấn đề mà một mô hình có thể học được. Các vấn đề mà mô hình có thể học hỏi càng phức tạp, thì khả năng xử lý của mô hình đó càng cao. Dung lượng của một mô hình thường tăng lên theo số lượng tham số mô hình. Để biết định nghĩa chính thức về khả năng của thuật toán phân loại, vui lòng xem kích thước VC.

mô hình phân tầng

#AI tạo sinh

Một hệ thống chọn model lý tưởng cho một truy vấn dự đoán cụ thể.

Hãy tưởng tượng một nhóm mô hình, từ rất lớn (rất nhiều tham số) đến nhỏ hơn nhiều (ít tham số hơn nhiều). Các mô hình rất lớn cần nhiều tài nguyên điện toán hơn tại thời điểm dự đoán so với các mô hình nhỏ hơn. Tuy nhiên, các mô hình rất lớn thường có thể dự đoán các yêu cầu phức tạp hơn các mô hình nhỏ hơn. Phân tầng mô hình xác định độ phức tạp của truy vấn suy luận, sau đó chọn mô hình thích hợp để thực hiện dự đoán. Động lực chính của việc phân tầng mô hình là giảm chi phí dự đoán bằng cách thường chọn các mô hình nhỏ hơn và chỉ chọn mô hình lớn hơn cho các truy vấn phức tạp hơn.

Hãy tưởng tượng rằng một mô hình nhỏ chạy trên điện thoại, còn phiên bản lớn hơn của mô hình đó chạy trên một máy chủ từ xa. Việc phân tầng mô hình hiệu quả giúp giảm chi phí và độ trễ bằng cách cho phép mô hình nhỏ hơn xử lý các yêu cầu đơn giản và chỉ gọi mô hình từ xa để xử lý các yêu cầu phức tạp.

Xem thêm về bộ định tuyến mẫu.

tính song song của mô hình

#language

Một phương pháp để mở rộng quy mô huấn luyện hoặc dự đoán để đặt nhiều phần của một model trên nhiều model. Tính năng tải song song mô hình cho phép các mô hình quá lớn, không vừa với một thiết bị.

Để triển khai tính năng song song của mô hình, hệ thống thường làm như sau:

Các phân đoạn (chia) mô hình thành các phần nhỏ hơn.
Phân phối việc huấn luyện các phần nhỏ hơn đó trên nhiều bộ xử lý. Mỗi bộ xử lý sẽ huấn luyện một phần riêng của mô hình.
Kết hợp các kết quả để tạo một mô hình.

Việc tải song song mô hình làm chậm quá trình huấn luyện.

Hãy xem thêm bài viết về sự song song dữ liệu.

bộ định tuyến mẫu

#AI tạo sinh

Thuật toán xác định model lý tưởng cho model trong model. Bản thân bộ định tuyến mô hình thường là một mô hình học máy tự học cách chọn mô hình phù hợp nhất cho một đầu vào nhất định. Tuy nhiên, bộ định tuyến mô hình đôi khi có thể là một thuật toán đơn giản hơn và không phải thuật toán học máy.

huấn luyện mô hình

Quy trình xác định model tốt nhất.

Đà phát triển

Một thuật toán giảm độ dốc tinh vi, trong đó một bước học không chỉ phụ thuộc vào đạo hàm trong bước hiện tại, mà còn phụ thuộc vào các đạo hàm của(các) bước đứng ngay trước bước đó. Động lượng liên quan đến việc tính toán trung bình di chuyển có trọng số theo cấp số nhân của các độ dốc theo thời gian, tương tự như động lượng trong vật lý. Động lực đôi khi khiến việc học không bị mắc kẹt trong các tình huống tối thiểu cục bộ.

phân loại nhiều lớp

#fundamentals

Trong chế độ học có giám sát, vấn đề phân loại xảy ra, trong đó tập dữ liệu chứa nhiều lớp nhãn. Ví dụ: các nhãn trong tập dữ liệu Iris phải là một trong ba lớp sau:

Hoa diên vĩ
Hoa diên vĩ
Hoa diên vĩ

Một mô hình được huấn luyện dựa trên tập dữ liệu Iris để dự đoán kiểu Iris trên các ví dụ mới đang thực hiện việc phân loại nhiều lớp.

Ngược lại, các bài toán phân loại phân biệt chính xác hai lớp là mô hình phân loại nhị phân. Ví dụ: một mô hình email dự đoán thư rác hoặc không phải thư rác là mô hình phân loại nhị phân.

Trong các bài toán phân cụm, việc phân loại nhiều lớp đề cập đến nhiều hơn 2 cụm.

hồi quy logistic nhiều lớp

Sử dụng tính năng hồi quy logistic trong các bài toán phân loại nhiều lớp.

tự chú ý khi theo dõi nhiều đầu

#language

Phần mở rộng của cơ chế tự chú ý áp dụng cơ chế tự chú ý nhiều lần cho mỗi vị trí trong trình tự nhập.

Transformer ra mắt tính năng tự chú ý nhiều đầu.

mô hình đa phương thức

#language

Một mô hình có dữ liệu đầu vào và/hoặc đầu ra bao gồm nhiều phương thức. Ví dụ: hãy xem xét một mô hình lấy cả hình ảnh và chú thích văn bản (hai phương thức) làm tính năng rồi đưa ra điểm số cho biết mức độ phù hợp của chú thích văn bản đối với hình ảnh. Vì vậy, dữ liệu đầu vào của mô hình này là đa phương thức và đầu ra là đơn phương thức.

phân loại đa thức

Từ đồng nghĩa với phân loại nhiều lớp.

hồi quy đa thức

Từ đồng nghĩa với hồi quy logistic nhiều lớp.

đa nhiệm

Đây là một kỹ thuật học máy trong đó một model duy nhất được huấn luyện để thực hiện nhiều model.

Mô hình đa nhiệm được tạo bằng cách huấn luyện về dữ liệu phù hợp với từng nhiệm vụ. Điều này cho phép mô hình học cách chia sẻ thông tin giữa các tác vụ, giúp mô hình học tập hiệu quả hơn.

Một mô hình được huấn luyện cho nhiều tác vụ thường có khả năng tổng quát hoá được cải thiện và có thể hiệu quả hơn trong việc xử lý nhiều loại dữ liệu.

N

bẫy NaN

Khi một số trong mô hình của bạn trở thành NaN trong quá trình huấn luyện, điều này khiến nhiều số hoặc tất cả số khác trong mô hình cuối cùng trở thành NaN.

NaN là viết tắt của Not a Number.

hiểu ngôn ngữ tự nhiên

#language

Xác định ý định của người dùng dựa trên nội dung người dùng nhập hoặc nói. Ví dụ: công cụ tìm kiếm sẽ sử dụng khả năng hiểu ngôn ngữ tự nhiên để xác định nội dung người dùng đang tìm kiếm dựa trên nội dung người dùng đã nhập hoặc nói.

lớp phủ định

#fundamentals

Trong quá trình phân loại nhị phân, một lớp được gọi là dương và lớp còn lại có tên âm. Lớp dương là sự vật hoặc sự kiện mà mô hình đang kiểm thử còn lớp phủ định là khả năng khác. Ví dụ:

Lớp âm tính trong xét nghiệm y tế có thể "không phải khối u".
Lớp phủ định trong thuật toán phân loại email có thể là "không phải thư rác".

Tương phản với lớp tích cực.

lấy mẫu phủ định

Từ đồng nghĩa với candidatesampling.

Tìm kiếm kiến trúc nơron (NAS)

Một kỹ thuật để tự động thiết kế kiến trúc của một mạng nơron. Các thuật toán của NAS có thể làm giảm thời gian và tài nguyên cần thiết để huấn luyện mạng nơron.

NAS thường sử dụng:

Không gian tìm kiếm là một tập hợp các cấu trúc khả thi.
Hàm thể dục, là thước đo hiệu suất của một cấu trúc cụ thể trong một tác vụ nhất định.

Thuật toán NAS thường bắt đầu với một nhóm nhỏ các cấu trúc có thể có và dần dần mở rộng không gian tìm kiếm vì thuật toán này tìm hiểu thêm về những cấu trúc có hiệu quả. Hàm thể dục thường dựa trên hiệu suất của cấu trúc trong một tập huấn luyện và thuật toán thường được huấn luyện bằng kỹ thuật học tăng cường.

Các thuật toán của NAS đã được chứng minh là hiệu quả trong việc tìm kiếm cấu trúc có hiệu suất cao cho nhiều nhiệm vụ, bao gồm cả việc phân loại hình ảnh, phân loại văn bản và dịch máy.

mạng nơron

#fundamentals

Một model chứa ít nhất một model. Mạng nơron sâu là một loại mạng nơron chứa nhiều lớp ẩn. Ví dụ: sơ đồ sau đây cho thấy một mạng nơron sâu chứa hai lớp ẩn.

Một mạng nơron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra.

Mỗi nơron trong một mạng nơron đều kết nối với tất cả các nút trong lớp tiếp theo. Ví dụ: trong sơ đồ trước, bạn có thể thấy rằng mỗi nơron trong lớp ẩn đầu tiên kết nối riêng biệt với cả 2 nơron trong lớp ẩn thứ hai.

Mạng nơron triển khai trên máy tính đôi khi được gọi là mạng nơron nhân tạo để phân biệt chúng với mạng nơron có trong não và các hệ thần kinh khác.

Một số mạng nơron có thể bắt chước các mối quan hệ phi tuyến cực kỳ phức tạp giữa các tính năng và nhãn.

Hãy xem thêm nội dung về mạng nơron tích chập và mạng nơron định kỳ.

nơron

#fundamentals

Trong công nghệ học máy, một đơn vị riêng biệt trong lớp ẩn của mạng nơron. Mỗi nơron thực hiện hành động gồm 2 bước sau đây:

Tính toán tổng có trọng số của các giá trị đầu vào nhân với trọng số tương ứng của chúng.
Truyền tổng có trọng số làm dữ liệu đầu vào vào một hàm kích hoạt.

Một nơron trong lớp ẩn đầu tiên sẽ chấp nhận dữ liệu đầu vào từ các giá trị tính năng trong lớp đầu vào. Một nơron trong bất kỳ lớp ẩn nào ngoài lớp đầu tiên sẽ chấp nhận dữ liệu đầu vào từ các nơron trong lớp ẩn trước đó. Ví dụ: một nơron trong lớp ẩn thứ hai sẽ chấp nhận dữ liệu đầu vào từ các nơron trong lớp ẩn thứ nhất.

Hình minh hoạ sau đây làm nổi bật 2 nơron và dữ liệu đầu vào của chúng.

Một mạng nơron có một lớp đầu vào, hai lớp ẩn và một lớp đầu ra. Hai nơron được làm nổi bật: một ở lớp ẩn thứ nhất và một ở lớp ẩn thứ hai. Ô-ron được đánh dấu trong lớp ẩn đầu tiên nhận dữ liệu đầu vào từ cả hai tính năng trong lớp đầu vào. Ô nơron được đánh dấu trong lớp ẩn thứ hai nhận dữ liệu đầu vào từ mỗi trong số ba nơron ở lớp ẩn đầu tiên.

Một tế bào thần kinh trong mạng lưới thần kinh bắt chước hành vi của tế bào thần kinh trong bộ não và các bộ phận khác của hệ thần kinh.

N gam

#seq

#language

Một chuỗi N từ theo thứ tự. Ví dụ: thực sự điên rồ là 2 gam. Vì thứ tự có liên quan, nên madly thực sự khác 2 gram so với thực sự điên rồ.

N	Tên của loại N-gram này	Ví dụ
2	Bigram hoặc 2-gam	đi, đi, ăn trưa, ăn tối
3	3 gam hoặc 3 gam	ăn quá nhiều, ba con chuột bỉm, quả chuông kêu
4	4 gam	đi bộ trong công viên, thổi bụi trong gió, cậu bé ăn đậu lăng

Nhiều mô hình hiểu ngôn ngữ tự nhiên dựa vào N-gram để dự đoán từ tiếp theo mà người dùng sẽ nhập hoặc nói. Ví dụ: giả sử một người dùng nhập ba mù. Mô hình NLU dựa trên bát đồ có thể dự đoán rằng người dùng sẽ nhập chuột lần tiếp theo.

Đối chiếu N-gram với bag of Word, là các tập hợp từ không theo thứ tự.

hiểu ngôn ngữ tự nhiên (NLU)

#language

Từ viết tắt của từ hiểu ngôn ngữ tự nhiên.

nút (cây quyết định)

#df

Trong cây quyết định, mọi điều kiện hoặc lá.

Cây quyết định có 2 điều kiện và 3 lá.

nút (mạng nơron)

#fundamentals

Một nơ-ron trong một lớp ẩn.

nút (biểu đồ TensorFlow)

#TensorFlow

Một thao tác trong biểu đồ TensorFlow.

độ nhiễu

Nói chung, bất kỳ thứ gì che khuất tín hiệu trong một tập dữ liệu. Tiếng ồn có thể được đưa vào dữ liệu theo nhiều cách. Ví dụ:

Người đánh giá có sai sót khi gắn nhãn.
Người và thiết bị ghi sai hoặc bỏ qua giá trị tính năng.

điều kiện phi nhị giới

#df

Một điều kiện chứa nhiều hơn 2 kết quả có thể xảy ra. Ví dụ: điều kiện phi nhị phân sau đây có thể có 3 kết quả:

Một điều kiện (number_of_legs = ?) dẫn đến 3 kết quả có thể xảy ra. Một kết quả (number_of_legs = 8) dẫn đến một lá có tên là trình thu thập dữ liệu. Kết quả thứ hai (number_of_legs = 4) dẫn đến một chiếc lá có tên là chó. Kết quả thứ ba (number_of_legs = 2) dẫn đến một chiếc lá có tên là chim cánh cụt.

phi tuyến tính

#fundamentals

Mối quan hệ giữa hai hoặc nhiều biến không thể chỉ biểu diễn thông qua phép cộng và nhân. Mối quan hệ tuyến tính có thể được biểu thị dưới dạng đường; mối quan hệ phi tuyến tính không thể được biểu thị dưới dạng đường. Ví dụ: hãy xem xét hai mô hình, trong đó mỗi mô hình liên kết một tính năng với một nhãn duy nhất. Mô hình bên trái là mô hình tuyến tính còn mô hình bên phải là mô hình phi tuyến tính:

Hai lô đất. Mỗi biểu đồ là một đường, vì vậy đây là mối quan hệ tuyến tính.
Đồ thị còn lại là một đường cong, vì vậy, đây là mối quan hệ phi tuyến tính.

thiên kiến không phản hồi

#fairness

Xem phần thiên vị trong lựa chọn.

tính không cố định

#fundamentals

Một đối tượng có giá trị thay đổi trên một hoặc nhiều phương diện, thường là thời gian. Ví dụ: hãy xem xét các ví dụ sau đây về tình trạng không ổn định:

Số lượng bộ đồ bơi bán tại một cửa hàng cụ thể sẽ thay đổi theo mùa.
Số lượng trái cây cụ thể được thu hoạch tại một khu vực cụ thể bằng 0 trong phần lớn năm nhưng lớn trong một khoảng thời gian ngắn.
Do biến đổi khí hậu, nhiệt độ trung bình hằng năm đang thay đổi.

Trái ngược với sự ổn định.

chuẩn hoá

#fundamentals

Nói chung, đây là quá trình chuyển đổi phạm vi giá trị thực tế của một biến thành một dải giá trị chuẩn, chẳng hạn như:

-1 đến +1
0 đến 1
phân phối chuẩn

Ví dụ: giả sử phạm vi thực tế của các giá trị của một tính năng nhất định là từ 800 đến 2.400. Trong quá trình kỹ thuật tính năng, bạn có thể chuẩn hoá các giá trị thực tế xuống một phạm vi chuẩn, chẳng hạn như -1 đến +1.

Chuẩn hoá là một tác vụ phổ biến trong kỹ thuật tính năng. Các mô hình thường huấn luyện nhanh hơn (và đưa ra thông tin dự đoán chính xác hơn) khi mọi đối tượng dạng số trong vectơ đặc trưng có phạm vi gần bằng nhau.

phát hiện tính năng mới

Quá trình xác định xem một ví dụ mới (mới lạ) có xuất phát từ cùng một bản phân phối dưới dạng bộ huấn luyện hay không. Nói cách khác, sau khi huấn luyện trên tập hợp huấn luyện, tính năng phát hiện tính mới sẽ xác định liệu một ví dụ mới (trong quá trình suy luận hoặc trong khi huấn luyện bổ sung) có phải là điểm ngoại lệ hay không.

Tương phản với tính năng phát hiện điểm ngoại lai.

dữ liệu số

#fundamentals

Tính năng được biểu thị dưới dạng số nguyên hoặc số có giá trị thực. Ví dụ: mô hình định giá ngôi nhà có thể biểu thị kích thước của một ngôi nhà (tính bằng bộ vuông hoặc mét vuông) dưới dạng dữ liệu số. Biểu thị một đối tượng dưới dạng dữ liệu số cho biết rằng các giá trị của đối tượng đó có mối quan hệ toán học với nhãn. Nghĩa là, số mét vuông trong một ngôi nhà có thể có mối quan hệ toán học nào đó với giá trị của ngôi nhà.

Không phải tất cả dữ liệu số nguyên đều được biểu diễn dưới dạng dữ liệu số. Ví dụ: mã bưu chính ở một số nơi trên thế giới là số nguyên; tuy nhiên, không được biểu thị mã bưu chính bằng số nguyên dưới dạng dữ liệu số trong mô hình. Nguyên nhân là do mã bưu chính của 20000 không mạnh gấp đôi (hoặc một nửa) so với mã bưu chính 10000. Hơn nữa, mặc dù các mã bưu chính khác nhau có tương quan với các giá trị bất động sản khác nhau, nhưng chúng tôi không thể giả định rằng giá trị bất động sản tại mã bưu chính 20000 có giá trị gấp đôi so với giá trị bất động sản tại mã bưu chính 10000. Mã bưu chính phải được biểu thị dưới dạng dữ liệu phân loại.

Các tính năng số đôi khi được gọi là tính năng liên tục.

NumPy

Một thư viện toán học nguồn mở cung cấp các thao tác mảng hiệu quả trong Python. pandas được xây dựng trên NumPy.

O

mục tiêu

Chỉ số mà thuật toán của bạn đang cố gắng tối ưu hoá.

hàm mục tiêu

Công thức toán học hoặc chỉ số mà mô hình nhằm tối ưu hoá. Ví dụ: hàm mục tiêu cho hồi quy tuyến tính thường là Tỷ lệ mất bình phương trung bình. Do đó, khi huấn luyện một mô hình hồi quy tuyến tính, việc huấn luyện sẽ nhằm giảm thiểu tổn thất bình phương trung bình.

Trong một số trường hợp, mục tiêu là tối đa hoá hàm mục tiêu. Ví dụ: nếu hàm mục tiêu là độ chính xác, thì mục tiêu sẽ là tối đa hoá độ chính xác.

Xem thêm về mất.

điều kiện xiên

#df

Trong cây quyết định, một điều kiện bao gồm nhiều tính năng. Ví dụ: nếu chiều cao và chiều rộng đều là hai tính năng, thì sau đây là điều kiện xiên:

  height > width

Tương phản với điều kiện căn chỉnh trục.

ngoại tuyến

#fundamentals

Từ đồng nghĩa với static.

suy luận ngoại tuyến

#fundamentals

Quy trình mô hình tạo một loạt đề xuất, sau đó lưu vào bộ nhớ đệm (lưu) các dự đoán đó. Sau đó, các ứng dụng có thể truy cập vào thông tin dự đoán từ bộ nhớ đệm thay vì chạy lại mô hình.

Ví dụ: hãy xem xét một mô hình tạo dự báo thời tiết địa phương (dự đoán) bốn giờ một lần. Sau mỗi mô hình chạy, hệ thống sẽ lưu tất cả thông tin dự báo thời tiết địa phương vào bộ nhớ đệm. Các ứng dụng thời tiết truy xuất thông tin dự báo từ bộ nhớ đệm.

Suy luận ngoại tuyến còn được gọi là suy luận tĩnh.

Trái ngược với suy luận trực tuyến.

mã hoá một nóng

#fundamentals

Biểu diễn dữ liệu phân loại dưới dạng một vectơ trong đó:

Một phần tử được đặt thành 1.
Tất cả các phần tử khác được đặt thành 0.

Phương thức mã hoá một nóng thường dùng để biểu thị các chuỗi hoặc giá trị nhận dạng có một tập hợp hữu hạn gồm các giá trị có thể có. Ví dụ: giả sử một tính năng phân loại nhất định có tên là Scandinavia có thể có 5 giá trị:

"Đan Mạch"
"Thuỵ Điển"
"Na Uy"
"Phần Lan"
"Iceland"

Mã hoá một nóng có thể đại diện cho từng giá trị trong số năm giá trị như sau:

country	Vectơ
"Đan Mạch"	1	0	0	0	0
"Thuỵ Điển"	0	1	0	0	0
"Na Uy"	0	0	1	0	0
"Phần Lan"	0	0	0	1	0
"Iceland"	0	0	0	0	1

Nhờ phương thức mã hoá một nóng, một mô hình có thể học nhiều kiểu kết nối dựa trên từng quốc gia trong số 5 quốc gia.

Việc trình bày một tính năng dưới dạng dữ liệu dạng số là giải pháp thay thế cho phương thức mã hoá một lần. Thật không may, việc đại diện cho các quốc gia Scandinavia bằng số không phải là một lựa chọn hay. Ví dụ: hãy xem xét cách biểu diễn dạng số sau đây:

"Đan Mạch" là 0
"Thuỵ Điển" là 1
"Na Uy" là 2
"Phần Lan" là 3
"Iceland" là 4

Với phương thức mã hoá số, một mô hình sẽ diễn giải số thô theo toán học và sẽ cố gắng huấn luyện các số đó. Tuy nhiên, Iceland thực sự không nhiều gấp đôi (hoặc một nửa) so với Na Uy, vì vậy, mô hình này sẽ đi đến một số kết luận kỳ lạ.

học một lần

Phương pháp học máy, thường dùng để phân loại đối tượng, được thiết kế để tìm hiểu các thuật toán phân loại hiệu quả qua một ví dụ huấn luyện duy nhất.

Hãy xem thêm về phương pháp học từ vài lần và học tập tự động đăng ký.

nhắc một lần

#language

#AI tạo sinh

Một lời nhắc chứa một ví dụ minh hoạ cách mô hình ngôn ngữ lớn cần phản hồi. Ví dụ: lời nhắc sau đây chứa một ví dụ cho thấy một mô hình ngôn ngữ lớn về cách nó sẽ trả lời một truy vấn.

Các thành phần trong một câu lệnh	Ghi chú
`Đơn vị tiền tệ chính thức của quốc gia được chỉ định là gì?`	Câu hỏi mà bạn muốn LLM trả lời.
`Pháp: EUR`	Một ví dụ.
`Ấn Độ:`	Truy vấn thực tế.

So sánh và đối chiếu lời nhắc một lần với các cụm từ sau:

lời nhắc tự động đăng ký
lời nhắc qua vài lần

một so với tất cả

#fundamentals

Do vấn đề phân loại xảy ra với các lớp N, một giải pháp bao gồm N thuật toán phân loại nhị phân riêng biệt – một thuật toán phân loại nhị phân cho từng kết quả có thể xảy ra. Ví dụ: trong một mô hình phân loại các ví dụ là động vật, rau củ hoặc khoáng sản, giải pháp một so với tất cả sẽ cung cấp 3 thuật toán phân loại nhị phân riêng biệt sau đây:

động vật so với không phải động vật
rau so với không rau
khoáng sản so với không khoáng sản

trực tuyến

#fundamentals

Từ đồng nghĩa với dynamic.

suy luận trực tuyến

#fundamentals

Tạo thông tin dự đoán theo yêu cầu. Ví dụ: giả sử một ứng dụng truyền dữ liệu đầu vào vào mô hình và đưa ra yêu cầu cho thông tin dự đoán. Một hệ thống sử dụng thông tin dự đoán trực tuyến sẽ phản hồi yêu cầu bằng cách chạy mô hình (và trả về thông tin dự đoán cho ứng dụng).

Trái ngược với suy luận ngoại tuyến.

hoạt động (op)

#TensorFlow

Trong TensorFlow, bất kỳ quy trình nào tạo, thao tác hoặc huỷ bỏ Tensor. Ví dụ: nhân ma trận là một phép toán lấy 2 Tensor làm dữ liệu đầu vào và tạo ra một Tensor làm đầu ra.

Thuế cơ hội

Thư viện tối ưu hoá và xử lý độ dốc cho JAX. Optax hỗ trợ hoạt động nghiên cứu bằng cách cung cấp các thành phần có thể kết hợp lại theo các cách tuỳ chỉnh để tối ưu hoá các mô hình tham số, chẳng hạn như mạng nơron sâu. Các mục tiêu khác bao gồm:

Cung cấp cách triển khai các thành phần cốt lõi dễ đọc, được kiểm thử kỹ lưỡng và hiệu quả.
Cải thiện năng suất bằng cách cho phép kết hợp các thành phần cấp thấp vào trình tối ưu hoá tuỳ chỉnh (hoặc các thành phần xử lý độ dốc khác).
Tăng tốc việc áp dụng các ý tưởng mới bằng cách giúp mọi người dễ dàng đóng góp.

trình tối ưu hoá

Cách triển khai cụ thể của thuật toán giảm dần độ dốc. Các trình tối ưu hoá phổ biến bao gồm:

AdaGrad, là viết tắt của phương thức xuống dòng GRADient theo phương thức ADAptive GRADient.
Adam, viết tắt của ADAptive with Momentum.

thiên kiến đồng nhất ngoài nhóm

#fairness

Xu hướng thấy các thành viên ngoài nhóm giống với các thành viên trong nhóm hơn khi so sánh thái độ, giá trị, đặc điểm tính cách và các đặc điểm khác. Trong nhóm là những người mà bạn tương tác thường xuyên; ngoài nhóm là những người mà bạn không thường xuyên tương tác. Nếu bạn tạo một tập dữ liệu bằng cách yêu cầu mọi người cung cấp các thuộc tính về ngoài nhóm, thì các thuộc tính đó có thể ít sắc thái và định kiến hơn các thuộc tính mà người tham gia liệt kê cho những người trong nhóm của họ.

Ví dụ: Lilliputians có thể mô tả rất chi tiết nhà của những người hoa khác, trích dẫn những điểm khác biệt nhỏ về phong cách kiến trúc, cửa sổ, cửa ra vào và kích thước. Tuy nhiên, cũng có thể chỉ cần tuyên bố rằng tất cả người Brazil đều sống trong những ngôi nhà giống nhau.

Thiên vị về tính đồng nhất ngoài nhóm là một dạng của xu hướng phân bổ nhóm.

Hãy xem thêm về thiên kiến trong nhóm.

phát hiện điểm ngoại lai

Quá trình xác định các điểm ngoại lai trong bộ huấn luyện.

Trái ngược với tính năng phát hiện hoạt động mới lạ.

các điểm ngoại lai

Các giá trị ở xa hầu hết các giá trị khác. Trong công nghệ học máy, bất kỳ điều nào sau đây đều là ngoại lệ:

Dữ liệu đầu vào có giá trị lớn hơn khoảng 3 độ lệch chuẩn so với giá trị trung bình.
Trọng số có giá trị tuyệt đối cao.
Các giá trị được dự đoán cách tương đối xa với giá trị thực tế.

Ví dụ: giả sử widget-price là tính năng của một mô hình nhất định. Giả sử giá trị trung bình widget-price là 7 Euro với độ lệch chuẩn là 1 Euro. Do đó, những ví dụ chứa widget-price 12 Euro hoặc 2 Euro sẽ được coi là trường hợp ngoại lệ vì mỗi mức giá đó có 5 độ lệch chuẩn so với giá trị trung bình.

Điểm ngoại lai thường do lỗi chính tả hoặc các lỗi nhập khác. Trong các trường hợp khác, các điểm ngoại lai không phải là lỗi; xét cho cùng, giá trị 5 độ lệch chuẩn so với giá trị trung bình là rất hiếm nhưng hầu như không thể làm được.

Các điểm ngoại lai thường gây ra vấn đề trong việc huấn luyện mô hình. Cắt bớt là một cách để quản lý các điểm ngoại lai.

đánh giá khi có sẵn trong túi (đánh giá OOB)

#df

Cơ chế để đánh giá chất lượng của rừng quyết định bằng cách kiểm thử từng cây quyết định theo ví dụ không được dùng trong quá trình huấn luyện cây quyết định đó. Ví dụ: trong sơ đồ sau đây, hãy lưu ý rằng hệ thống sẽ huấn luyện từng cây quyết định trên khoảng 2/3 số ví dụ, sau đó đánh giá so với 1/3 số ví dụ còn lại.

Một khu rừng quyết định bao gồm 3 cây quyết định.
Một cây quyết định sẽ huấn luyện trên 2/3 số ví dụ, sau đó sử dụng 1/3 còn lại để đánh giá OOB.
Cây quyết định thứ hai sẽ huấn luyện trên một 2/3 số ví dụ khác với cây quyết định trước đó, sau đó sử dụng 1/3 khác để đánh giá OOB so với cây quyết định trước đó.

Việc đánh giá ngay lập tức là phương pháp ước tính gần đúng và hiệu quả tính toán của cơ chế xác thực chéo. Trong quá trình xác thực chéo, một mô hình được huấn luyện cho mỗi vòng xác thực chéo (ví dụ: 10 mô hình được huấn luyện trong lần xác thực chéo gấp 10 lần). Với phương thức đánh giá OOB, một mô hình sẽ được huấn luyện. Vì hoạt động đóng gói giữ lại một số dữ liệu từ mỗi cây trong quá trình huấn luyện, nên hoạt động đánh giá OOB có thể sử dụng dữ liệu đó để ước chừng quá trình xác thực chéo.

lớp đầu ra

#fundamentals

Lớp "cuối cùng" của mạng nơron. Lớp đầu ra chứa thông tin dự đoán.

Hình minh hoạ sau đây cho thấy một mạng nơron sâu nhỏ có một lớp đầu vào, 2 lớp ẩn và một lớp đầu ra:

thừa vùng

#fundamentals

Tạo một model khớp với model để mô hình không thể đưa ra dự đoán chính xác về dữ liệu mới.

Việc chuẩn hoá có thể giảm tình trạng quá mức. Việc tập luyện trong một bộ bài tập lớn và đa dạng cũng có thể giúp giảm hoạt động tập luyện quá mức.

Hãy nhấp vào biểu tượng để xem thêm ghi chú.

Việc quá mức cần thiết giống như việc chỉ làm theo lời khuyên của giáo viên mà bạn yêu thích. Có thể bạn sẽ thành công trong lớp học của giáo viên đó, nhưng có thể bạn sẽ "thừa" ý tưởng của giáo viên đó và không thành công ở các lớp khác. Việc làm theo lời khuyên của nhiều giáo viên sẽ giúp bạn thích ứng tốt hơn với các tình huống mới.

lấy mẫu quá mức

Sử dụng lại ví dụ về một lớp thiểu số trong tập dữ liệu mất cân bằng lớp để tạo một bộ huấn luyện cân bằng hơn.

Ví dụ: hãy xem xét vấn đề phân loại nhị phân, trong đó tỷ lệ của lớp phần lớn so với lớp thiểu số là 5.000:1. Nếu tập dữ liệu có chứa một triệu ví dụ, thì tập dữ liệu đó chỉ chứa khoảng 200 ví dụ về lớp thiểu số. Điều này có thể là quá ít ví dụ để huấn luyện hiệu quả. Để khắc phục thiếu sót này, bạn có thể lấy mẫu (sử dụng lại) 200 ví dụ đó nhiều lần, có thể thu được đủ ví dụ để huấn luyện hữu ích.

Bạn cần cẩn thận về việc tập hợp quá mức khi lấy mẫu quá mức.

Ngược lại với tình trạng lấy mẫu thiếu.

Điểm

dữ liệu đóng gói

Một phương pháp lưu trữ dữ liệu hiệu quả hơn.

Dữ liệu đóng gói lưu trữ dữ liệu bằng cách sử dụng định dạng nén hoặc theo cách khác để cho phép truy cập dữ liệu hiệu quả hơn. Dữ liệu đóng gói giúp giảm thiểu dung lượng bộ nhớ và lượng điện toán cần thiết để truy cập vào dữ liệu đó, giúp đào tạo nhanh hơn và dự đoán mô hình hiệu quả hơn.

Dữ liệu đóng gói thường được dùng cùng với các kỹ thuật khác, chẳng hạn như tăng cường dữ liệu và điều chỉnh dữ liệu, để cải thiện hơn nữa hiệu suất của mô hình.

gấu trúc

#fundamentals

API phân tích dữ liệu theo cột, được xây dựng dựa trên numpy. Nhiều khung máy học, bao gồm cả TensorFlow, hỗ trợ cấu trúc dữ liệu gấu trúc làm dữ liệu đầu vào. Xem tài liệu về gấu trúc để biết thông tin chi tiết.

tham số

#fundamentals

Trọng số và thành kiến mà mô hình học được trong quá trình huấn luyện. Ví dụ: trong mô hình hồi quy tuyến tính, các tham số bao gồm độ chệch (b) và tất cả trọng số (w₁, w₂, v.v.) trong công thức sau:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Ngược lại, siêu tham số là các giá trị mà bạn (hoặc dịch vụ biến siêu tham số) cung cấp cho mô hình. Ví dụ: tốc độ học tập là một siêu tham số.

điều chỉnh hiệu quả thông số

#language

#AI tạo sinh

Một tập hợp các kỹ thuật để tinh chỉnh một mô hình ngôn ngữ được huấn luyện trước (PLM) hiệu quả hơn so với tính năng điều chỉnh đầy đủ. Tính năng điều chỉnh hiệu quả tham số thường tinh chỉnh ít tham số hơn nhiều so với tính năng tinh chỉnh đầy đủ, nhưng thường tạo ra một mô hình ngôn ngữ lớn hoạt động hiệu quả (hoặc gần như tương đương) như một mô hình ngôn ngữ lớn được tạo từ việc tinh chỉnh toàn bộ.

So sánh và đối chiếu việc điều chỉnh hiệu quả về thông số bằng:

điều chỉnh hướng dẫn
điều chỉnh lời nhắc

Điều chỉnh hiệu quả thông số còn được gọi là tinh chỉnh hiệu quả thông số.

Máy chủ thông số (PS)

#TensorFlow

Công việc theo dõi các tham số của mô hình trong chế độ cài đặt được phân phối.

cập nhật tham số

Thao tác điều chỉnh tham số của một mô hình trong quá trình huấn luyện, thường là trong một vòng lặp duy nhất của quá trình giảm dần độ dốc.

đạo hàm riêng

Đạo hàm trong đó tất cả trừ một trong các biến được coi là một hằng số. Ví dụ: đạo hàm riêng của f(x, y) đối với x là đạo hàm của f được coi là một hàm của riêng x (tức là giữ y không đổi). Đạo hàm riêng của f đối với x chỉ tập trung vào cách x thay đổi và bỏ qua mọi biến khác trong phương trình.

thiên kiến tham gia

#fairness

Từ đồng nghĩa với thiên kiến không phản hồi. Xem phần thiên vị trong lựa chọn.

chiến lược phân vùng

Thuật toán phân chia biến trên máy chủ thông số.

Người

Một khung lập trình được thiết kế để huấn luyện mô hình mạng nơron có quy mô lớn đến nỗi chúng trải dài đến nhiều TPU khối tăng tốc Lát cắt hoặc nhóm.

Pax được xây dựng dựa trên Flax, được xây dựng dựa trên JAX.

Sơ đồ cho biết vị trí của Pax trong ngăn xếp phần mềm.
Pax được xây dựng dựa trên JAX. Bản thân Pax bao gồm ba lớp. Lớp dưới cùng chứa TensorStore và Flax.
Lớp giữa chứa Optax và Flaxformer. Lớp trên cùng chứa Thư viện mô hình PrTrục. Fiddle được xây dựng dựa trên Pax.

máy quan sát perceptron

Một hệ thống (phần cứng hoặc phần mềm) nhận một hoặc nhiều giá trị đầu vào, chạy một hàm trên tổng có trọng số của các đầu vào và tính toán một giá trị đầu ra duy nhất. Trong công nghệ học máy, hàm này thường là phi tuyến tính, chẳng hạn như ReLU, sigmoid hoặc tanh. Ví dụ: perceptron sau đây dựa vào hàm sigmoid để xử lý 3 giá trị đầu vào:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

Trong hình minh hoạ sau đây, perceptron nhận 3 giá trị đầu vào, mỗi giá trị này sẽ tự được sửa đổi theo trọng số trước khi nhập vào perceptron:

Một giác quan có 3 dữ liệu đầu vào, mỗi giá trị nhân với các trọng số riêng biệt. Cảm biến nhận thức cho ra một giá trị duy nhất.

Perceptron là các nơron trong mạng nơron.

hiệu quả hoạt động

Thuật ngữ quá tải có các nghĩa như sau:

Ý nghĩa tiêu chuẩn trong kỹ thuật phần mềm. Cụ thể: Phần mềm này chạy nhanh (hoặc hiệu quả) đến mức nào?
Ý nghĩa trong công nghệ học máy. Ở đây, hiệu suất sẽ trả lời cho câu hỏi sau: model này chính xác đến mức nào? Vậy dự đoán của mô hình có tốt không?

tầm quan trọng của biến hoán vị

#df

Một loại mức độ quan trọng biến đánh giá mức tăng lỗi dự đoán của mô hình sau khi hiệu lực cho các giá trị của tính năng. Tầm quan trọng của biến hoán vị là một chỉ số độc lập với mô hình.

độ phức tạp

Một thước đo về mức độ hoàn thành nhiệm vụ của một model. Ví dụ: giả sử bạn cần đọc một vài chữ cái đầu tiên của từ mà người dùng đang nhập trên bàn phím điện thoại và đưa ra danh sách các từ có thể hoàn thành. Độ phức tạp, P của tác vụ này là số lần phỏng đoán bạn cần đưa ra để danh sách của bạn có chứa từ thực tế mà người dùng đang cố nhập.

Độ phức tạp liên quan đến nhiều entropy như sau:

$$P= 2^{-\text{cross entropy}}$$

quy trình

Cơ sở hạ tầng bao quanh thuật toán học máy. Quy trình bao gồm việc thu thập dữ liệu, đưa dữ liệu vào các tệp dữ liệu huấn luyện, huấn luyện một hoặc nhiều mô hình và xuất các mô hình sang giai đoạn sản xuất.

đường ống

#language

Một dạng tính song song của mô hình, trong đó quá trình xử lý mô hình được chia thành các giai đoạn liên tiếp và mỗi giai đoạn được thực thi trên một thiết bị khác nhau. Trong khi một giai đoạn đang xử lý một lô, giai đoạn trước đó có thể hoạt động trên lô tiếp theo.

Xem thêm nội dung đào tạo theo giai đoạn.

PJit

Hàm JAX giúp phân tách mã để chạy trên nhiều khối tăng tốc. Người dùng truyền một hàm đến pjit, hàm này sẽ trả về một hàm có ngữ nghĩa tương đương nhưng được biên dịch thành một phép tính XLA chạy trên nhiều thiết bị (chẳng hạn như GPU hoặc lõi TPU).

pjit cho phép người dùng phân đoạn các phép tính mà không cần viết lại bằng cách sử dụng trình phân vùng SPMD.

Kể từ tháng 3 năm 2023, pjit đã được hợp nhất với jit. Hãy tham khảo bài viết Mảng phân phối và tính năng song song tự động để biết thêm thông tin chi tiết.

PLM (Người quản lý hoạt động kinh doanh)

#language

#AI tạo sinh

Tên viết tắt của mô hình ngôn ngữ luyện sẵn.

Bản đồ pmap

Một hàm JAX thực thi bản sao của hàm đầu vào trên nhiều thiết bị phần cứng cơ bản (CPU, GPU hoặc TPU), với các giá trị đầu vào khác nhau. pmap dựa trên SPMD.

policy

#rl

Trong mô hình học tăng cường, việc ánh xạ xác suất của tác nhân từ trạng thái đến hành động.

gộp

#image

Giảm một ma trận (hoặc ma trận) do lớp tích chập tạo ra trước đó thành một ma trận nhỏ hơn. Phương pháp gộp thường liên quan đến việc lấy giá trị tối đa hoặc trung bình trong vùng gộp. Ví dụ, giả sử chúng ta có ma trận 3x3 sau:

Ma trận 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Phép toán gộp, cũng giống như phép tích chập, chia ma trận đó thành nhiều phần rồi trượt phép tích chập đó qua bước tiến. Ví dụ: giả sử thao tác gộp chia ma trận tích chập thành các lát 2x2 với sải chân 1x1. Như minh hoạ trong sơ đồ dưới đây, 4 hoạt động gộp sẽ diễn ra. Hãy tưởng tượng rằng mỗi thao tác gộp chọn giá trị tối đa là 4 trong lát cắt đó:

Phương pháp gộp giúp thực thi bất biến dịch thuật trong ma trận đầu vào.

Quy trình gộp cho các ứng dụng liên quan đến thị giác được gọi chính thức hơn là gộp không gian. Ứng dụng chuỗi thời gian thường gọi quy trình gộp là tổng hợp thời gian. Nói một cách đơn giản hơn, việc gộp chung thường được gọi là lấy mẫu phụ hoặc giảm tần số lấy mẫu.

mã hoá vị trí

#language

Một kỹ thuật thêm thông tin về vị trí của một mã thông báo theo trình tự vào hoạt động nhúng của mã thông báo đó. Mô hình biến áp sử dụng phương thức mã hoá vị trí để hiểu rõ hơn về mối quan hệ giữa các phần của trình tự.

Một cách triển khai phổ biến của phương thức mã hoá vị trí sử dụng hàm hình sin. (Cụ thể, tần suất và biên độ của hàm hình sin được xác định theo vị trí của mã thông báo trong chuỗi.) Kỹ thuật này cho phép mô hình Transformer học cách tham dự vào nhiều phần của trình tự dựa trên vị trí của các phần đó.

lớp dương

#fundamentals

Lớp mà bạn đang kiểm thử.

Ví dụ: lớp dương tính trong một mô hình ung thư có thể là "bướu". Lớp khẳng định trong thuật toán phân loại email có thể là "spam".

Đối chiếu với lớp phủ định.

Hãy nhấp vào biểu tượng để xem thêm ghi chú.

Thuật ngữ lớp dương tính có thể gây nhầm lẫn vì kết quả "tích cực" của nhiều hoạt động kiểm thử thường là kết quả không mong muốn. Ví dụ: lớp dương tính trong nhiều xét nghiệm y tế tương ứng với các khối u hoặc bệnh. Nhìn chung, bạn muốn bác sĩ nói với bạn: "Xin chúc mừng! Kết quả xét nghiệm của bạn là âm tính." Dù vậy, lớp dương tính là sự kiện mà kiểm thử đang tìm kiếm.

Phải thừa nhận rằng bạn đang kiểm thử đồng thời cho cả lớp tích cực và tiêu cực.

xử lý hậu kỳ

#fairness

#fundamentals

Điều chỉnh đầu ra của mô hình sau khi mô hình đã chạy. Bạn có thể sử dụng quy trình xử lý hậu kỳ để thực thi các quy tắc ràng buộc về tính công bằng mà không cần sửa đổi mô hình.

Ví dụ: Người dùng có thể áp dụng xử lý hậu kỳ cho một thuật toán phân loại nhị phân bằng cách đặt một ngưỡng phân loại sao cho duy trì sự tương đương của cơ hội cho một số thuộc tính bằng cách kiểm tra để đảm bảo rằng tỷ lệ dương tính thực đối với tất cả các giá trị của thuộc tính đó là giống nhau.

PR AUC (diện tích dưới đường cong PR)

Vùng dưới đường cong gợi lại độ chính xác nội suy, thu được bằng cách lập biểu đồ các điểm (thu hồi, độ chính xác) cho các giá trị khác nhau của ngưỡng phân loại. Tuỳ thuộc vào cách tính toán, PR AUC có thể tương đương với độ chính xác trung bình của mô hình.

PrTrục

Thư viện học máy cốt lõi, hiệu suất cao của Pax. PrTrục thường được gọi là "Thư viện lớp".

PrTrục không chỉ chứa các định nghĩa cho lớp mà còn chứa hầu hết các thành phần hỗ trợ, bao gồm:

dữ liệu đầu vào
thư viện cấu hình (HParam và Fiddle)
trình tối ưu hoá

PrTrục cung cấp các định nghĩa cho lớp Mô hình.

độ chính xác

Một chỉ số cho mô hình phân loại sẽ trả lời câu hỏi sau:

Khi mô hình này dự đoán lớp dương tính, tỷ lệ phần trăm các dự đoán là chính xác?

Dưới đây là công thức:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

trong đó:

dương tính thật có nghĩa là mô hình đã dự đoán chính xác lớp dương tính.
dương tính giả có nghĩa là mô hình đã dự đoán lớp dương tính bị nhầm lẫn.

Ví dụ: giả sử một mô hình đưa ra 200 dự đoán tích cực. Trong số 200 dự đoán tích cực sau đây:

150 trường hợp là dương tính thật.
50 là dương tính giả.

Trong trường hợp này:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Trái ngược với độ chính xác và thu hồi.

đường cong thu hồi chính xác

Đường cong về độ chính xác so với độ ghi nhớ ở nhiều ngưỡng phân loại.

dự đoán

#fundamentals

Đầu ra của mô hình. Ví dụ:

Thông tin dự đoán của mô hình phân loại nhị phân là lớp dương hoặc lớp phủ định.
Dự đoán của mô hình phân loại nhiều lớp là một lớp.
Dự đoán của mô hình hồi quy tuyến tính là một số.

#AI tạo sinh

Huấn luyện ban đầu của mô hình trên một tập dữ liệu lớn. Một số mô hình huấn luyện trước là những gã khổng lồ vụng về và thường phải được tinh chỉnh thông qua việc huấn luyện thêm. Ví dụ: các chuyên gia học máy có thể huấn luyện trước một mô hình ngôn ngữ lớn trên một tập dữ liệu văn bản khổng lồ, chẳng hạn như mọi trang tiếng Anh trên Wikipedia. Sau khi huấn luyện trước, mô hình thu được có thể được tinh chỉnh thêm thông qua bất kỳ kỹ thuật nào sau đây:

chưng cất
tinh chỉnh
điều chỉnh hướng dẫn
điều chỉnh hiệu quả thông số
điều chỉnh lời nhắc

niềm tin tiên phong

Những gì bạn tin về dữ liệu trước khi bắt đầu đào tạo về dữ liệu đó. Ví dụ: quy trình chính quy L₂ dựa trên niềm tin trước đó rằng trọng số phải nhỏ và bình thường được phân bổ quanh 0.

mô hình hồi quy xác suất

Mô hình hồi quy không chỉ sử dụng trọng số cho từng tính năng mà còn sử dụng độ không chắc chắn của các trọng số đó. Mô hình hồi quy xác suất tạo ra thông tin dự đoán và độ không chắc chắn của thông tin dự đoán đó. Ví dụ: mô hình hồi quy xác suất có thể đưa ra kết quả dự đoán là 325 với độ lệch chuẩn là 12. Để biết thêm thông tin về các mô hình hồi quy xác suất, hãy xem Colab trên tensorflow.org này.

hàm mật độ xác suất

Một hàm xác định tần suất của các mẫu dữ liệu có chính xác một giá trị cụ thể. Khi giá trị của một tập dữ liệu là số thực dấu phẩy động liên tục, kết quả khớp chính xác hiếm khi xảy ra. Tuy nhiên, việc integrating một hàm mật độ xác suất từ giá trị x thành giá trị y sẽ mang lại tần suất dự kiến của các mẫu dữ liệu trong khoảng từ x đến y.

Ví dụ: hãy xem xét một hàm phân phối chuẩn có giá trị trung bình là 200 và độ lệch chuẩn là 30. Để xác định tần suất dự kiến của các mẫu dữ liệu nằm trong phạm vi từ 211,4 đến 218,7, bạn có thể tích hợp hàm mật độ xác suất cho phân phối chuẩn từ 211,4 đến 218,7.

lời nhắc

#language

#AI tạo sinh

Bất kỳ văn bản nào được nhập làm dữ liệu đầu vào cho một mô hình ngôn ngữ lớn để điều chỉnh mô hình đó hoạt động theo một cách nhất định. Lời nhắc có thể ngắn như một cụm từ hoặc dài tuỳ ý (ví dụ: toàn bộ văn bản của một cuốn tiểu thuyết). Lời nhắc thuộc nhiều danh mục, bao gồm cả những danh mục xuất hiện trong bảng sau:

Danh mục lời nhắc	Ví dụ:	Ghi chú
Câu hỏi	`Một chú chim bồ câu có thể bay nhanh đến mức nào?`
Hướng dẫn	`Viết một bài thơ hài hước về hành vi kiếm lời nhờ chênh lệch giá.`	Một câu lệnh yêu cầu mô hình ngôn ngữ lớn làm gì đó.
Ví dụ:	`Dịch mã Markdown sang HTML. Ví dụ: Markdown: * mục danh sách HTML: <ul> <li>mục danh sách</li> </ul>`	Câu đầu tiên trong câu lệnh trong ví dụ này là một hướng dẫn. Phần còn lại của lời nhắc là ví dụ.
Vai trò	`Giải thích lý do phương pháp giảm độ dốc chuyển màu được dùng trong quá trình đào tạo học máy để lấy bằng Tiến sĩ Vật lý.`	Phần đầu của câu là phần hướng dẫn; cụm từ "đối với Tiến sĩ Vật lý" là phần vai trò.
Một phần dữ liệu đầu vào để mô hình hoàn tất	`Thủ tướng Vương quốc Anh sinh sống tại`	Lời nhắc nhập một phần có thể kết thúc đột ngột (như ví dụ này) hoặc kết thúc bằng dấu gạch dưới.

Mô hình AI tạo sinh có thể phản hồi câu lệnh bằng văn bản, mã, hình ảnh, nội dung nhúng, video... hầu như mọi nội dung.

học tập dựa trên câu lệnh

#language

#AI tạo sinh

Khả năng của một số mô hình cho phép chúng điều chỉnh hành vi để phản hồi việc nhập văn bản tuỳ ý (lời nhắc). Trong một mô hình học tập thông thường dựa trên câu lệnh, một mô hình ngôn ngữ lớn sẽ phản hồi câu lệnh bằng cách tạo văn bản. Ví dụ: giả sử người dùng nhập câu lệnh sau:

Tóm tắt Định luật chuyển động thứ ba của Newton.

Một mô hình có khả năng học dựa trên câu lệnh không được huấn luyện riêng để trả lời câu lệnh trước. Thay vào đó, mô hình này "biết" rất nhiều thông tin về vật lý, rất nhiều về các quy tắc ngôn ngữ chung và rất nhiều về những yếu tố tạo nên những câu trả lời hữu ích nhìn chung. Kiến thức đó là đủ để cung cấp câu trả lời (hy vọng) hữu ích. Ý kiến phản hồi bổ sung của người dùng ("Câu trả lời đó quá phức tạp." hoặc "Phản ứng là gì?") cho phép một số hệ thống học tập dựa trên câu lệnh từng bước cải thiện tính hữu ích của câu trả lời.

thiết kế câu lệnh

#language

#AI tạo sinh

Từ đồng nghĩa với kỹ thuật nhắc nhở.

thiết kế câu lệnh

#language

#AI tạo sinh

Nghệ thuật tạo lời nhắc để lấy câu trả lời mong muốn từ mô hình ngôn ngữ lớn. Con người thực hiện kỹ thuật gợi ý. Việc viết câu lệnh có cấu trúc hợp lý là một phần cần thiết để đảm bảo câu trả lời hữu ích từ một mô hình ngôn ngữ lớn. Kỹ thuật đưa ra lời nhắc phụ thuộc vào nhiều yếu tố, trong đó có:

Tập dữ liệu dùng để đào tạo trước và có thể là tinh chỉnh mô hình ngôn ngữ lớn.
Nhiệt độ và các tham số giải mã khác mà mô hình sử dụng để tạo phản hồi.

Hãy xem phần Giới thiệu về thiết kế lời nhắc để biết thêm thông tin chi tiết về cách viết lời nhắc hữu ích.

Thiết kế lời nhắc là một từ đồng nghĩa với kỹ thuật nhắc nhở.

điều chỉnh lời nhắc

#language

#AI tạo sinh

Cơ chế điều chỉnh hiệu quả tham số học một "tiền tố" mà hệ thống sẽ thêm vào lời nhắc thực tế.

Một biến thể của cách điều chỉnh lời nhắc (đôi khi được gọi là điều chỉnh tiền tố) là thêm tiền tố ở mọi lớp. Ngược lại, hầu hết việc điều chỉnh lời nhắc chỉ thêm một tiền tố vào lớp đầu vào.

Nhấp vào biểu tượng để tìm hiểu thêm về tiền tố.

Để điều chỉnh lời nhắc, "tiền tố" (còn gọi là "lời nhắc mềm") là một tập hợp vectơ cụ thể theo công việc đã học được thêm vào trước mã thông báo văn bản được nhúng từ câu lệnh thực tế. Hệ thống sẽ học lời nhắc mềm bằng cách đóng băng tất cả các tham số mô hình khác và tinh chỉnh một tác vụ cụ thể.

nhãn proxy

#fundamentals

Dữ liệu dùng để ước chừng các nhãn không có sẵn trực tiếp trong một tập dữ liệu.

Ví dụ: giả sử bạn phải huấn luyện một mô hình để dự đoán mức độ căng thẳng của nhân viên. Tập dữ liệu của bạn có chứa nhiều tính năng dự đoán nhưng không có nhãn mức độ căng thẳng. Không phải lo lắng, bạn chọn "tai nạn tại nơi làm việc" làm nhãn proxy cho mức độ căng thẳng. Suy cho cùng, những nhân viên chịu áp lực cao lại gặp phải nhiều tai nạn hơn là những nhân viên bình tĩnh. Hay vậy? Có thể tai nạn tại nơi làm việc thực sự tăng và giảm vì nhiều lý do.

Ví dụ thứ hai, giả sử bạn muốn đặt nhãn trời có đang mưa không? phải là nhãn Boolean cho tập dữ liệu, nhưng tập dữ liệu của bạn không chứa dữ liệu về mưa. Nếu có ảnh chụp, bạn có thể lấy ảnh chụp mọi người mang ô để gắn nhãn đại diện cho trời có mưa không? Đó có phải là một nhãn proxy tốt không? Có thể xảy ra, nhưng mọi người ở một số nền văn hoá có nhiều khả năng mang ô để chống nắng hơn là mưa.

Nhãn proxy thường không hoàn hảo. Khi có thể, hãy chọn nhãn thực tế thay vì nhãn proxy. Tuy nhiên, khi không có nhãn thực sự, hãy chọn nhãn proxy rất cẩn thận, chọn nhãn proxy tối thiểu.

proxy (thuộc tính nhạy cảm)

#fairness

Một thuộc tính dùng làm giá trị thay thế cho một thuộc tính nhạy cảm. Ví dụ: mã bưu chính của một cá nhân có thể được dùng làm proxy cho thu nhập, chủng tộc hoặc sắc tộc của họ.

hàm thuần túy

Một hàm có kết quả chỉ dựa trên dữ liệu đầu vào và không có tác dụng phụ. Cụ thể, một hàm thuần tuý không sử dụng hoặc thay đổi trạng thái toàn cục nào, chẳng hạn như nội dung của tệp hoặc giá trị của biến bên ngoài hàm.

Bạn có thể dùng các hàm thuần tuý để tạo mã an toàn cho luồng, điều này có lợi khi phân đoạn mã model trên nhiều model.

Phương thức chuyển đổi hàm của JAX yêu cầu các hàm đầu vào là các hàm thuần tuý.

Hỏi

Hàm Q

#rl

Trong học tăng cường, hàm dự đoán trả về dự kiến từ việc thực hiện một hành động ở một trạng thái và sau đó tuân theo một chính sách nhất định.

Hàm Q còn được gọi là hàm giá trị hành động trạng thái.

Hỏi đáp

#rl

Trong phương pháp học tăng cường, một thuật toán cho phép tác nhân tìm hiểu hàm Q tối ưu của quá trình quyết định của Markov bằng cách áp dụng phương trình Bellman. Quy trình quyết định Markov mô hình hoá một môi trường.

số phân vị

Mỗi bộ chứa trong nhóm số lượng.

phân giỏ số lượng tử

Phân phối giá trị của một tính năng vào bộ chứa để mỗi bộ chứa chứa cùng một số lượng (hoặc gần như bằng nhau) ví dụ. Ví dụ: hình sau đây chia 44 điểm thành 4 nhóm, mỗi nhóm chứa 11 điểm. Để mỗi nhóm trong hình có chứa cùng số điểm, một số nhóm có cùng chiều rộng của các giá trị x.

44 điểm dữ liệu được chia thành 4 nhóm, mỗi nhóm có 11 điểm.
Mặc dù mỗi bộ chứa cùng một số điểm dữ liệu, nhưng một số bộ chứa có nhiều giá trị tính năng hơn so với các bộ chứa khác.

lượng tử hoá

Thuật ngữ bị quá tải có thể được dùng theo bất kỳ cách nào sau đây:

Triển khai nhóm lượng tử trên một tính năng cụ thể.
Chuyển đổi dữ liệu thành số 0 và số để lưu trữ, huấn luyện và suy luận nhanh hơn. Vì dữ liệu Boolean có độ nhiễu và lỗi cao hơn so với các định dạng khác, nên việc lượng tử hoá có thể cải thiện độ chính xác của mô hình. Các kỹ thuật lượng tử hoá bao gồm làm tròn, cắt bớt và liên kết.
Giảm số lượng bit dùng để lưu trữ tham số của mô hình. Ví dụ: giả sử các tham số của một mô hình được lưu trữ dưới dạng số dấu phẩy động 32 bit. Quá trình lượng tử hoá sẽ chuyển đổi các tham số đó từ 32 bit xuống 4, 8 hoặc 16 bit. Quá trình lượng tử hoá giúp giảm những điều sau:
- Điện toán, bộ nhớ, ổ đĩa và mức sử dụng mạng
- Thời gian để dự đoán một vị trí
- Mức tiêu thụ điện năng
Tuy nhiên, quá trình lượng tử hoá đôi khi làm giảm độ chính xác của các dự đoán của mô hình.

danh sách chờ

#TensorFlow

Hoạt động của TensorFlow triển khai cấu trúc dữ liệu hàng đợi. Thường được sử dụng trong I/O.

R

THẺ RAG

#fundamentals

Tên viết tắt của phương pháp tạo bằng cách truy xuất tăng cường.

khu rừng ngẫu nhiên

#df

Một tập hợp gồm cây quyết định, trong đó mỗi cây quyết định được huấn luyện bằng một tiếng ồn ngẫu nhiên cụ thể, chẳng hạn như đóng gói.

Rừng ngẫu nhiên là một loại rừng quyết định.

chính sách ngẫu nhiên

#rl

Trong phương pháp học tăng cường, một chính sách chọn một hành động một cách ngẫu nhiên.

thứ hạng

Một loại học có giám sát có mục tiêu là sắp xếp thứ tự một danh sách các mục.

thứ hạng (xếp hạng)

Vị trí thứ tự của một lớp trong một bài toán học máy giúp phân loại các lớp từ cao nhất đến thấp nhất. Ví dụ: một hệ thống xếp hạng hành vi có thể xếp hạng phần thưởng của một chú chó từ cao nhất (một miếng bít tết) đến thấp nhất (cải xoăn héo).

thứ hạng (Tensor)

#TensorFlow

Số lượng phương diện trong một Tensor. Ví dụ: một đại lượng vô hướng có hạng 0, vectơ có hạng 1 và ma trận có hạng 2.

Đừng nhầm lẫn với thứ hạng (thứ hạng).

người đánh giá

#fundamentals

Người cung cấp nhãn để ví dụ. "Người chú thích" là một tên khác của người đánh giá.

mức độ ghi nhớ

Một chỉ số cho mô hình phân loại sẽ trả lời câu hỏi sau:

Khi sự thật thực tế là lớp khẳng định, mô hình này xác định chính xác bao nhiêu phần trăm số dự đoán là lớp khẳng định?

Dưới đây là công thức:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

trong đó:

dương tính thật có nghĩa là mô hình đã dự đoán chính xác lớp dương tính.
âm tính giả (FN) có nghĩa là mô hình này đã dự đoán nhầm lớp phủ định.

Ví dụ: giả sử mô hình của bạn đưa ra 200 dự đoán về các ví dụ mà dữ liệu thực tế là lớp dương. Trong số 200 cụm từ gợi ý sau đây:

180 trường hợp là dương tính thật.
20 kết quả âm tính giả.

Trong trường hợp này:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Nhấp vào biểu tượng để xem ghi chú về các tập dữ liệu không cân bằng về lớp.

Lệnh gọi lại đặc biệt hữu ích khi xác định khả năng dự đoán của các mô hình phân loại mà trong đó hiếm khi có lớp dương. Ví dụ: hãy xem xét tập dữ liệu mất cân bằng lớp, trong đó lớp dương tính của một bệnh chỉ xuất hiện ở 10 trên 1 triệu bệnh nhân. Giả sử mô hình của bạn đưa ra 5 triệu dự đoán với kết quả sau:

30 kết quả tích cực
20 phủ định giả
4.999.000 phủ định đúng
950 trường hợp dương tính giả

Do đó, việc thu hồi mô hình này là:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

Ngược lại, độ chính xác của mô hình này là:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

Giá trị chính xác cao như vậy trông có vẻ ấn tượng nhưng về cơ bản thì vô nghĩa. Recall là một chỉ số hữu ích hơn nhiều đối với các tập dữ liệu không cân bằng về lớp so với độ chính xác.

hệ thống đề xuất

#recsystems

Một hệ thống chọn cho mỗi người dùng một tập hợp mục tương đối nhỏ mong muốn từ một tập dữ liệu lớn. Ví dụ: hệ thống đề xuất video có thể đề xuất 2 video trong tập hợp 100.000 video, chọn Casablanca và The Philior Story cho một người dùng, và Wonder Women và Black Panther cho một người dùng khác. Một hệ thống đề xuất video có thể đưa ra các đề xuất dựa trên các yếu tố như:

Phim mà những người dùng tương tự đã xếp hạng hoặc xem.
Thể loại, đạo diễn, diễn viên, đối tượng nhân khẩu học mục tiêu...

Đơn vị tuyến tính chỉnh hình (ReLU)

#fundamentals

Một hàm kích hoạt có hành vi sau đây:

Nếu đầu vào là số âm hoặc 0 thì đầu ra sẽ bằng 0.
Nếu đầu vào là số dương thì đầu ra sẽ bằng đầu vào.

Ví dụ:

Nếu đầu vào là -3 thì đầu ra là 0.
Nếu đầu vào là +3 thì đầu ra là 3.0.

Dưới đây là sơ đồ ReLU:

ReLU là chức năng kích hoạt rất phổ biến. Mặc dù có hành vi đơn giản, ReLU vẫn cho phép một mạng nơron tìm hiểu mối quan hệ phi tuyến tính giữa tính năng và nhãn.

mạng nơron lặp lại

#seq

Một mạng nơron có chủ đích chạy nhiều lần, trong đó các phần của mỗi nguồn cấp dữ liệu chạy trong lần chạy tiếp theo. Cụ thể, các lớp ẩn trong lần chạy trước cung cấp một phần dữ liệu đầu vào cho chính lớp ẩn đó trong lần chạy tiếp theo. Mạng nơron lặp lại đặc biệt hữu ích khi đánh giá trình tự, nhờ đó, các lớp ẩn có thể học hỏi từ những lần chạy trước đó của mạng nơron ở những phần trước đó của trình tự.

Ví dụ: hình sau đây cho thấy một mạng nơron định kỳ chạy 4 lần. Xin lưu ý rằng giá trị đã học được trong các lớp ẩn từ lần chạy đầu tiên sẽ trở thành một phần của dữ liệu đầu vào cho chính các lớp ẩn đó trong lần chạy thứ hai. Tương tự, các giá trị học được trong lớp ẩn trong lần chạy thứ hai sẽ trở thành một phần của dữ liệu đầu vào cho chính lớp ẩn đó trong lần chạy thứ ba. Bằng cách này, mạng nơron định kỳ sẽ dần dần huấn luyện và dự đoán ý nghĩa của toàn bộ chuỗi thay vì chỉ hiểu ý nghĩa của từng từ.

Một RNN chạy bốn lần để xử lý bốn từ nhập.

mô hình hồi quy

#fundamentals

Một mô hình tạo ra dự đoán dạng số một cách không chính thức. (Ngược lại, mô hình phân loại sẽ tạo thông tin dự đoán lớp.) Ví dụ: sau đây là tất cả các mô hình hồi quy:

Mô hình dự đoán giá trị của một ngôi nhà nhất định, chẳng hạn như 423.000 Euro.
Một mô hình dự đoán tuổi thọ của một cây nhất định, chẳng hạn như 23,2 năm.
Một mô hình dự đoán lượng mưa sẽ rơi ở một thành phố nhất định trong 6 giờ tới, chẳng hạn như 0,18 inch.

Hai loại mô hình hồi quy phổ biến là:

Hồi quy tuyến tính: Phương pháp này tìm đường phù hợp nhất với giá trị nhãn cho các đối tượng.
Hồi quy logic, tạo ra xác suất trong khoảng từ 0 đến 1 mà hệ thống thường ánh xạ tới dự đoán lớp.

Không phải mô hình nào đưa ra dự đoán dạng số là mô hình hồi quy. Trong một số trường hợp, dự đoán dạng số thực sự chỉ là một mô hình phân loại có tên lớp dạng số. Ví dụ: mô hình dự đoán một mã bưu chính dạng số là mô hình phân loại, không phải mô hình hồi quy.

điều chỉnh

#fundamentals

Bất kỳ cơ chế nào giúp giảm hiện tượng tập hợp quá mức. Các loại chính quy phổ biến bao gồm:

Điều chỉnh L₁
Điều chỉnh L₂
điều chỉnh bỏ ngang
dừng sớm (đây không phải là một phương thức chuẩn hoá chính thức, nhưng có thể hạn chế tình trạng quá mức một cách hiệu quả)

Việc chính quy cũng có thể được định nghĩa là hình phạt đối với độ phức tạp của mô hình.

Hãy nhấp vào biểu tượng để xem thêm ghi chú.

Việc chính quy hoá là một điều trái ngược. Việc tăng cường việc đều đặn thường tăng mức độ mất mát dữ liệu huấn luyện. Điều này gây nhầm lẫn vì không phải mục tiêu giảm thiểu mức độ mất mát quá trình huấn luyện hay sao?

Thực ra là không. Mục đích không phải là giảm thiểu tổn thất trong quá trình huấn luyện. Mục tiêu là đưa ra những dự đoán xuất sắc trên các ví dụ thực tế. Đáng chú ý là mặc dù việc tăng cường độ thường xuyên hoá sẽ làm tăng số lượng mất mát dữ liệu huấn luyện, nhưng điều này thường giúp các mô hình đưa ra dự đoán chính xác hơn trên các ví dụ thực tế.

tỷ lệ điều chỉnh

#fundamentals

Một số chỉ định tầm quan trọng tương đối của việc chuẩn hoá trong quá trình huấn luyện. Việc tăng tốc độ chuẩn hoá sẽ làm giảm việc điều chỉnh quá mức nhưng có thể làm giảm khả năng dự đoán của mô hình. Ngược lại, việc giảm hoặc bỏ qua tỷ lệ chính quy sẽ làm tăng tình trạng quá mức.

Nhấp vào biểu tượng để xem phép tính.

Tỷ lệ chính quy thường được biểu thị bằng hàm lambda chữ Hy Lạp. Phương trình mất được đơn giản hoá sau đây cho thấy ảnh hưởng của lambda:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

trong đó quy chuẩn là bất kỳ cơ chế chính quy nào, bao gồm;

Điều chỉnh L₁
Điều chỉnh L₂

học tăng cường (RL)

#rl

Một nhóm thuật toán học chính sách tối ưu có mục tiêu là tối đa hoá lợi tức khi tương tác với một môi trường. Ví dụ: Phần thưởng cuối cùng trong hầu hết các trò chơi là chiến thắng. Các hệ thống học tăng cường có thể trở thành chuyên gia khi chơi các trò chơi phức tạp bằng cách đánh giá trình tự của các lượt di chuyển trước đó trong trò chơi dẫn đến chiến thắng và những trình tự cuối cùng dẫn đến thua.

Học tăng cường từ phản hồi của con người (RLHF)

#AI tạo sinh

#rl

Sử dụng ý kiến phản hồi của nhân viên đánh giá để cải thiện chất lượng câu trả lời của mô hình. Ví dụ: cơ chế RLHF có thể yêu cầu người dùng đánh giá chất lượng câu trả lời của mô hình bằng biểu tượng cảm xúc 👍 hoặc 👎. Sau đó, hệ thống có thể điều chỉnh các câu trả lời trong tương lai dựa trên ý kiến phản hồi đó.

ReLU

#fundamentals

Tên viết tắt của Đơn vị tuyến tính chỉnh sửa.

vùng đệm phát lại

#rl

Trong các thuật toán giống DQN, bộ nhớ mà tác nhân dùng để lưu trữ các lượt chuyển đổi trạng thái nhằm sử dụng trong phát lại trải nghiệm.

hàng nhái

Bản sao của bộ huấn luyện hoặc mô hình, thường trên một máy khác. Ví dụ: một hệ thống có thể sử dụng chiến lược sau để triển khai tính năng tính song song dữ liệu:

Đặt bản sao của mô hình hiện có trên nhiều máy.
Gửi các tập hợp con khác nhau của tập hợp huấn luyện đến mỗi bản sao.
Tổng hợp các nội dung cập nhật tham số.

thiên kiến báo cáo

#fairness

Trên thực tế, tần suất mà mọi người viết về các hành động, kết quả hoặc thuộc tính không phản ánh tần suất của chúng trong thế giới thực hoặc mức độ đặc điểm của một thuộc tính của một lớp cá nhân. Thiên vị trong báo cáo có thể ảnh hưởng đến thành phần của dữ liệu mà các hệ thống học máy học được.

Ví dụ: trong các cuốn sách, từ laughed (c cười) phổ biến hơn từ reathed (hít thở). Một mô hình học máy ước tính tần suất tương đối cười và thở từ một tập sách có thể xác định rằng cười thường xuyên hơn so với thở.

trình bày

Quá trình ánh xạ dữ liệu với các tính năng hữu ích.

đang xếp hạng lại

#recsystems

Giai đoạn cuối cùng của hệ thống đề xuất, trong đó các mục được tính điểm có thể được chấm điểm lại theo một số thuật toán khác (thường là không phải học máy). Quá trình xếp hạng lại sẽ đánh giá danh sách các mục được tạo trong giai đoạn tính điểm, thực hiện những hành động như:

Loại bỏ các mặt hàng mà người dùng đã mua.
Tăng điểm số của các mặt hàng mới hơn.

tạo tăng cường truy xuất (RAG)

#fundamentals

Một kỹ thuật để cải thiện chất lượng của đầu ra mô hình ngôn ngữ lớn (LLM) bằng cách cung cấp nền tảng cho dữ liệu đó với các nguồn kiến thức được truy xuất sau khi mô hình được huấn luyện. RAG cải thiện độ chính xác của phản hồi của các LLM bằng cách cung cấp cho các LLM đã đào tạo quyền truy cập vào thông tin truy xuất từ các cơ sở kiến thức hoặc tài liệu đáng tin cậy.

Sau đây là một số động lực phổ biến khi sử dụng tính năng tạo dữ liệu tăng cường truy xuất:

Tăng độ chính xác thực tế của các câu trả lời do mô hình tạo ra.
Cấp cho mô hình quyền truy cập vào kiến thức mà mô hình không được huấn luyện.
Thay đổi kiến thức mà mô hình sử dụng.
Bật mô hình để trích dẫn nguồn.

Ví dụ: giả sử một ứng dụng hoá học sử dụng API PaLM để tạo bản tóm tắt liên quan đến truy vấn của người dùng. Khi phần phụ trợ của ứng dụng nhận được một truy vấn, phần phụ trợ sẽ:

Tìm kiếm dữ liệu ("truy xuất") có liên quan đến cụm từ tìm kiếm của người dùng.
Thêm ("augments") dữ liệu hoá học có liên quan vào cụm từ tìm kiếm của người dùng.
Hướng dẫn LLM tạo bản tóm tắt dựa trên dữ liệu được thêm vào.

return

#rl

Trong mô hình học tăng cường, với một chính sách nhất định và một trạng thái nhất định, kết quả trả về là tổng tất cả phần thưởng mà tác nhân mong muốn nhận được khi tuân theo chính sách từ trạng thái đến cuối tập. Nhân viên hỗ trợ có tính đến tính chất chậm trễ của phần thưởng dự kiến bằng cách chiết khấu phần thưởng theo các lượt chuyển đổi trạng thái cần thiết để nhận được phần thưởng.

Do đó, nếu hệ số chiết khấu là $\gamma$và $r_0, \ldots, r_{N}$biểu thị phần thưởng cho đến cuối tập, thì phép tính trả về sẽ như sau:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

phần thưởng

#rl

Trong mô hình học tăng cường, kết quả dạng số của việc thực hiện một hành động ở một trạng thái, do môi trường xác định.

điều chỉnh trượt

Từ đồng nghĩa với điều chuẩn hoá L₂. Thuật ngữ điều chỉnh rãnh thường được dùng trong ngữ cảnh thống kê thuần tuý, trong khi thuật ngữ điều chỉnh L₂ được dùng thường xuyên hơn trong công nghệ học máy.

RNN

#seq

Từ viết tắt của mạng nơron định kỳ.

Đường cong ROC (đặc tính hoạt động của máy thu)

#fundamentals

Biểu đồ về tỷ lệ dương tính thực so với tỷ lệ dương tính giả đối với các ngưỡng phân loại khác nhau trong quá trình phân loại tệp nhị phân.

Hình dạng của đường cong ROC cho thấy khả năng của mô hình phân loại nhị phân trong việc phân tách các lớp dương khỏi lớp phủ định. Ví dụ: giả sử rằng mô hình phân loại nhị phân tách biệt hoàn toàn tất cả lớp phủ định khỏi tất cả các lớp dương:

Một trục số có 8 ví dụ ở bên phải và 7 ví dụ phủ định ở bên trái.

Đường cong ROC của mô hình trước đó như sau:

Đường cong ROC. Trục x là Tỷ lệ dương tính giả và trục y là Tỷ lệ dương tính đúng. Đường cong có hình chữ L đảo ngược. Đường cong
bắt đầu từ (0.0,0.0) và đi thẳng lên (0.0,1.0). Sau đó, đường cong này đi từ (0.0,1.0) đến (1.0,1.0).

Ngược lại, hình minh hoạ sau đây vẽ biểu đồ các giá trị hồi quy logistic thô cho một mô hình rất tệ, không thể tách lớp âm khỏi lớp dương tính hoàn toàn:

Một trục số chứa các ví dụ dương và lớp phủ định được pha trộn hoàn toàn.

Đường cong ROC của mô hình này được thể hiện như sau:

Đường cong ROC, thực ra là một đường thẳng từ (0,0,0,0) đến (1,0,1,0).

Trong khi đó, trong thực tế, hầu hết các mô hình phân loại nhị phân đều tách các lớp dương và âm ở một mức độ nào đó, nhưng thường không hoàn hảo. Vì vậy, đường cong ROC điển hình nằm ở đâu đó giữa hai cực trị:

Đường cong ROC. Trục x là Tỷ lệ dương tính giả và trục y là Tỷ lệ dương tính đúng. Đường cong ROC ước tính một vòng cung rung chuyển đi qua các điểm la bàn từ Tây sang Bắc.

Điểm trên đường cong ROC gần nhất với (0,0,1.0) về mặt lý thuyết sẽ xác định ngưỡng phân loại lý tưởng. Tuy nhiên, một số vấn đề thực tế khác ảnh hưởng đến việc lựa chọn ngưỡng phân loại lý tưởng. Ví dụ: có thể kết quả âm tính giả sẽ gây nhiều khó chịu hơn so với kết quả dương tính giả.

Chỉ số dạng số có tên là AUC tóm tắt đường cong ROC thành một giá trị dấu phẩy động duy nhất.

lời nhắc nhập vai trò

#language

#AI tạo sinh

Một phần không bắt buộc trong lời nhắc giúp xác định đối tượng mục tiêu cho phản hồi của mô hình AI tạo sinh. Nếu không có lời nhắc vai trò, mô hình ngôn ngữ lớn sẽ cung cấp câu trả lời có thể hữu ích hoặc không hữu ích đối với người đặt câu hỏi. Với lời nhắc nhập vai trò, một mô hình ngôn ngữ lớn có thể trả lời theo cách phù hợp và hữu ích hơn cho một đối tượng mục tiêu cụ thể. Ví dụ: phần lời nhắc vai trò của các lời nhắc sau đây được in đậm:

Tóm tắt bài viết này cho bằng tiến sĩ kinh tế.
Mô tả cách thuỷ triều đối với một đứa trẻ mười tuổi.
Giải thích cuộc khủng hoảng tài chính năm 2008. Nói chuyện với một đứa trẻ nhỏ hoặc một chú chó săn mồi.

gốc

#df

Nút khởi đầu (điều kiện đầu tiên) trong cây quyết định. Theo quy ước, sơ đồ đặt gốc ở đầu cây quyết định. Ví dụ:

Cây quyết định có 2 điều kiện và 3 lá. Điều kiện bắt đầu (x > 2) là gốc.

thư mục gốc

#TensorFlow

Thư mục bạn chỉ định để lưu trữ các thư mục con của điểm kiểm tra TensorFlow và các tệp sự kiện của nhiều mô hình.

sai số bình phương trung bình cơ bản (RMSE)

#fundamentals

Căn bậc hai của Lỗi bình phương trung bình.

bất biến quay

#image

Trong một bài toán phân loại hình ảnh, thuật toán có thể phân loại hình ảnh thành công ngay cả khi hướng của hình ảnh thay đổi. Ví dụ: thuật toán vẫn có thể xác định một cây vợt tennis hướng lên trên, sang bên hay hướng xuống. Lưu ý rằng bất biến khi xoay không phải lúc nào cũng mong muốn; ví dụ: không nên phân loại số 9 lộn ngược là 9.

Xem thêm về biến số dịch và biến thiên kích thước.

R bình phương

Chỉ số hồi quy cho biết mức độ biến thiên của một nhãn do một tính năng riêng lẻ hoặc một nhóm tính năng. R bình phương là một giá trị nằm trong khoảng từ 0 đến 1, mà bạn có thể hiểu như sau:

Bình phương R bằng 0 có nghĩa là không có biến thể nào của nhãn là do tập hợp tính năng.
Giá trị R bình phương bằng 1 có nghĩa là tất cả biến thể của một nhãn đều do tập hợp tính năng tạo ra.
Giá trị R bình phương từ 0 đến 1 cho biết mức độ dự đoán biến thể của nhãn dựa trên một tính năng cụ thể hoặc nhóm tính năng. Ví dụ: hệ số R bình phương bằng 0,10 có nghĩa là 10% phương sai trong nhãn là do tập hợp tính năng, bình phương R là 0,20 có nghĩa là 20% là do tập hợp tính năng đó, v.v.

Bình phương R là bình phương của hệ số tương quan Pelison giữa các giá trị mà mô hình đã dự đoán và thông tin thực tế.

S

thiên kiến lấy mẫu

#fairness

Xem phần thiên vị trong lựa chọn.

lấy mẫu có thay thế

#df

Phương pháp chọn các mục từ một tập hợp các mục đề xuất, trong đó cùng một mục có thể được chọn nhiều lần. Cụm từ "có thay thế" có nghĩa là sau mỗi lựa chọn, mục đã chọn sẽ được trả về nhóm các mục đề xuất. Phương pháp nghịch đảo, lấy mẫu mà không thay thế, có nghĩa là bạn chỉ có thể chọn một mục đề xuất một lần.

Ví dụ: hãy xem xét những loại hoa quả sau:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Giả sử hệ thống chọn ngẫu nhiên fig làm mục đầu tiên. Nếu sử dụng tính năng lấy mẫu kèm với thay thế, thì hệ thống sẽ chọn mục thứ hai từ tập hợp sau:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Có, kiểu thiết lập vẫn giống trước đây, vì vậy hệ thống có thể chọn lại fig.

Nếu sử dụng tính năng lấy mẫu mà không thay thế, thì sau khi đã chọn, bạn sẽ không thể chọn lại mẫu. Ví dụ: nếu hệ thống chọn ngẫu nhiên fig làm mẫu đầu tiên, thì hệ thống sẽ không thể chọn lại fig. Do đó, hệ thống sẽ chọn mẫu thứ hai trong tập hợp (rút gọn) sau đây:

fruit = {kiwi, apple, pear, cherry, lime, mango}

Hãy nhấp vào biểu tượng để xem thêm ghi chú.

Từ thay thế trong lấy mẫu với thay thế khiến nhiều người nhầm lẫn. Trong tiếng Anh, replacement có nghĩa là "thay thế". Tuy nhiên, việc lấy mẫu bằng phương pháp thay thế thực sự sử dụng định nghĩa tiếng Pháp cho thay thế, có nghĩa là "đưa nội dung trở lại".

Từ tiếng Anh replacement được dịch là từ tiếng Pháp remplacement.

SavedModel

#TensorFlow

Định dạng được đề xuất để lưu và khôi phục các mô hình TensorFlow. SaveModel là một định dạng chuyển đổi tuần tự trung lập về ngôn ngữ, có thể khôi phục, cho phép các hệ thống và công cụ cấp cao hơn tạo, sử dụng và biến đổi các mô hình TensorFlow.

Xem chương Lưu và khôi phục trong Hướng dẫn dành cho lập trình viên TensorFlow để biết đầy đủ thông tin chi tiết.

Vận chuyển hàng tiết kiệm

#TensorFlow

Đối tượng TensorFlow chịu trách nhiệm lưu các điểm kiểm tra của mô hình.

đại lượng vô hướng

Một số hoặc một chuỗi đơn lẻ có thể được biểu thị dưới dạng tensor của thứ hạng 0. Ví dụ: mỗi dòng mã sau đây sẽ tạo một đại lượng vô hướng trong TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

điều chỉnh theo tỷ lệ

Bất kỳ phép biến đổi toán học hoặc kỹ thuật nào làm thay đổi phạm vi của nhãn và/hoặc giá trị tính năng. Một số hình thức điều chỉnh theo tỷ lệ rất hữu ích cho các phép biến đổi như chuẩn hoá.

Sau đây là một số hình thức phổ biến để điều chỉnh theo tỷ lệ hữu ích trong công nghệ Học máy:

tỷ lệ tuyến tính, thường sử dụng kết hợp phép trừ và phép chia để thay thế giá trị ban đầu bằng một số từ -1 đến +1 hoặc từ 0 đến 1.
tỷ lệ lôgarit, thay thế giá trị ban đầu bằng lôgarit.
Chuẩn hoá điểm Z, thay thế giá trị gốc bằng một giá trị dấu phẩy động biểu thị số độ lệch chuẩn so với giá trị trung bình của đối tượng đó.

Học tập

Một nền tảng học máy nguồn mở phổ biến. Vui lòng truy cập vào s ghim-learn.org.

ghi điểm

#recsystems

Một phần của hệ thống đề xuất cung cấp giá trị hoặc thứ hạng cho mỗi mục do giai đoạn tạo đề xuất tạo ra.

thiên kiến lựa chọn

#fairness

Lỗi trong kết luận rút ra từ dữ liệu được lấy mẫu do một quy trình lựa chọn tạo ra sự khác biệt có hệ thống giữa các mẫu được quan sát trong dữ liệu và những mẫu không quan sát được. Tồn tại các dạng thiên kiến lựa chọn sau đây:

thiên về mức độ phù hợp: Tập hợp được biểu thị trong tập dữ liệu không khớp với tập hợp mà mô hình học máy đang đưa ra dự đoán.
độ lệch lấy mẫu: Dữ liệu không được thu thập ngẫu nhiên từ nhóm mục tiêu.
thiên vị không phản hồi (còn gọi là thiên về tham gia): Người dùng thuộc một số nhóm nhất định chọn không tham gia khảo sát theo tỷ lệ khác với tỷ lệ người dùng thuộc các nhóm khác.

Ví dụ: giả sử bạn đang tạo một mô hình học máy để dự đoán mức độ thích thú của mọi người đối với một bộ phim. Để thu thập dữ liệu huấn luyện, bạn hãy phát một bản khảo sát cho tất cả mọi người ở hàng đầu rạp chiếu phim đang chiếu phim. Nhìn chung, đây có vẻ là một cách hợp lý để thu thập tập dữ liệu. Tuy nhiên, hình thức thu thập dữ liệu này có thể dẫn đến các dạng thiên kiến lựa chọn sau đây:

thiên kiến mức độ phù hợp: Bằng cách lấy mẫu từ một nhóm người đã chọn xem phim, dự đoán của mô hình của bạn có thể không khái quát hoá cho những người chưa thể hiện mức độ quan tâm đó đối với bộ phim.
thiên kiến lấy mẫu: Thay vì lấy mẫu ngẫu nhiên từ nhóm người dự định (tất cả những người xem phim), bạn chỉ lấy mẫu những người ở hàng đầu tiên. Có thể những người ngồi ở hàng đầu quan tâm đến bộ phim hơn những người ở hàng khác.
thiên kiến không phản hồi: Nhìn chung, những người có ý kiến mạnh mẽ có xu hướng trả lời các bản khảo sát không bắt buộc thường xuyên hơn so với những người có quan điểm ôn hoà. Vì bài khảo sát về phim là không bắt buộc, nên các phản hồi có nhiều khả năng tạo thành phân phối nhị thức hơn so với phân phối thông thường (hình chuông).

tự chú ý (còn gọi là tầng tự chú ý)

#language

Một lớp mạng nơron biến đổi một trình tự nhúng (ví dụ: nhúng mã thông báo) thành một chuỗi nhúng khác. Mỗi hoạt động nhúng trong trình tự đầu ra được xây dựng bằng cách tích hợp thông tin từ các phần tử của trình tự đầu vào thông qua cơ chế chú ý.

Phần bản thân của sự tự chú ý đề cập đến trình tự tham gia vào chính nó thay vì một số ngữ cảnh khác. Tự chú ý là một trong những thành phần chính của Transformer và sử dụng các thuật ngữ tra cứu trong từ điển, chẳng hạn như "truy vấn", "khoá" và "giá trị".

Lớp tự chú ý bắt đầu bằng một chuỗi nội dung biểu diễn đầu vào, mỗi nội dung cho một từ. Nội dung đại diện cho dữ liệu đầu vào của một từ có thể là một hành động nhúng đơn giản. Đối với mỗi từ trong một chuỗi nhập, mạng sẽ tính điểm mức độ liên quan của từ đó với mọi phần tử trong toàn bộ chuỗi từ. Điểm số về mức độ liên quan xác định mức độ đại diện cuối cùng của từ đó kết hợp với sự biểu thị của các từ khác.

Ví dụ: hãy xem xét câu sau:

Con vật không băng qua đường vì quá mệt.

Hình minh hoạ sau (từ Transformer: Một cấu trúc mạng nơron mới để tìm hiểu ngôn ngữ) cho thấy mẫu hình chú ý của lớp tự chú ý đối với đại từ it, trong đó độ tối của mỗi dòng cho biết mức độ đóng góp của mỗi từ vào cách trình bày:

Câu sau đây xuất hiện 2 lần: Con vật không băng qua đường vì quá mệt. Các dòng nối đại từ nhân xưng đó trong một câu với 5 mã (The, động vật, đường phố, nó và dấu chấm) trong câu còn lại. Đường phân cách giữa đại từ nhân xưng và từ động vật là mạnh nhất.

Lớp tự chú ý làm nổi bật những từ có liên quan đến "nó". Trong trường hợp này, lớp chú ý đã học được cách làm nổi bật các từ mà lớp đó có thể tham chiếu đến, chỉ định trọng số cao nhất cho động vật.

Đối với một chuỗi n mã thông báo, khả năng tự chú ý sẽ biến đổi chuỗi các nhúng n lần riêng biệt, một lần tại mỗi vị trí trong trình tự.

Hãy tham khảo thêm về tính năng tự chú ý và tự chú ý nhiều đầu.

học tự giám sát

Một bộ kỹ thuật để chuyển đổi vấn đề học máy không được giám sát thành vấn đề học máy có giám sát bằng cách tạo nhãn thay thế từ các ví dụ không có nhãn.

Một số mô hình dựa trên Transformer (chẳng hạn như BERT) sử dụng mô hình học tự giám sát.

Đào tạo tự giám sát là một phương pháp học bán giám sát.

tự huấn luyện

Một biến thể của mô hình học tự giám sát đặc biệt hữu ích khi đáp ứng tất cả các điều kiện sau:

Tỷ lệ ví dụ không được gắn nhãn so với ví dụ có gắn nhãn trong tập dữ liệu ở mức cao.
Đây là vấn đề phân loại.

Tính năng tự huấn luyện hoạt động bằng cách lặp lại qua 2 bước sau đây cho đến khi mô hình ngừng cải thiện:

Sử dụng công nghệ học máy có giám sát để huấn luyện một mô hình trên các ví dụ được gắn nhãn.
Sử dụng mô hình đã tạo ở Bước 1 để tạo cụm từ gợi ý (nhãn) cho các ví dụ chưa được gắn nhãn, chuyển những nội dung có độ tin cậy cao vào các ví dụ được gắn nhãn có nhãn dự đoán.

Lưu ý rằng mỗi lần lặp lại của Bước 2 sẽ thêm nhiều ví dụ được gắn nhãn để Bước 1 huấn luyện.

học bán giám sát

Huấn luyện một mô hình về dữ liệu, trong đó một số ví dụ huấn luyện có nhãn nhưng các ví dụ khác thì không. Một kỹ thuật đối với việc học bán giám sát là suy luận nhãn cho các ví dụ chưa được gắn nhãn, sau đó huấn luyện về các nhãn theo dự đoán để tạo một mô hình mới. Mô hình học bán giám sát có thể hữu ích nếu việc thu thập nhãn có nhiều chi phí nhưng rất nhiều ví dụ không được gắn nhãn.

Tự đào tạo là một kỹ thuật để học tập bán giám sát.

thuộc tính nhạy cảm

#fairness

Một thuộc tính của con người có thể được xem xét đặc biệt vì lý do pháp lý, đạo đức, xã hội hoặc cá nhân.

phân tích quan điểm

#language

Sử dụng các thuật toán thống kê hoặc học máy để xác định thái độ tổng thể của một nhóm (tích cực hay tiêu cực) đối với một dịch vụ, sản phẩm, tổ chức hoặc chủ đề. Ví dụ: bằng cách sử dụng công cụ hiểu ngôn ngữ tự nhiên, một thuật toán có thể phân tích cảm xúc đối với phản hồi bằng văn bản của một khoá học ở trường đại học để xác định mức độ mà học viên thường thích hoặc không thích khoá học.

mô hình chuỗi

#seq

Một mô hình có dữ liệu đầu vào phụ thuộc tuần tự. Ví dụ: dự đoán video tiếp theo đã xem từ một chuỗi các video đã xem trước đó.

tác vụ theo trình tự

#language

Một tác vụ chuyển đổi một chuỗi đầu vào của mã thông báo thành một chuỗi đầu ra của mã thông báo. Ví dụ: có 2 loại tác vụ theo trình tự đến trình tự phổ biến là:

Người dịch:
- Chuỗi nhập mẫu: "Anh yêu em".
- Chuỗi đầu ra mẫu: "Je t'aime."
Trả lời câu hỏi:
- Trình tự nhập mẫu: "Tôi có cần xe của mình ở Thành phố New York không?"
- Trình tự đầu ra mẫu: "Không. Vui lòng giữ xe của bạn ở nhà".

đang phân phát

Quá trình tạo ra một mô hình đã huấn luyện để cung cấp thông tin dự đoán thông qua tính năng suy luận trực tuyến hoặc suy luận ngoại tuyến.

hình dạng (Tensor)

Số phần tử trong mỗi thứ nguyên của một tensor. Hình dạng được biểu thị dưới dạng danh sách số nguyên. Ví dụ: tensor hai chiều sau đây có hình dạng [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow sử dụng định dạng hàng lớn (kiểu C) để biểu thị thứ tự của kích thước, đó là lý do hình dạng trong TensorFlow là [3,4] thay vì [4,3]. Nói cách khác, trong TensorFlow Tensor hai chiều, hình dạng là [số hàng, số cột].

phân đoạn

#TensorFlow

#GoogleCloud

Phân chia logic của bộ huấn luyện hoặc mô hình. Thông thường, một số quy trình sẽ tạo phân đoạn bằng cách chia ví dụ hoặc tham số thành các phần (thường) có kích thước bằng nhau. Sau đó, mỗi phân đoạn được gán cho một máy khác.

Việc phân đoạn một mô hình được gọi là sự song song của mô hình; việc phân đoạn dữ liệu được gọi là sự song song dữ liệu.

thu nhỏ

#df

Một siêu tham số trong tính năng tăng độ chuyển màu giúp kiểm soát việc tập hợp quá mức. Tình trạng co lại trong tính năng tăng độ dốc tương tự như tốc độ học tập trong phương thức giảm độ chuyển màu. Độ co rút là một giá trị thập phân từ 0 đến 1. Giá trị rút gọn thấp hơn làm giảm tình trạng quá mức so với giá trị thu nhỏ lớn hơn.

hàm sigmoid

#fundamentals

Một hàm toán học "chuyển đổi" giá trị đầu vào thành một phạm vi bị ràng buộc, thường là 0 đến 1 hoặc -1 đến +1. Tức là bạn có thể truyền bất kỳ số nào (hai, một triệu, tỷ lệ âm, bất kỳ) đến sigmoid và kết quả đầu ra vẫn sẽ nằm trong phạm vi bị hạn chế. Sơ đồ về hàm kích hoạt sigmoid sẽ có dạng như sau:

Hàm sigmoid có một số ứng dụng trong công nghệ học máy, bao gồm:

Chuyển đổi đầu ra thô của mô hình hồi quy logistic hoặc hồi quy đa thức thành xác suất.
Hoạt động như hàm kích hoạt trong một số mạng nơron.

Nhấp vào biểu tượng để xem phép tính.

Hàm sigmoid trên một số đầu vào x có công thức sau:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

Trong công nghệ học máy, x thường là tổng có trọng số.

đo lường độ tương đồng

#clustering

Trong các thuật toán trùng lặp, chỉ số được dùng để xác định mức độ giống nhau (mức độ giống nhau) của 2 ví dụ.

một chương trình / nhiều dữ liệu (SPMD)

Kỹ thuật tính song song trong đó cùng một phép tính được chạy song song trên nhiều dữ liệu đầu vào trên nhiều thiết bị. Mục tiêu của SPMD là thu được kết quả nhanh hơn. Đây là kiểu lập trình song song phổ biến nhất.

bất biến kích thước

#image

Trong một bài toán phân loại hình ảnh, thuật toán có thể phân loại hình ảnh thành công ngay cả khi kích thước của hình ảnh thay đổi. Ví dụ: thuật toán vẫn có thể xác định một con mèo cho dù nó tiêu thụ 2 triệu pixel hay 200 nghìn pixel. Xin lưu ý rằng ngay cả các thuật toán phân loại hình ảnh tốt nhất vẫn có các giới hạn thực tế về bất biến kích thước. Ví dụ: một thuật toán (hoặc con người) khó có thể phân loại chính xác hình ảnh mèo chỉ tiêu thụ 20 pixel.

Hãy xem thêm về bất biến dịch thuật và bất biến xoay vòng.

phác thảo

#clustering

Trong công nghệ học máy không được giám sát, một danh mục thuật toán tiến hành phân tích mức độ tương đồng sơ bộ trên các ví dụ. Thuật toán vẽ phác thảo sử dụng hàm băm nhạy cảm với vị trí để xác định các điểm có khả năng tương tự nhau rồi nhóm các điểm đó thành các nhóm.

Phác hoạ giúp giảm bớt lượng công việc tính toán cần thiết để tính toán độ tương đồng trên các tập dữ liệu lớn. Thay vì tính độ tương đồng cho từng cặp ví dụ trong tập dữ liệu, chúng tôi chỉ tính toán độ tương đồng cho từng cặp điểm trong mỗi nhóm.

biểu đồ bỏ qua

#language

Một n-gram có thể bỏ qua (hoặc "bỏ qua") các từ trong ngữ cảnh gốc, có nghĩa là các từ N có thể không nằm liền kề ban đầu. Chính xác hơn, "k-skip-n-gram" là một n-gram mà có thể có tối đa k từ đã bị bỏ qua.

Ví dụ: "con cáo nâu nhanh nhẹn" có thể có 2 gam sau đây:

"nhanh chóng"
"nâu nhanh"
" cáo nâu"

"1-skip-2-gram" là một cặp từ có nhiều nhất là 1 từ giữa chúng. Do đó, "con cáo nâu nhanh chóng" có 2 gam sau 1 lần bỏ qua:

"màu nâu"
" cáo nhanh"

Ngoài ra, tất cả 2 gam đều cũng là 1 từ bỏ qua 2 gam, vì có ít hơn một từ có thể bị bỏ qua.

Loại bỏ qua rất hữu ích trong việc giúp bạn hiểu thêm về ngữ cảnh xung quanh của một từ. Trong ví dụ, "fox" liên kết trực tiếp với "nhanh" trong tập hợp 1-skip-2 gam, chứ không phải trong tập hợp 2 gam.

Biểu tượng bỏ qua giúp huấn luyện các mô hình Nhúng từ.

softmax

#fundamentals

Một hàm xác định xác suất cho từng lớp có thể có trong mô hình phân loại nhiều lớp. Các xác suất cộng lại bằng chính xác là 1,0. Ví dụ: bảng sau đây cho thấy cách Softmax phân phối các xác suất khác nhau:

Hình ảnh là...	Xác suất
chó	0,85
cat	0,13
con ngựa	0,02

Softmax còn được gọi là softmax đầy đủ.

Trái ngược với chế độ lấy mẫu đề xuất.

Nhấp vào biểu tượng để xem phép tính.

Phương trình Softmax như sau:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

trong đó:

$\sigma_i$ là vectơ đầu ra. Mỗi phần tử của vectơ đầu ra chỉ định xác suất của phần tử này. Tổng của tất cả các phần tử trong vectơ đầu ra là 1,0. Vectơ đầu ra chứa cùng số phần tử như vectơ đầu vào, $z$.
$z$ là vectơ đầu vào. Mỗi phần tử của vectơ đầu vào chứa một giá trị dấu phẩy động.
$K$ là số phần tử trong vectơ đầu vào (và vectơ đầu ra).

Ví dụ, giả sử vectơ đầu vào là:

[1.2, 2.5, 1.8]

Do đó, softmax tính mẫu số như sau:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

Do đó, xác suất tối đa mềm của mỗi phần tử là:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

Do đó vectơ đầu ra là:

$$\sigma = [0.154, 0.565, 0.281]$$

Tổng của ba phần tử trong $\sigma$ là 1,0 Chà!

điều chỉnh lời nhắc mềm

#language

#AI tạo sinh

Một kỹ thuật để điều chỉnh mô hình ngôn ngữ lớn cho một tác vụ cụ thể mà không cần điều chỉnh chi tiết nhiều tài nguyên. Thay vì huấn luyện lại tất cả trọng số trong mô hình, tính năng điều chỉnh lời nhắc mềm sẽ tự động điều chỉnh lời nhắc để đạt được cùng một mục tiêu.

Với lời nhắc dạng văn bản, tính năng điều chỉnh lời nhắc mềm thường bổ sung các hoạt động nhúng mã thông báo bổ sung vào lời nhắc và sử dụng tính năng lan truyền ngược để tối ưu hoá dữ liệu đầu vào.

Lời nhắc "cứng" chứa mã thông báo thực thay vì nhúng mã thông báo.

đối tượng thưa

#language

#fundamentals

Một tính năng có giá trị chủ yếu là 0 hoặc trống. Ví dụ: một tính năng chứa một giá trị 1 và một triệu 0 giá trị là rất thưa thớt. Ngược lại, một tính năng dày đặc có các giá trị chủ yếu không bằng 0 hoặc trống.

Trong công nghệ học máy, rất nhiều tính năng đáng ngạc nhiên lại là các tính năng thưa thớt. Đối tượng phân loại thường là các đối tượng thưa thớt. Ví dụ: trong số 300 loài cây có thể có trong rừng, một ví dụ duy nhất có thể chỉ xác định được một cây phong. Hoặc trong số hàng triệu video có thể có trong thư viện video, một ví dụ duy nhất có thể xác định đúng là "Casablanca".

Trong mô hình, bạn thường biểu thị các tính năng thưa bằng mã hoá một lần. Nếu mã hoá một video nóng có kích thước lớn, bạn có thể đặt một lớp nhúng lên trên phương thức mã hoá một lần nóng để đạt được hiệu quả cao hơn.

biểu diễn thưa

#language

#fundamentals

Chỉ lưu trữ (các) vị trí của các phần tử khác 0 trong một đối tượng thưa.

Ví dụ: giả sử một đối tượng phân loại có tên là species xác định 36 loài cây trong một khu rừng cụ thể. Ngoài ra, giả định rằng mỗi ví dụ chỉ xác định một loài duy nhất.

Bạn có thể sử dụng vectơ một màu nóng để đại diện cho các loài cây trong mỗi ví dụ. Vectơ một nóng sẽ chứa một 1 duy nhất (để đại diện cho các loài cây cụ thể trong ví dụ đó) và 35 0 (để đại diện cho 35 loài cây không trong ví dụ đó). Vì vậy, nội dung biểu diễn một lần của maple có thể có dạng như sau:

Vectơ chứa giá trị 0 đến vị trí 23 chứa giá trị 0, vị trí
24 chứa giá trị 1 và vị trí từ 25 đến 35 chứa giá trị 0.

Ngoài ra, cách biểu diễn thưa thớt chỉ đơn giản là xác định vị trí của các loài cụ thể. Nếu maple nằm ở vị trí 24, thì giá trị biểu diễn thưa thớt của maple sẽ chỉ là:

Lưu ý rằng cách biểu diễn thưa thớt gọn gàng hơn nhiều so với cách biểu diễn một lần nóng.

Hãy nhấp vào biểu tượng để xem ví dụ phức tạp hơn một chút.

Giả sử mỗi ví dụ trong mô hình của bạn phải đại diện cho các từ (chứ không phải thứ tự của các từ đó) trong một câu tiếng Anh. Tiếng Anh bao gồm khoảng 170.000 từ, vì vậy, tiếng Anh là một tính năng phân loại với khoảng 170.000 phần tử. Hầu hết các câu tiếng Anh đều sử dụng một phần rất nhỏ trong số 170.000 từ đó,vì vậy, tập hợp từ trong một ví dụ gần như chắc chắn sẽ có dữ liệu thưa thớt.

Hãy xem xét câu sau:

My dog is a great dog

Bạn có thể sử dụng biến thể của vectơ một màu nóng để biểu thị các từ trong câu này. Trong biến thể này, nhiều ô trong vectơ có thể chứa một giá trị khác 0. Hơn nữa, trong biến thể này, một ô có thể chứa một số nguyên khác 1. Mặc dù các từ "của tôi", "là", "a" và "tuyệt vời" chỉ xuất hiện một lần trong câu, nhưng từ "chó" sẽ xuất hiện hai lần. Việc sử dụng biến thể vectơ một nóng này để biểu thị các từ trong câu này sẽ tạo ra vectơ 170.000 phần tử sau:

Một cách biểu thị thưa thớt của cùng một câu sẽ chỉ là:

Nhấp vào biểu tượng nếu bạn thấy khó hiểu.

Thuật ngữ "biểu diễn thưa" sẽ gây nhầm lẫn cho nhiều người vì bản thân việc biểu diễn thưa không phải là vectơ thưa. Thay vào đó, biểu diễn thưa thực sự là biểu diễn dày đặc của vectơ thưa. Định nghĩa biểu thị chỉ mục từ đồng nghĩa rõ ràng hơn một chút so với "biểu diễn thưa thớt".

vectơ thưa

#fundamentals

Vectơ có các giá trị hầu hết là số 0. Hãy xem thêm về tính năng thưa thớt và tính không đều đặn.

độ thưa

Số phần tử được đặt thành 0 (hoặc rỗng) trong một vectơ hoặc ma trận chia cho tổng số mục nhập trong vectơ hoặc ma trận đó. Ví dụ: hãy xem xét một ma trận gồm 100 phần tử, trong đó 98 ô chứa số không. Cách tính độ cân bằng như sau:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Độ thưa của đối tượng là độ thưa của vectơ đối tượng; độ thưa của mô hình là độ thưa của trọng số của mô hình.

gộp không gian

#image

Xem tính năng nhóm.

chia tách

#df

Trong cây quyết định, một tên khác cho điều kiện.

bộ chia

#df

Trong khi huấn luyện cây quyết định, quy trình (và thuật toán) chịu trách nhiệm tìm điều kiện tốt nhất ở mỗi nút.

Nhà cung cấp dịch vụ (SPMD)

Tên viết tắt của một chương trình / nhiều dữ liệu.

bình phương tổn thất bản lề

Hình vuông của mất bản lề. Tình trạng mất bản lề hình vuông gây ảnh hưởng nghiêm trọng hơn so với tình trạng mất bản lề thông thường.

tổn thất bình phương

#fundamentals

Từ đồng nghĩa với mất L₂.

huấn luyện theo giai đoạn

#language

Chiến thuật huấn luyện một mô hình theo trình tự gồm các giai đoạn riêng biệt. Mục tiêu có thể là đẩy nhanh quá trình huấn luyện hoặc đạt được chất lượng mô hình tốt hơn.

Dưới đây là hình minh hoạ về phương pháp xếp chồng tăng dần:

Giai đoạn 1 chứa 3 lớp ẩn, giai đoạn 2 chứa 6 lớp ẩn và giai đoạn 3 chứa 12 lớp ẩn.
Giai đoạn 2 bắt đầu huấn luyện với các trọng số đã học trong 3 lớp ẩn của Giai đoạn 1. Giai đoạn 3 bắt đầu huấn luyện với các trọng số đã học trong 6 lớp ẩn của Giai đoạn 2.

Có 3 giai đoạn: giai đoạn 1, giai đoạn 2, giai đoạn 3.
Mỗi giai đoạn chứa một số lớp khác nhau: Giai đoạn 1 chứa
3 lớp, Giai đoạn 2 chứa 6 lớp và Giai đoạn 3 chứa 12 lớp.
3 lớp đầu tiên của Giai đoạn 1 trở thành 3 lớp đầu tiên của Giai đoạn 2.
Tương tự, 6 lớp từ Giai đoạn 2 trở thành 6 lớp đầu tiên của Giai đoạn 3.

Xem thêm về quy trình (pipeline).

state

#fundamentals

Thuật toán chuyển xuống dốc, trong đó kích thước lô là một. Nói cách khác, SGD huấn luyện trên một ví dụ duy nhất được chọn thống nhất ở ngẫu nhiên trong bộ huấn luyện.

sải chân

#image

Trong một phép tích chập hoặc gộp, delta trong mỗi chiều của loạt lát đầu vào tiếp theo. Ví dụ: ảnh động sau đây minh hoạ một sải chân (1,1) trong một phép tích chập. Do đó, lát đầu vào tiếp theo sẽ bắt đầu một vị trí ở bên phải của lát đầu vào trước đó. Khi thao tác đạt đến cạnh phải, lát cắt tiếp theo sẽ vượt hoàn toàn sang trái nhưng chỉ còn một vị trí hướng xuống dưới.

Ví dụ trước minh hoạ sải chân hai chiều. Nếu ma trận đầu vào là ma trận ba chiều, thì sải chân cũng sẽ là ba chiều.

giảm thiểu rủi ro có cấu trúc (SRM)

Một thuật toán cân bằng hai mục tiêu:

Nhu cầu xây dựng mô hình có tính dự đoán cao nhất (ví dụ: tổn thất thấp nhất).
Nhu cầu giữ cho mô hình càng đơn giản càng tốt (ví dụ: quy trình điều chỉnh mạnh).

Ví dụ: một hàm giảm thiểu mức độ mất nguồn + căn chỉnh trên tập hợp huấn luyện là một thuật toán giảm thiểu rủi ro có cấu trúc.

Trái ngược với chiến lược giảm thiểu rủi ro theo thực nghiệm.

lấy mẫu phụ

#image

Xem tính năng nhóm.

mã thông báo từ phụ

#language

Trong mô hình ngôn ngữ, mã thông báo là chuỗi con của một từ, có thể là toàn bộ từ.

Ví dụ: một từ như "itemize" (mặt hàng) có thể được chia thành các phần "item" (từ gốc) và "ize" (hậu tố), mỗi phần được biểu thị bằng một mã thông báo riêng. Việc tách các từ không phổ biến thành các từ như vậy, gọi là từ phụ, cho phép mô hình ngôn ngữ hoạt động trên các phần cấu thành phổ biến hơn của từ, chẳng hạn như tiền tố và hậu tố.

Ngược lại, những từ thông dụng như "đi" có thể không bị chia nhỏ và có thể được biểu thị bằng một mã thông báo duy nhất.

bản tóm tắt

#TensorFlow

Trong TensorFlow, một giá trị hoặc tập hợp các giá trị được tính toán ở một bước cụ thể, thường được dùng để theo dõi các chỉ số của mô hình trong quá trình huấn luyện.

học máy có giám sát

#fundamentals

Đào tạo một model từ model và model tương ứng. Công nghệ học máy có giám sát cũng tương tự như việc học một đối tượng bằng cách nghiên cứu một bộ câu hỏi và câu trả lời tương ứng cho các câu hỏi đó. Sau khi thành thạo cách liên kết giữa các câu hỏi và câu trả lời, học viên có thể đưa ra câu trả lời cho những câu hỏi mới (chưa từng thấy) về cùng một chủ đề.

So sánh với công nghệ học máy không được giám sát.

tính năng tổng hợp

#fundamentals

Một tính năng không có trong số các tính năng nhập nhưng được tập hợp từ một hoặc nhiều tính năng đó. Sau đây là các phương thức tạo tính năng tổng hợp:

Nhóm một đối tượng liên tục vào các thùng khoảng.
Tạo bảng tính năng.
Nhân (hoặc chia) một giá trị đối tượng với(các) giá trị của đối tượng khác hoặc với chính nó. Ví dụ: nếu a và b là các tính năng đầu vào, thì sau đây là ví dụ về các tính năng tổng hợp:
- ab
- a²
Áp dụng một hàm siêu nghiệm cho một giá trị đối tượng. Ví dụ: nếu c là một tính năng đầu vào, thì sau đây là ví dụ về các tính năng tổng hợp:
- sin(c)
- ln(c)

Các tính năng được tạo bằng cách chuẩn hoá hoặc điều chỉnh theo tỷ lệ không được xem là tính năng tổng hợp.

T

T5

#language

Mô hình học tập chuyển văn bản sang văn bản mà AI của Google ra mắt vào năm 2020 đã ra mắt. T5 là một mô hình bộ mã hoá gồm bộ giải mã, dựa trên kiến trúc Transformer, được huấn luyện trên một tập dữ liệu cực lớn. API này hiệu quả trong nhiều nhiệm vụ xử lý ngôn ngữ tự nhiên, chẳng hạn như tạo văn bản, dịch ngôn ngữ và trả lời câu hỏi theo cách trò chuyện.

T5 lấy tên từ năm chữ T trong "Biến chuyển văn bản sang văn bản".

T5X

#language

Một khung học máy nguồn mở, được thiết kế để xây dựng và đào tạo các mô hình xử lý ngôn ngữ tự nhiên (NLP) quy mô lớn. T5 được triển khai trên cơ sở mã T5X (được tạo dựa trên JAX và Flax).

Q- Learning theo bảng

#rl

Trong bài học củng cố, hãy triển khai học tập Q bằng cách sử dụng một bảng để lưu trữ hàm Q cho mọi tổ hợp giữa trạng thái và hành động.

mục tiêu

Từ đồng nghĩa với label.

mạng mục tiêu

#rl

Trong Deep Q- Learning, một mạng nơron gần đúng với mạng nơron chính, trong đó mạng nơron chính triển khai hàm Q hoặc chính sách. Sau đó, bạn có thể huấn luyện mạng chính trên các giá trị Q do mạng mục tiêu dự đoán. Do đó, bạn sẽ ngăn được vòng lặp phản hồi xảy ra khi mạng chính huấn luyện trên các giá trị Q do chính nó dự đoán. Bằng cách tránh phản hồi này, độ ổn định của quá trình huấn luyện sẽ tăng lên.

việc cần làm

Một vấn đề có thể được giải bằng kỹ thuật học máy, chẳng hạn như:

phân loại
hồi quy
nhóm
phát hiện hoạt động bất thường

nhiệt độ

#language

#image

#AI tạo sinh

Một siêu tham số kiểm soát mức độ ngẫu nhiên của dữ liệu đầu ra của mô hình. Nhiệt độ cao hơn dẫn đến kết quả đầu ra ngẫu nhiên nhiều hơn, trong khi nhiệt độ thấp hơn dẫn đến kết quả ngẫu nhiên ít hơn.

Việc chọn nhiệt độ tốt nhất phụ thuộc vào ứng dụng cụ thể và các thuộc tính ưu tiên của đầu ra của mô hình. Ví dụ: bạn có thể sẽ tăng nhiệt độ khi tạo một ứng dụng tạo đầu ra mẫu quảng cáo. Ngược lại, bạn có thể giảm nhiệt độ khi xây dựng một mô hình phân loại hình ảnh hoặc văn bản để cải thiện độ chính xác và tính nhất quán của mô hình.

#TensorFlow

Tổng số đại lượng vô hướng trong một Tensor. Ví dụ: Tensor [5, 10] có kích thước là 50.

TensorStore

Một thư viện giúp đọc và ghi các mảng đa chiều lớn một cách hiệu quả.

điều kiện chấm dứt

#rl

Trong bài học củng cố, các điều kiện xác định thời điểm một tập kết thúc, chẳng hạn như khi tác nhân đạt đến một trạng thái nhất định hoặc vượt quá số lần chuyển đổi trạng thái ngưỡng nhất định. Ví dụ: trong tic-tac-toe (còn gọi là chơi chỉ và chữ thập), một tập phim sẽ kết thúc khi người chơi đánh dấu ba dấu cách liên tiếp hoặc khi tất cả các dấu cách đều được đánh dấu.

thử nghiệm

#df

Trong cây quyết định, một tên khác cho điều kiện.

tổn thất

#fundamentals

Một chỉ số thể hiện mức giảm của mô hình so với nhóm kiểm thử. Khi xây dựng một model, bạn thường cố gắng giảm thiểu tình trạng mất kiểm thử. Lý do là tỷ lệ mất mát trong kiểm thử thấp là tín hiệu chất lượng mạnh hơn so với mất trong quá trình huấn luyện hoặc mất xác thực ở mức thấp.

Đôi khi, khoảng cách lớn giữa tình trạng mất kiểm thử và mất quá trình huấn luyện hoặc mất xác thực đôi khi cho thấy bạn cần tăng tỷ lệ chuẩn hoá.

bộ kiểm tra

Một tập hợp con của tập dữ liệu dành riêng để kiểm thử mô hình đã huấn luyện.

Thông thường, bạn chia các ví dụ trong tập dữ liệu thành 3 tập con riêng biệt sau đây:

bộ huấn luyện
bộ xác thực
một tập kiểm thử

Mỗi ví dụ trong một tập dữ liệu chỉ nên thuộc về một trong các tập hợp con trước đó. Ví dụ: một ví dụ không được thuộc cả bộ huấn luyện và tập hợp kiểm thử.

Tập hợp huấn luyện và tập hợp xác thực đều liên quan chặt chẽ đến việc huấn luyện một mô hình. Do tập hợp kiểm thử chỉ liên quan gián tiếp đến quá trình huấn luyện, nên tình trạng mất tính năng kiểm thử là một chỉ số có chất lượng ít thiên lệch hơn và có chất lượng cao hơn so với tình trạng mất mã nguồn trong quá trình huấn luyện hoặc mất tính xác thực.

span văn bản

#language

Khoảng chỉ mục mảng được liên kết với một phần phụ cụ thể của chuỗi văn bản. Ví dụ: từ good trong chuỗi Python s="Be good now" chiếm khoảng văn bản từ 3 đến 6.

tf.Example

#TensorFlow

Một bộ đệm giao thức tiêu chuẩn để mô tả dữ liệu đầu vào để huấn luyện hoặc dự đoán mô hình học máy.

tf.keras

#TensorFlow

Hoạt động triển khai Keras được tích hợp vào TensorFlow.

ngưỡng (đối với cây quyết định)

#df

Trong điều kiện được căn chỉnh theo trục, giá trị mà một tính năng sẽ được so sánh với giá trị đó. Ví dụ: 75 là giá trị ngưỡng trong điều kiện sau:

grade >= 75

phân tích chuỗi thời gian

#clustering

Một trường phụ dành cho công nghệ học máy và số liệu thống kê để phân tích dữ liệu tạm thời. Nhiều loại vấn đề trong công nghệ học máy yêu cầu phân tích chuỗi thời gian, bao gồm phân loại, phân cụm, dự báo và phát hiện hoạt động bất thường. Ví dụ: bạn có thể sử dụng dữ liệu phân tích chuỗi thời gian để dự đoán doanh số bán áo khoác mùa đông trong tương lai theo tháng dựa trên dữ liệu bán hàng trước đây.

bước thời gian

#seq

Một ô "không được đẩy" trong mạng nơron định kỳ. Ví dụ: hình sau đây cho thấy 3 bước thời gian (được gắn nhãn bằng các chỉ số dưới t-1, t và t+1):

Ba bước thời gian trong mạng nơron lặp lại. Kết quả của bước thời gian đầu tiên sẽ được nhập vào bước thời gian thứ hai. Đầu ra của bước thời gian thứ hai sẽ trở thành dữ liệu đầu vào cho bước thời gian thứ ba.

mã thông báo

#language

Trong mô hình ngôn ngữ, đơn vị nguyên tử mà mô hình đang huấn luyện và đưa ra thông tin dự đoán trên đó. Mã thông báo thường có một trong những dạng sau:

một từ – ví dụ: cụm từ "chó như mèo" bao gồm 3 mã thông báo từ: "chó", "giống" và "mèo".
một ký tự. Ví dụ: cụm từ "cá xe đạp" bao gồm 9 mã thông báo. (Lưu ý rằng khoảng trống được tính là một trong các mã.)
từ phụ – trong đó một từ có thể là một mã thông báo hoặc nhiều mã thông báo. Từ phụ bao gồm một từ gốc, một tiền tố hoặc một hậu tố. Ví dụ: một mô hình ngôn ngữ sử dụng từ con làm mã thông báo có thể xem từ "chó" là hai mã thông báo (từ gốc "chó" và hậu tố số nhiều "s"). Cùng một mô hình ngôn ngữ đó có thể xem từ đơn "cao hơn" là hai từ phụ (từ gốc "cao" và hậu tố "er").

#fundamentals

Quá trình xác định các tham số (trọng số và độ lệch) lý tưởng bao gồm mô hình. Trong quá trình huấn luyện, hệ thống sẽ đọc ví dụ và dần dần điều chỉnh các tham số. Quy trình huấn luyện sử dụng mỗi ví dụ ở bất cứ đâu từ vài lần đến hàng tỷ lần.

tổn thất trong quá trình huấn luyện

#fundamentals

Một chỉ số thể hiện sự sụt giảm của một mô hình trong một lần lặp lại huấn luyện cụ thể. Ví dụ: giả sử hàm tổn thất là Mean Squared Error (Lỗi bình phương trung bình). Có thể tổn thất trong quá trình huấn luyện (Lỗi bình phương trung bình) của vòng lặp thứ 10 là 2,2 và tổn thất trong quá trình huấn luyện ở lần lặp thứ 100 là 1,9.

Đường cong giảm hao tổn biểu thị mức độ mất mát trong quá trình huấn luyện so với số lần lặp lại. Đường cong thua lỗ cung cấp các gợi ý sau đây về việc huấn luyện:

Đường dốc xuống cho biết mô hình đang được cải thiện.
Đường dốc đi lên cho biết mô hình đang trở nên kém hơn.
Đường dốc phẳng có nghĩa là mô hình đã đạt đến sự hội tụ.

Ví dụ: đường cong thua lỗ tương đối lý tưởng sau đây cho thấy:

Đường dốc xuống dốc trong những lần lặp lại đầu tiên, ngụ ý việc cải thiện mô hình một cách nhanh chóng.
Dạng dốc làm phẳng dần (nhưng vẫn đi xuống) cho đến khi gần kết thúc quá trình huấn luyện, ngụ ý việc tiếp tục cải thiện mô hình với tốc độ chậm hơn đôi chút so với trong những lần lặp lại ban đầu.
Một đường dốc phẳng về phía cuối quá trình huấn luyện, cho thấy sự hội tụ.

Biểu đồ tỷ lệ mất mát trong quá trình huấn luyện so với số lần lặp lại. Đường cong tổn thất này bắt đầu với một đường dốc hướng xuống. Độ dốc sẽ làm phẳng dần cho đến khi độ dốc bằng 0.

Mặc dù tổn thất trong quá trình huấn luyện rất quan trọng, nhưng hãy xem thêm phần tổng quát.

sai lệch phân phát quảng cáo

#fundamentals

Sự khác biệt giữa hiệu suất của một mô hình trong quá trình huấn luyện và hiệu suất của chính mô hình đó trong quá trình phân phát.

bộ huấn luyện

#fundamentals

Tập hợp con của tập dữ liệu được dùng để huấn luyện một mô hình.

Thông thường, các ví dụ trong tập dữ liệu được chia thành 3 tập con riêng biệt sau đây:

một bộ huấn luyện
bộ xác thực
bộ thử nghiệm

Tốt nhất là mỗi ví dụ trong tập dữ liệu chỉ nên thuộc về một trong các tập hợp con trước. Ví dụ: một ví dụ không được thuộc về cả tập huấn luyện và tập hợp xác thực.

quỹ đạo

#rl

Trong học tăng cường, một chuỗi bộ dữ liệu đại diện cho một chuỗi chuyển đổi trạng thái của tác nhân, trong đó mỗi bộ dữ liệu tương ứng với trạng thái, tác nhân, phần thưởng và trạng thái tiếp theo cho một lượt chuyển đổi trạng thái nhất định.

học chuyển tiếp

Chuyển thông tin từ nhiệm vụ học máy này sang nhiệm vụ khác. Ví dụ: trong mô hình học đa nhiệm, một mô hình duy nhất giải quyết nhiều tác vụ, chẳng hạn như mô hình sâu có các nút đầu ra khác nhau cho các tác vụ khác nhau. Quá trình học chuyển giao có thể liên quan đến việc chuyển kiến thức từ giải pháp của một nhiệm vụ đơn giản sang một nhiệm vụ phức tạp hơn hoặc liên quan đến việc chuyển kiến thức từ một nhiệm vụ có nhiều dữ liệu sang một nhiệm vụ có ít dữ liệu hơn.

Hầu hết các hệ thống học máy đều giải quyết một công việc. Học chuyển giao là một bước đệm cho trí tuệ nhân tạo, trong đó một chương trình duy nhất có thể giải quyết nhiều nhiệm vụ.

Biến áp

#language

Một cấu trúc mạng nơron được Google phát triển dựa vào cơ chế tự chủ động để biến đổi một trình tự nhúng đầu vào thành một chuỗi các lượt nhúng đầu ra mà không cần dựa vào tập chập hoặc mạng nơron định kỳ. Bạn có thể xem Transformer là một ngăn xếp các lớp tự chú ý.

Transformer có thể bao gồm bất kỳ yếu tố nào sau đây:

một bộ mã hoá
bộ giải mã
cả bộ mã hoá và bộ giải mã

Bộ mã hoá chuyển đổi một trình tự nhúng thành một trình tự mới có cùng độ dài. Một bộ mã hoá bao gồm N lớp giống hệt nhau, mỗi lớp chứa 2 lớp con. Hai lớp con này được áp dụng ở mỗi vị trí của trình tự nhúng đầu vào, biến đổi từng phần tử của trình tự thành một nội dung nhúng mới. Lớp con đầu tiên của bộ mã hoá tổng hợp thông tin từ chuỗi đầu vào. Lớp con thứ hai của bộ mã hoá biến thông tin tổng hợp thành một mục nhúng đầu ra.

Bộ giải mã chuyển đổi một trình tự nhúng đầu vào thành một trình tự nhúng đầu ra, có thể với độ dài khác. Bộ giải mã cũng bao gồm N lớp giống hệt nhau với 3 lớp con, 2 lớp trong số này tương tự như các lớp con của bộ mã hoá. Lớp phụ bộ giải mã thứ ba nhận dữ liệu đầu ra của bộ mã hoá và áp dụng cơ chế tự chú ý để thu thập thông tin từ đó.

Bài đăng trên blog Transformer: Kiến trúc mạng nơron mới lạ để hiểu ngôn ngữ giới thiệu đầy đủ về Transformer.

bất biến thuận dịch

#image

Trong một bài toán phân loại hình ảnh, thuật toán có thể phân loại hình ảnh thành công ngay cả khi vị trí của các đối tượng trong hình ảnh thay đổi. Ví dụ: thuật toán vẫn có thể xác định một chú chó, cho dù chú chó nằm ở giữa khung hình hay ở cuối bên trái khung hình.

Hãy xem thêm về biến thiên kích thước và biến thiên xoay.

bát quái

#seq

#fundamentals

Tạo một model có khả năng dự đoán kém vì mô hình này chưa nắm bắt được đầy đủ độ phức tạp của dữ liệu huấn luyện. Nhiều vấn đề có thể gây ra tình trạng thiếu phù hợp, bao gồm:

Đào tạo về nhóm tính năng không chính xác.
Quá trình huấn luyện cho quá ít khoảng thời gian bắt đầu của hệ thống hoặc có tốc độ học hỏi quá thấp.
Chương trình đào tạo có tỷ lệ chuẩn hoá quá cao.
Cung cấp quá ít lớp ẩn trong một mạng nơron sâu.

lấy mẫu thiếu

Xoá ví dụ khỏi lớp phần lớn trong tập dữ liệu mất cân bằng lớp để tạo bộ huấn luyện cân bằng hơn.

Ví dụ: hãy xem xét một tập dữ liệu trong đó tỷ lệ của lớp đa số so với lớp thiểu số là 20:1. Để khắc phục sự mất cân bằng về lớp này, bạn có thể tạo một tập hợp huấn luyện bao gồm tất cả ví dụ về lớp thiểu số nhưng chỉ một phần mười ví dụ về lớp đa số, điều này sẽ tạo tỷ lệ lớp tập huấn luyện là 2:1. Nhờ việc giảm tần số lấy mẫu, tập hợp hình thức huấn luyện cân bằng hơn này có thể tạo ra một mô hình tốt hơn. Ngoài ra, bộ huấn luyện cân bằng hơn này có thể không có đủ ví dụ để huấn luyện một mô hình hiệu quả.

Trái ngược với tình trạng lấy mẫu quá mức.

một chiều

#language

Hệ thống chỉ đánh giá văn bản đứng trước một phần văn bản mục tiêu. Ngược lại, hệ thống hai chiều sẽ đánh giá cả văn bản đứng trước và theo sau một phần văn bản mục tiêu. Xem phần hai chiều để biết thêm thông tin chi tiết.

mô hình ngôn ngữ một chiều

#language

Một mô hình ngôn ngữ chỉ dựa trên xác suất dựa trên mã thông báo xuất hiện trước, chứ không phải sau, mã thông báo mục tiêu. Tương phản với mô hình ngôn ngữ hai chiều.

ví dụ chưa gắn nhãn

#fundamentals

Ví dụ có chứa tính năng nhưng không có nhãn. Ví dụ: bảng sau đây cho thấy 3 ví dụ không được gắn nhãn trong mô hình định giá ngôi nhà, mỗi ví dụ có 3 đặc điểm nhưng không có giá trị căn nhà:

Số lượng phòng ngủ	Số lượng phòng tắm	Tuổi
3	2	15
2	1	72
4	2	34

Trong công nghệ học máy có giám sát, các mô hình sẽ huấn luyện dựa trên các ví dụ được gắn nhãn và đưa ra dự đoán trên các ví dụ không có nhãn.

Trong mô hình học tập nửa giám sát và không được giám sát, các ví dụ không được gắn nhãn sẽ được sử dụng trong quá trình huấn luyện.

Đối chiếu ví dụ chưa gắn nhãn với ví dụ có nhãn.

học máy không giám sát

#clustering

#fundamentals

Đào tạo một model để tìm các mẫu trong một tập dữ liệu, thường là một tập dữ liệu chưa được gắn nhãn.

Việc sử dụng công nghệ học máy không được giám sát phổ biến nhất là để nhóm dữ liệu thành các nhóm gồm các ví dụ tương tự nhau. Ví dụ: một thuật toán học máy không được giám sát có thể nhóm các bài hát dựa trên nhiều thuộc tính của bản nhạc. Các cụm thu được có thể trở thành dữ liệu đầu vào cho các thuật toán học máy khác (ví dụ: cho một dịch vụ đề xuất nhạc). Việc phân cụm có thể hữu ích khi không có hoặc không có nhiều nhãn hữu ích. Ví dụ: trong các miền như chống hành vi sai trái và lừa đảo, các cụm có thể giúp con người hiểu rõ hơn về dữ liệu.

Trái ngược với công nghệ học máy có giám sát.

Hãy nhấp vào biểu tượng để xem thêm ghi chú.

Một ví dụ khác về công nghệ học máy không được giám sát là phân tích thành phần chính (PCA). Ví dụ: việc áp dụng PCA trên một tập dữ liệu chứa nội dung của hàng triệu giỏ hàng có thể cho thấy rằng giỏ hàng chứa chanh cũng thường chứa thuốc kháng axit.

lập mô hình mức tăng

Là một kỹ thuật lập mô hình, thường được dùng trong hoạt động tiếp thị, sẽ lập mô hình "hiệu ứng nhân quả" (còn gọi là "tác động gia tăng") của một "hành vi" đối với một "cá nhân". Sau đây là hai ví dụ:

Các bác sĩ có thể sử dụng mô hình mức tăng để dự đoán mức giảm tỷ lệ tử vong (tác động nhân quả) của một thủ thuật y tế (phương pháp điều trị) tuỳ thuộc vào độ tuổi và tiền sử bệnh của từng bệnh nhân (cá nhân).
Các nhà tiếp thị có thể sử dụng quy trình lập mô hình mức tăng để dự đoán khả năng mua hàng tăng (tác động nhân quả) nhờ một quảng cáo (thử nghiệm) đối với một người (cá nhân).

Quy trình lập mô hình mức tăng khác với phân loại hoặc hồi quy ở chỗ một số nhãn (ví dụ: một nửa số nhãn trong phương thức xử lý nhị phân) luôn bị thiếu trong quy trình lập mô hình mức tăng. Ví dụ: một bệnh nhân có thể được điều trị hoặc không được điều trị; do đó, chúng tôi chỉ có thể quan sát xem liệu bệnh nhân đó có lành hay không chỉ trong một trong hai tình huống này (chứ không phải cả hai). Ưu điểm chính của mô hình mức tăng là mô hình này có thể tạo thông tin dự đoán cho tình huống không quan sát được (tình huống phản thực tế) và sử dụng mô hình này để tính toán hiệu ứng nhân quả.

tăng cường

Áp dụng trọng số cho lớp lấy mẫu chậm bằng với hệ số mà bạn đã lấy mẫu xuống.

ma trận người dùng

#recsystems

Trong hệ thống đề xuất, một vectơ nhúng được tạo bằng cách phân tích ma trận chứa các tín hiệu tiềm ẩn về lựa chọn ưu tiên của người dùng. Mỗi hàng của ma trận người dùng chứa thông tin về độ mạnh tương đối của nhiều tín hiệu ẩn đối với một người dùng. Chẳng hạn, bạn có thể cân nhắc đến một hệ thống đề xuất phim. Trong hệ thống này, các tín hiệu ẩn trong ma trận người dùng có thể đại diện cho mối quan tâm của từng người dùng đối với một số thể loại cụ thể, hoặc có thể là những tín hiệu khó hiểu hơn liên quan đến những hoạt động tương tác phức tạp trên nhiều yếu tố.

Ma trận người dùng có một cột cho mỗi tính năng tiềm ẩn và một hàng cho mỗi người dùng. Tức là ma trận người dùng có cùng số hàng với ma trận mục tiêu đang được phân tích thành nhân tử. Ví dụ: trong một hệ thống đề xuất phim cho 1.000.000 người dùng, ma trận người dùng sẽ có 1.000.000 hàng.

V

xác thực

#fundamentals

Đánh giá ban đầu về chất lượng của mô hình. Quy trình xác thực kiểm tra chất lượng dự đoán của mô hình so với bộ xác thực.

Vì bộ xác thực khác với bộ huấn luyện, nên quy trình xác thực sẽ giúp ngăn ngừa tình trạng tập hợp quá mức.

Bạn có thể coi việc đánh giá mô hình dựa trên tập hợp xác thực là vòng kiểm thử đầu tiên và đánh giá mô hình so với nhóm kiểm thử là vòng kiểm thử thứ hai.

mất xác thực

#fundamentals

Một chỉ số thể hiện sự sụt giảm của mô hình trên bộ xác thực trong một vòng lặp cụ thể của quá trình huấn luyện.

Xem thêm đường cong tổng quát hoá.

bộ xác thực

#fundamentals

Tập hợp con của tập dữ liệu thực hiện đánh giá ban đầu so với một mô hình đã huấn luyện. Thông thường, bạn đánh giá mô hình đã huấn luyện dựa trên nhóm xác thực nhiều lần trước khi đánh giá mô hình đó dựa trên nhóm kiểm thử.

Thông thường, bạn chia các ví dụ trong tập dữ liệu thành 3 tập con riêng biệt sau đây:

bộ huấn luyện
một bộ xác thực
bộ thử nghiệm

gán giá trị

Quy trình thay thế giá trị bị thiếu bằng giá trị thay thế được chấp nhận. Khi thiếu một giá trị, bạn có thể loại bỏ toàn bộ ví dụ hoặc có thể sử dụng tính năng diễn giải giá trị để giữ lại ví dụ đó.

Ví dụ: hãy xem xét một tập dữ liệu chứa tính năng temperature được cho là sẽ được ghi lại mỗi giờ. Tuy nhiên, kết quả đo nhiệt độ không có sẵn trong một giờ cụ thể. Dưới đây là một phần của tập dữ liệu:

Dấu thời gian	Nhiệt độ
1680561000	10
1680564600	12
1680568200	bị thiếu
1680571800	20
1680575400	21
1680579000	21

Hệ thống có thể xoá ví dụ bị thiếu hoặc áp dụng nhiệt độ còn thiếu là 12, 16, 18 hoặc 20, tuỳ thuộc vào thuật toán diễn giải.

bài toán về độ dốc đang biến mất

#seq

Xu hướng chuyển màu của các lớp ẩn ban đầu của một số mạng nơron sâu trở nên phẳng một cách đáng kinh ngạc (thấp). Độ dốc ngày càng thấp, dẫn đến các thay đổi ngày càng nhỏ đối với trọng số trên các nút trong mạng nơron sâu, dẫn đến việc học ít hoặc không học. Các mô hình gặp phải vấn đề về độ dốc biến mất sẽ trở nên khó hoặc không thể huấn luyện được. Các ô Bộ nhớ ngắn hạn giải quyết vấn đề này.

So sánh với vấn đề phát nổ về độ dốc.

tầm quan trọng của biến

#df

Tập hợp các điểm số cho biết tầm quan trọng tương đối của từng tính năng đối với mô hình.

Ví dụ: hãy xem xét một cây quyết định ước tính giá nhà. Giả sử cây quyết định này sử dụng 3 đặc điểm: kích thước, độ tuổi và kiểu. Nếu một tập hợp mức độ quan trọng của biến cho 3 tính năng được tính là {size=5.8, age=2.5, style=4.7}, thì kích thước sẽ quan trọng hơn đối với cây quyết định so với độ tuổi hoặc kiểu.

Có nhiều chỉ số về tầm quan trọng khác nhau, có thể cung cấp thông tin cho các chuyên gia học máy về các khía cạnh khác nhau của mô hình.

bộ mã hoá tự động biến thiên (VAE)

#language

Một loại bộ mã hoá tự động tận dụng sự khác biệt giữa dữ liệu đầu vào và đầu ra để tạo ra các phiên bản sửa đổi của đầu vào. Các bộ mã hoá tự động biến thể rất hữu ích cho AI tạo sinh.

VAE dựa trên suy luận biến thiên: một kỹ thuật ước tính các tham số của mô hình xác suất.

vectơ

Thuật ngữ rất quá tải có ý nghĩa khác nhau trong các lĩnh vực toán học và khoa học khác nhau. Trong công nghệ học máy, vectơ có hai thuộc tính:

Loại dữ liệu: Vectơ trong công nghệ học máy thường chứa số thực dấu phẩy động.
Số lượng phần tử: Đây là độ dài của vectơ hoặc thứ nguyên của vectơ.

Ví dụ: hãy xem xét một vectơ tính năng chứa 8 số dấu phẩy động. Vectơ đặc trưng này có chiều dài hoặc chiều là tám. Xin lưu ý rằng vectơ học máy thường có số lượng kích thước rất lớn.

Bạn có thể biểu diễn nhiều loại thông tin khác nhau dưới dạng một vectơ. Ví dụ:

Bất kỳ vị trí nào trên bề mặt Trái Đất đều có thể được biểu thị dưới dạng vectơ 2 chiều, trong đó một chiều là vĩ độ và một chiều là kinh độ.
Giá hiện tại của mỗi 500 cổ phiếu có thể được biểu thị dưới dạng vectơ 500 chiều.
Phân phối xác suất trên một số lượng lớp hữu hạn có thể được biểu thị dưới dạng vectơ. Ví dụ: hệ thống phân loại nhiều lớp dự đoán một trong ba màu đầu ra (đỏ, xanh lục hoặc vàng) có thể xuất ra vectơ (0.3, 0.2, 0.5) có nghĩa là P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

Các vectơ có thể được nối với nhau; do đó, nhiều nội dung nghe nhìn khác nhau có thể được biểu thị dưới dạng một vectơ. Một số mô hình hoạt động trực tiếp trên việc nối nhiều phương thức mã hoá một lần.

Các bộ xử lý chuyên dụng như TPU được tối ưu hoá để thực hiện các phép toán trên vectơ.

Vectơ là một tensor của thứ hạng 1.

W

Mất Wasserstein

Một trong những hàm mất dữ liệu thường dùng trong mạng đối nghịch tạo sinh, dựa trên khoảng cách chuyển động trái đất giữa quá trình phân phối dữ liệu được tạo và dữ liệu thực.

cân nặng

#fundamentals

Một giá trị mà mô hình nhân với một giá trị khác. Huấn luyện là quá trình xác định trọng số lý tưởng của một mô hình; dự đoán là quá trình sử dụng các trọng số đã học đó để đưa ra dự đoán.

Nhấp vào biểu tượng để xem ví dụ về trọng số trong mô hình tuyến tính.

Hãy tưởng tượng một mô hình tuyến tính có hai đặc điểm. Giả sử việc huấn luyện xác định các trọng số sau (và độ lệch):

Độ lệch b có giá trị 2,2
Trọng số, w₁ được liên kết với một tính năng là 1,5.
Trọng số, w₂ được liên kết với tính năng còn lại là 0,4.

Bây giờ, hãy tưởng tượng một ví dụ với các giá trị tính năng sau:

Giá trị của một đối tượng, x₁, là 6.
Giá trị của tính năng còn lại, x₂, là 10.

Mô hình tuyến tính này sử dụng công thức sau đây để tạo thông tin dự đoán, y':

$$y' = b + w_1x_1 + w_2x_2$$

Do đó, kết quả dự đoán là:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

Nếu trọng số là 0, thì tính năng tương ứng không đóng góp vào mô hình. Ví dụ: nếu w₁ là 0, thì giá trị của x₁ là không liên quan.

Các hình vuông nhỏ nhất xen kẽ có trọng số (WALS)

#recsystems

Một thuật toán giúp giảm thiểu hàm mục tiêu trong quá trình phân tích ma trận trong hệ thống đề xuất, cho phép giảm trọng số các ví dụ bị thiếu. WALS giảm thiểu sai số bình phương có trọng số giữa ma trận ban đầu và việc tái cấu trúc bằng cách xen kẽ giữa việc xác định thừa số hàng và phân tích cột. Mỗi cách tối ưu hoá này có thể được giải bằng bình phương tối thiểu tối ưu hoá lồi. Để biết thông tin chi tiết, hãy xem khoá học về Hệ thống đề xuất.

tổng có trọng số

#fundamentals

Tổng của tất cả giá trị đầu vào có liên quan nhân với trọng số tương ứng. Ví dụ: giả sử các dữ liệu đầu vào có liên quan bao gồm:

giá trị đầu vào	trọng số đầu vào
2	-1,3
-1	0,6
3	0,4

Do đó, tổng có trọng số là:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Tổng có trọng số là đối số đầu vào cho một hàm kích hoạt.

mô hình rộng

Mô hình tuyến tính thường có nhiều tính năng đầu vào thưa. Chúng tôi gọi mạng này là "rộng" vì mô hình như vậy là một loại mạng nơron đặc biệt có số lượng lớn đầu vào kết nối trực tiếp với nút đầu ra. Mô hình rộng thường dễ gỡ lỗi và kiểm tra hơn so với mô hình sâu. Mặc dù mô hình rộng không thể thể hiện phi tuyến tính thông qua lớp ẩn, nhưng các mô hình rộng có thể sử dụng các phép biến đổi như chuyển đổi tính năng và phân nhóm để lập mô hình phi tuyến tính theo nhiều cách.

Tương phản với mô hình sâu.

chiều rộng

Số lượng nơ-ron trong một lớp cụ thể của mạng nơron.

sự thông thái của đám đông

#df

Ý tưởng cho rằng việc tính trung bình ý kiến hoặc ước tính của một nhóm người ("đám đông") thường tạo ra những kết quả tốt một cách đáng kinh ngạc. Ví dụ: hãy xem xét một trò chơi trong đó mọi người đoán số lượng đậu thạch được gói vào một cái lọ lớn. Mặc dù hầu hết các kết quả cá nhân sẽ không chính xác, nhưng về mặt thực nghiệm, giá trị trung bình của tất cả các phỏng đoán đã được chứng minh là gần với số lượng hạt thạch thực tế có trong lọ.

Ensembles là một phần mềm tương tự như sự thông thái của đám đông. Ngay cả khi từng mô hình đưa ra dự đoán cực kỳ không chính xác, việc dự đoán trung bình của nhiều mô hình thường tạo ra các dự đoán chính xác đến ngạc nhiên. Ví dụ: mặc dù một cây quyết định riêng lẻ có thể đưa ra các dự đoán kém, nhưng một cây quyết định thường đưa ra các dự đoán rất tốt.

nhúng từ

#language

Biểu thị từng từ trong một nhóm từ trong một vectơ nhúng; nghĩa là biểu thị mỗi từ dưới dạng một vectơ chứa các giá trị dấu phẩy động trong khoảng từ 0 đến 1. Những từ có ý nghĩa tương tự nhau có cách thể hiện giống hơn so với những từ có nhiều ý nghĩa. Ví dụ: cà rốt, cần tây và dưa chuột sẽ có cách biểu diễn tương đối giống nhau, rất khác với các cách biểu diễn của máy bay, kính râm và kem đánh răng.

X

XLA (Đại số tuyến tính cấp tốc)

Một trình biên dịch học máy nguồn mở dành cho GPU, CPU và trình tăng tốc học máy.

Trình biên dịch XLA lấy mô hình từ các khung học máy phổ biến như PyTorch, TensorFlow và JAX rồi tối ưu hoá các mô hình đó để thực thi hiệu suất cao trên nhiều nền tảng phần cứng, bao gồm GPU, CPU và trình tăng tốc học máy.

Z

học tự động

Một loại huấn luyện học máy trong đó mô hình dự đoán thông tin dự đoán cho một tác vụ mà tác vụ đó chưa được huấn luyện cụ thể. Nói cách khác, mô hình này được cung cấp ví dụ huấn luyện cụ thể cho tác vụ nhưng không được yêu cầu dự đoán cho tác vụ đó.

yêu cầu tự động đăng ký

#language

#AI tạo sinh

Lời nhắc không cung cấp ví dụ về cách bạn muốn mô hình ngôn ngữ lớn phản hồi. Ví dụ:

Các thành phần trong một câu lệnh	Ghi chú
`Đơn vị tiền tệ chính thức của quốc gia được chỉ định là gì?`	Câu hỏi mà bạn muốn LLM trả lời.
`Ấn Độ:`	Truy vấn thực tế.

Mô hình ngôn ngữ lớn có thể phản hồi bằng bất kỳ nội dung nào sau đây:

Rupee
INR
₹
Đồng rupi Ấn Độ
Rupee
Đồng Rupee Ấn Độ

Tất cả các câu trả lời đều đúng, mặc dù có thể bạn thích một định dạng cụ thể.

So sánh và đối chiếu lời nhắc tự động đăng ký với các cụm từ sau:

lời nhắc một lần
lời nhắc qua vài lần

Chuẩn hoá điểm Z

#fundamentals

Kỹ thuật điều chỉnh theo tỷ lệ thay thế một giá trị thô của tính năng bằng một giá trị dấu phẩy động biểu thị số độ lệch chuẩn so với giá trị trung bình của tính năng đó. Ví dụ: hãy xem xét một đối tượng có giá trị trung bình là 800 và có độ lệch chuẩn là 100. Bảng sau đây cho thấy cách chuẩn hoá điểm Z sẽ liên kết giá trị thô với điểm Z:

Giá trị thô	Điểm Z
800	0
950	+1,5
575	-2,25

Sau đó, mô hình học máy sẽ huấn luyện dựa trên điểm Z cho tính năng đó thay vì các giá trị thô.