Bảng thuật ngữ về công nghệ máy học: Rừng quyết định

Trang này chứa các thuật ngữ trong bảng thuật ngữ của Decision Forests (Khu rừng quyết định). Để biết tất cả các thuật ngữ trong bảng thuật ngữ, hãy nhấp vào đây.

Đáp

lấy mẫu thuộc tính

#df

Một chiến thuật để huấn luyện khu rừng quyết định, trong đó mỗi cây quyết định chỉ xem xét một tập hợp con ngẫu nhiên gồm các tính năng có thể có khi tìm hiểu điều kiện. Nhìn chung, một nhóm nhỏ tính năng sẽ được lấy mẫu cho mỗi nút. Ngược lại, khi huấn luyện cây quyết định mà không lấy mẫu thuộc tính, tất cả các tính năng có thể có sẽ được xem xét cho từng nút.

điều kiện căn chỉnh trục

#df

Trong cây quyết định, một điều kiện chỉ liên quan đến một tính năng duy nhất. Ví dụ: nếu khu vực là một đối tượng, thì sau đây là điều kiện căn chỉnh trục:

area > 200

Tương phản với điều kiện xiên.

B

đóng túi

#df

Phương thức để huấn luyện một tập hợp, trong đó mỗi mô hình thành phần được huấn luyện trên một tập hợp con ngẫu nhiên các ví dụ huấn luyện được lấy mẫu bằng cách thay thế. Ví dụ: rừng ngẫu nhiên là một tập hợp cây quyết định được huấn luyện bằng tính năng đóng gói.

Thuật ngữ bagging là từ viết tắt của boot qua aggregating.

điều kiện nhị phân

#df

Trong cây quyết định, một điều kiện chỉ có hai kết quả có thể xảy ra, thường là hoặc không. Ví dụ: sau đây là điều kiện nhị phân:

temperature >= 100

Tương phản với điều kiện phi nhị phân.

C

điều kiện

#df

Trong cây quyết định, mọi nút đánh giá một biểu thức. Ví dụ: phần sau đây của cây quyết định chứa 2 điều kiện:

Cây quyết định bao gồm 2 điều kiện: (x > 0) và (y > 0).

Một điều kiện còn được gọi là phần phân tách hoặc kiểm thử.

Điều kiện tương phản với leaf.

Xem thêm:

D

rừng quyết định

#df

Một mô hình được tạo từ nhiều cây quyết định. Rừng quyết định đưa ra dự đoán bằng cách tổng hợp các dự đoán của cây quyết định. Các loại rừng quyết định phổ biến bao gồm rừng ngẫu nhiêncây tăng cường chuyển màu.

cây quyết định

#df

Mô hình học có giám sát bao gồm một tập hợp conditionsconditions được sắp xếp theo thứ bậc. Ví dụ: sau đây là cây quyết định:

Cây quyết định bao gồm 4 điều kiện được sắp xếp theo thứ bậc, dẫn đến 5 lá.

E

entropy

#df

Trong lý thuyết thông tin, nội dung mô tả về mức độ khó dự đoán của hàm phân phối xác suất. Ngoài ra, entropy còn được định nghĩa là lượng thông tin mà mỗi ví dụ chứa. Một bản phân phối có entropy cao nhất có thể khi tất cả các giá trị của biến ngẫu nhiên đều có khả năng bằng nhau.

Entropy của một tập hợp có hai giá trị có thể có "0" và "1" (ví dụ: nhãn trong bài toán phân loại nhị phân) có công thức sau:

  H = -p log p - q log q = -p log p – (1-p) * log (1-p)

trong đó:

  • H là entropy.
  • p là tỷ lệ phần trăm của ví dụ "1".
  • q là phân số của "0". Lưu ý rằng q = (1 - p)
  • log thường là nhật ký2. Trong trường hợp này, đơn vị entropy là một chút.

Ví dụ: giả sử như sau:

  • 100 ví dụ chứa giá trị "1"
  • 300 ví dụ chứa giá trị "0"

Do đó, giá trị entropy là:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) – (0,75)log2(0,75) = 0,81 bit mỗi ví dụ

Một tập hợp cân bằng hoàn toàn (ví dụ: 200 "0" và 200 "1") sẽ có entropy là 1 bit. Khi một tập hợp trở nên mất cân bằng hơn, entropy của tập hợp đó sẽ di chuyển về 0.0.

Trong cây quyết định, entropy giúp lập công thức thu thập thông tin để giúp bộ tách chọn điều kiện trong quá trình phát triển cây quyết định phân loại.

So sánh entropy với:

entropy thường được gọi là entropy Shannon.

F

tầm quan trọng của tính năng

#df

Từ đồng nghĩa với mức độ quan trọng biến.

G

tạp chất gini

#df

Một chỉ số tương tự như entropy. Bộ phân tách sử dụng các giá trị bắt nguồn từ tạp chất gini hoặc entropy để lập điều kiện nhằm phân loại cây quyết định. Mức thu thập thông tin được lấy từ entropy. Không có thuật ngữ tương đương nào được chấp nhận trên toàn cầu cho chỉ số bắt nguồn từ tạp chất gini; tuy nhiên, chỉ số chưa được đặt tên này cũng quan trọng như việc thu thập thông tin.

Tạp chất Gini còn được gọi là chỉ số gini hoặc đơn giản là gini.

cây tăng độ dốc (quyết định) (GBT)

#df

Một loại rừng quyết định trong đó:

tăng độ chuyển màu

#df

Thuật toán huấn luyện trong đó các mô hình yếu được huấn luyện để cải thiện chất lượng (giảm tình trạng hao tổn) của mô hình mạnh bằng cách lặp lại. Ví dụ: mô hình yếu có thể là mô hình cây quyết định tuyến tính hoặc mô hình cây quyết định nhỏ. Mô hình mạnh trở thành tổng của tất cả mô hình yếu đã huấn luyện trước đó.

Ở hình thức tăng độ dốc đơn giản nhất, ở mỗi lần lặp lại, một mô hình yếu sẽ được huấn luyện để dự đoán độ dốc bị mất của mô hình mạnh. Sau đó, kết quả của mô hình mạnh được cập nhật bằng cách trừ đi độ dốc theo dự đoán, tương tự như giảm xuống chuyển màu.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

trong đó:

  • $F_{0}$ là mô hình mạnh mẽ khởi đầu.
  • $F_{i+1}$ là mô hình mạnh mẽ tiếp theo.
  • $F_{i}$ là mô hình mạnh hiện tại.
  • $\xi$ là một giá trị nằm trong khoảng từ 0 đến 1,0 được gọi là shrinkage, tương tự như tốc độ học tập trong phương pháp giảm độ dốc.
  • $f_{i}$ là mô hình yếu được huấn luyện để dự đoán độ dốc của $F_{i}$.

Các biến thể hiện đại của việc tăng độ dốc cũng bao gồm đạo hàm cấp hai (Hessian) của độ mất trong phép tính.

Cây quyết định thường được dùng làm mô hình yếu trong việc tăng cường độ dốc. Hãy xem cây tăng độ dốc (quyết định).

I

đường dẫn suy luận

#df

Trong cây quyết định, trong quá trình dự đoán, tuyến mà một ví dụ cụ thể sẽ lấy từ gốc đến các điều kiện khác, kết thúc bằng . Ví dụ: trong cây quyết định sau, các mũi tên dày hơn hiển thị đường dẫn dự đoán cho một ví dụ với các giá trị tính năng sau:

  • x = 7
  • y = 12
  • z = -3

Lộ trình dự đoán trong hình minh hoạ sau đây trải qua 3 điều kiện trước khi đến lá (Zeta).

Một cây quyết định bao gồm 4 điều kiện và 5 lá.
          Điều kiện gốc là (x > 0). Vì câu trả lời là Có, đường dẫn suy luận sẽ đi từ điều kiện gốc đến điều kiện tiếp theo (y > 0).
          Vì câu trả lời là Có, đường dẫn suy luận sẽ chuyển đến điều kiện tiếp theo (z > 0). Vì câu trả lời là Không, đường dẫn dự đoán sẽ chuyển đến nút cuối là lá (Zeta).

Ba mũi tên dày cho thấy đường dẫn suy luận.

mức thu thông tin

#df

Trong rừng quyết định, sự khác biệt giữa entropy của một nút và tổng entropy có trọng số (theo số lượng ví dụ) của entropy của các nút con. Entropy của một nút là entropy của các ví dụ trong nút đó.

Ví dụ: hãy xem xét các giá trị entropy sau:

  • entropy của nút mẹ = 0,6
  • entropy của một nút con với 16 ví dụ liên quan = 0,2
  • entropy của một nút con khác với 24 ví dụ có liên quan = 0,1

Như vậy, 40% số ví dụ nằm ở một nút con và 60% nằm ở nút con khác. Vì thế:

  • Tổng entropy có trọng số của các nút con = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Vì vậy, thông tin thu thập được là:

  • mức tăng thông tin = entropy của nút mẹ - tổng entropy có trọng số của các nút con
  • thông tin thu được = 0,6 – 0,14 = 0,46

Hầu hết các trình phân tách đều tìm cách tạo ra các điều kiện để tăng tối đa khả năng thu thập thông tin.

điều kiện cố định

#df

Trong cây quyết định, một điều kiện sẽ kiểm tra sự hiện diện của một mục trong tập hợp các mục. Ví dụ: sau đây là một điều kiện sẵn có:

  house-style in [tudor, colonial, cape]

Trong quá trình suy luận, nếu giá trị của tính năng kiểu ngôi nhà là tudor hoặc colonial hoặc cape, thì điều kiện này sẽ được đánh giá là Có. Nếu giá trị của tính năng kiểu ngôi nhà là một giá trị khác (ví dụ: ranch), thì điều kiện này sẽ được đánh giá là Không.

Các điều kiện trong tập hợp thường dẫn đến cây quyết định hiệu quả hơn so với các điều kiện kiểm thử các tính năng được mã hoá một nóng.

L

#df

Điểm cuối bất kỳ trong cây quyết định. Không giống như condition, lá không thực hiện kiểm thử. Thay vào đó, một chiếc lá là một thông tin dự đoán có thể xảy ra. Lá cũng là nút cuối của đường dẫn dự đoán.

Ví dụ: cây quyết định sau đây có 3 lá:

Cây quyết định có hai điều kiện dẫn đến 3 lá.

N

nút (cây quyết định)

#df

Trong cây quyết định, mọi điều kiện hoặc .

Cây quyết định có 2 điều kiện và 3 lá.

điều kiện phi nhị giới

#df

Một điều kiện chứa nhiều hơn 2 kết quả có thể xảy ra. Ví dụ: điều kiện phi nhị phân sau đây có thể có 3 kết quả:

Một điều kiện (number_of_legs = ?) dẫn đến 3 kết quả có thể xảy ra. Một kết quả (number_of_legs = 8) dẫn đến một lá có tên là trình thu thập dữ liệu. Kết quả thứ hai (number_of_legs = 4) dẫn đến một chiếc lá có tên là chó. Kết quả thứ ba (number_of_legs = 2) dẫn đến một chiếc lá có tên là chim cánh cụt.

O

điều kiện xiên

#df

Trong cây quyết định, một điều kiện bao gồm nhiều tính năng. Ví dụ: nếu chiều cao và chiều rộng đều là hai tính năng, thì sau đây là điều kiện xiên:

  height > width

Tương phản với điều kiện căn chỉnh trục.

đánh giá khi có sẵn trong túi (đánh giá OOB)

#df

Cơ chế để đánh giá chất lượng của rừng quyết định bằng cách kiểm thử từng cây quyết định theo ví dụ không được dùng trong quá trình huấn luyện cây quyết định đó. Ví dụ: trong sơ đồ sau đây, hãy lưu ý rằng hệ thống sẽ huấn luyện từng cây quyết định trên khoảng 2/3 số ví dụ, sau đó đánh giá so với 1/3 số ví dụ còn lại.

Một khu rừng quyết định bao gồm 3 cây quyết định.
          Một cây quyết định sẽ huấn luyện trên 2/3 số ví dụ, sau đó sử dụng 1/3 còn lại để đánh giá OOB.
          Cây quyết định thứ hai sẽ huấn luyện trên một 2/3 số ví dụ khác với cây quyết định trước đó, sau đó sử dụng 1/3 khác để đánh giá OOB so với cây quyết định trước đó.

Việc đánh giá ngay lập tức là phương pháp ước tính gần đúng và hiệu quả tính toán của cơ chế xác thực chéo. Trong quá trình xác thực chéo, một mô hình được huấn luyện cho mỗi vòng xác thực chéo (ví dụ: 10 mô hình được huấn luyện trong lần xác thực chéo gấp 10 lần). Với phương thức đánh giá OOB, một mô hình sẽ được huấn luyện. Vì hoạt động đóng gói giữ lại một số dữ liệu từ mỗi cây trong quá trình huấn luyện, nên hoạt động đánh giá OOB có thể sử dụng dữ liệu đó để ước chừng quá trình xác thực chéo.

Điểm

tầm quan trọng của biến hoán vị

#df

Một loại mức độ quan trọng biến đánh giá mức tăng lỗi dự đoán của mô hình sau khi hiệu lực cho các giá trị của tính năng. Tầm quan trọng của biến hoán vị là một chỉ số độc lập với mô hình.

R

khu rừng ngẫu nhiên

#df

Một tập hợp gồm cây quyết định, trong đó mỗi cây quyết định được huấn luyện bằng một tiếng ồn ngẫu nhiên cụ thể, chẳng hạn như đóng gói.

Rừng ngẫu nhiên là một loại rừng quyết định.

gốc

#df

Nút khởi đầu (điều kiện đầu tiên) trong cây quyết định. Theo quy ước, sơ đồ đặt gốc ở đầu cây quyết định. Ví dụ:

Cây quyết định có 2 điều kiện và 3 lá. Điều kiện bắt đầu (x > 2) là gốc.

S

lấy mẫu có thay thế

#df

Phương pháp chọn các mục từ một tập hợp các mục đề xuất, trong đó cùng một mục có thể được chọn nhiều lần. Cụm từ "có thay thế" có nghĩa là sau mỗi lựa chọn, mục đã chọn sẽ được trả về nhóm các mục đề xuất. Phương pháp nghịch đảo, lấy mẫu mà không thay thế, có nghĩa là bạn chỉ có thể chọn một mục đề xuất một lần.

Ví dụ: hãy xem xét những loại hoa quả sau:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Giả sử hệ thống chọn ngẫu nhiên fig làm mục đầu tiên. Nếu sử dụng tính năng lấy mẫu kèm với thay thế, thì hệ thống sẽ chọn mục thứ hai từ tập hợp sau:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Có, kiểu thiết lập vẫn giống trước đây, vì vậy hệ thống có thể chọn lại fig.

Nếu sử dụng tính năng lấy mẫu mà không thay thế, thì sau khi đã chọn, bạn sẽ không thể chọn lại mẫu. Ví dụ: nếu hệ thống chọn ngẫu nhiên fig làm mẫu đầu tiên, thì hệ thống sẽ không thể chọn lại fig. Do đó, hệ thống sẽ chọn mẫu thứ hai trong tập hợp (rút gọn) sau đây:

fruit = {kiwi, apple, pear, cherry, lime, mango}

thu nhỏ

#df

Một siêu tham số trong tính năng tăng độ chuyển màu giúp kiểm soát việc tập hợp quá mức. Tình trạng co lại trong tính năng tăng độ dốc tương tự như tốc độ học tập trong phương thức giảm độ chuyển màu. Độ co rút là một giá trị thập phân từ 0 đến 1. Giá trị rút gọn thấp hơn làm giảm tình trạng quá mức so với giá trị thu nhỏ lớn hơn.

chia tách

#df

Trong cây quyết định, một tên khác cho điều kiện.

bộ chia

#df

Trong khi huấn luyện cây quyết định, quy trình (và thuật toán) chịu trách nhiệm tìm điều kiện tốt nhất ở mỗi nút.

T

thử nghiệm

#df

Trong cây quyết định, một tên khác cho điều kiện.

ngưỡng (đối với cây quyết định)

#df

Trong điều kiện được căn chỉnh theo trục, giá trị mà một tính năng sẽ được so sánh với giá trị đó. Ví dụ: 75 là giá trị ngưỡng trong điều kiện sau:

grade >= 75

V

tầm quan trọng của biến

#df

Tập hợp các điểm số cho biết tầm quan trọng tương đối của từng tính năng đối với mô hình.

Ví dụ: hãy xem xét một cây quyết định ước tính giá nhà. Giả sử cây quyết định này sử dụng 3 đặc điểm: kích thước, độ tuổi và kiểu. Nếu một tập hợp mức độ quan trọng của biến cho 3 tính năng được tính là {size=5.8, age=2.5, style=4.7}, thì kích thước sẽ quan trọng hơn đối với cây quyết định so với độ tuổi hoặc kiểu.

Có nhiều chỉ số về tầm quan trọng khác nhau, có thể cung cấp thông tin cho các chuyên gia học máy về các khía cạnh khác nhau của mô hình.

W

sự thông thái của đám đông

#df

Ý tưởng cho rằng việc tính trung bình ý kiến hoặc ước tính của một nhóm người ("đám đông") thường tạo ra những kết quả tốt một cách đáng kinh ngạc. Ví dụ: hãy xem xét một trò chơi trong đó mọi người đoán số lượng đậu thạch được gói vào một cái lọ lớn. Mặc dù hầu hết các kết quả cá nhân sẽ không chính xác, nhưng về mặt thực nghiệm, giá trị trung bình của tất cả các phỏng đoán đã được chứng minh là gần với số lượng hạt thạch thực tế có trong lọ.

Ensembles là một phần mềm tương tự như sự thông thái của đám đông. Ngay cả khi từng mô hình đưa ra dự đoán cực kỳ không chính xác, việc dự đoán trung bình của nhiều mô hình thường tạo ra các dự đoán chính xác đến ngạc nhiên. Ví dụ: mặc dù một cây quyết định riêng lẻ có thể đưa ra các dự đoán kém, nhưng một cây quyết định thường đưa ra các dự đoán rất tốt.