หน้านี้ได้รับการแปลโดย Cloud Translation API

อภิธานศัพท์ของแมชชีนเลิร์นนิง: ป่าแห่งการตัดสินใจ

หน้านี้มีคำศัพท์เกี่ยวกับ Decision Forests หากต้องการดูคำศัพท์ในอภิธานศัพท์ทั้งหมด คลิกที่นี่

A

การสุ่มตัวอย่างแอตทริบิวต์

#df

กลยุทธ์สำหรับการฝึกป่าการตัดสินใจ ซึ่งแผนผังการตัดสินใจแต่ละแบบจะพิจารณาเฉพาะชุดย่อยของฟีเจอร์ที่เป็นไปได้แบบสุ่มเมื่อเรียนรู้เงื่อนไข โดยทั่วไปแล้ว แต่ละโหนดจะใช้ฟีเจอร์ชุดย่อยที่แตกต่างกัน ในทางตรงกันข้าม เมื่อฝึกโครงสร้างการตัดสินใจที่ไม่มีการสุ่มตัวอย่างแอตทริบิวต์ ระบบจะพิจารณาฟีเจอร์ที่เป็นไปได้ทั้งหมดสำหรับแต่ละโหนด

เงื่อนไขตามแกน

#df

ในแผนผังการตัดสินใจ เงื่อนไขที่มีฟีเจอร์เพียงรายการเดียว ตัวอย่างเช่น ถ้าพื้นที่เป็นจุดสนใจ ต่อไปนี้เป็นเงื่อนไขที่จัดตามแกน

area > 200

คอนทราสต์กับเงื่อนไขแบบเอียง

B

การเก็บกระเป๋า

#df

วิธีการฝึกชุดซึ่งโมเดลส่วนประกอบแต่ละรายการจะฝึกกับตัวอย่างการฝึกชุดย่อยแบบสุ่ม สุ่มตัวอย่างด้วยการแทนที่ เช่น ป่าแบบสุ่มคือชุดของต้นไม้ตัดสินใจที่ฝึกให้มีการเก็บกระเป๋า

คำว่า bagging เป็นคำสั้นๆ ของ bootstrap aggregating

เงื่อนไขไบนารี

#df

ในแผนผังการตัดสินใจ เงื่อนไข ที่มีผลลัพธ์ที่เป็นไปได้เพียง 2 รายการ ซึ่งมักจะเป็น yes หรือ no ตัวอย่างเช่น ต่อไปนี้เป็นเงื่อนไขไบนารี

temperature >= 100

คอนทราสต์กับเงื่อนไขนอนไบนารี

C

เงื่อนไข

#df

ในแผนผังการตัดสินใจ จะมีโหนดทั้งหมดที่ประเมินนิพจน์ เช่น ส่วนต่อไปนี้ของแผนผังการตัดสินใจมีเงื่อนไข 2 ข้อ

แผนผังการตัดสินใจที่มีเงื่อนไข 2 อย่างคือ (x > 0) และ (y > 0)

ภาวะนี้เรียกอีกอย่างว่าการแยกหรือการทดสอบ

เงื่อนไขคอนทราสต์กับใบไม้

และดู:

เงื่อนไขไบนารี
เงื่อนไขที่ไม่ใช่ไบนารี
สภาพสินค้าที่ปรับแนวแกน
สภาพสินค้าแบบเอียง

D

Decis Forest

#df

โมเดลที่สร้างจากแผนผังการตัดสินใจหลายต้นไม้ ฟอเรสต์การตัดสินใจจะทำการคาดคะเนโดยการรวมการคาดการณ์ของแผนผังการตัดสินใจ ประเภทฟอเรสต์ที่ได้รับความนิยม ได้แก่ ป่าสุ่มและต้นไม้ที่เร่งระดับ

แผนผังการตัดสินใจ

#df

โมเดลการเรียนรู้ที่มีการควบคุมดูแลซึ่งประกอบด้วยชุดconditionsและconditionsที่จัดเรียงเป็นลำดับชั้น ตัวอย่างต่อไปนี้คือแผนผังการตัดสินใจ

แผนผังการตัดสินใจประกอบด้วยเงื่อนไข 4 เงื่อนไขที่จัดเรียงตามลำดับขั้น ซึ่งนำไปสู่ใบ 5 ใบ

จ.

เอนโทรปี

#df

ใน ทฤษฎีข้อมูล คำอธิบายเกี่ยวกับการแจกแจงความน่าจะเป็นที่คาดเดาไม่ได้ นอกจากนี้ เอนโทรปียังกำหนดด้วยว่าตัวอย่างแต่ละรายการมีข้อมูลมากเพียงใด การแจกแจงมีเอนโทรปีสูงสุดเมื่อค่าทั้งหมดของตัวแปรสุ่มมีแนวโน้มเท่ากัน

เอนโทรปีของชุดที่มีค่าที่เป็นไปได้ 2 ค่าคือ "0" และ "1" (เช่น ป้ายกำกับในโจทย์การจำแนกประเภทไบนารี) มีสูตรดังนี้

H = -p log p - q log q = -p log p - (1-p) * บันทึก (1-p)

ที่ไหน:

H คือเอนโทรปี
p คือเศษส่วนของตัวอย่าง "1"
q คือเศษส่วนของตัวอย่าง "0" โปรดทราบว่า q = (1 - p)
log โดยทั่วไปจะเป็นบันทึก₂ ในกรณีนี้ หน่วยเอนโทรปีจะเป็นนิดหน่อย

ตัวอย่างเช่น สมมติว่า

ตัวอย่าง 100 รายการมีค่า "1"
ตัวอย่าง 300 รายการมีค่า "0"

ดังนั้นค่าเอนโทรปีจะเป็น

คะแนน = 0.25
q = 0.75
H = (-0.25)log₂(0.25) - (0.75)log₂(0.75) = 0.81 บิตต่อตัวอย่าง

ชุดที่สมดุลกันอย่างสมบูรณ์ (เช่น 200 "0" และ 200 "1") จะมีเอนโทรปีอยู่ที่ 1.0 บิตต่อตัวอย่าง เมื่อชุดมีความไม่สมดุลมากขึ้น เอนโทรปีจะเลื่อนไปเป็น 0.0

ในแผนผังการตัดสินใจ เอนโทรปีจะช่วยสร้างข้อมูลที่ได้รับเพื่อช่วยให้สปลิตเตอร์เลือกเงื่อนไขระหว่างการเติบโตของแผนผังการตัดสินใจการจัดประเภท

เปรียบเทียบเอนโทรปีกับ

ความไม่บริสุทธิ์ของจินี
ฟังก์ชันการสูญเสียครอสเอนโทรปี

เอนโทรปีมักเรียกว่าเอนโทรปีของแชนนอน

F

ความสำคัญของฟีเจอร์

#df

คำพ้องความหมายของลำดับความสำคัญที่เปลี่ยนแปลงได้

G

สิ่งสกปรกในจีน

#df

เมตริกที่คล้ายกับเอนโทรปี สปลิตเตอร์จะใช้ค่าที่ได้จากจิเนียมบริสุทธิ์หรือเอนโทรปีในการสร้างเงื่อนไขสำหรับการจำแนกประเภทต้นไม้การตัดสินใจ ข้อมูลที่ได้รับได้มาจากเอนโทรปี ไม่มีคำใดคำหนึ่งที่ได้รับการยอมรับในระดับสากลสำหรับเมตริกที่มาจากความไม่สมบูรณ์แบบ (Gini Impurity) อย่างไรก็ตาม เมตริกที่ไม่มีชื่อนี้มีความสำคัญเท่ากับการได้รับข้อมูล

ความไม่บริสุทธิ์ของจีนีเรียกอีกอย่างว่าดัชนีจินี หรือเรียกสั้นๆ ว่าจินี

คลิกไอคอนเพื่อดูรายละเอียดทางคณิตศาสตร์เกี่ยวกับความไม่บริสุทธิ์ของจินี

ความไม่ปกติของจินีคือความน่าจะเป็นของการจัดประเภทข้อมูลใหม่ที่ได้มาจากการกระจายแบบเดียวกันไม่ถูกต้อง ความไม่ปกติของจินีของชุดที่มีค่าที่เป็นไปได้ 2 ค่าคือ "0" และ "1" (เช่น ป้ายกำกับในโจทย์การจัดประเภทไบนารี) จะคำนวณจากสูตรต่อไปนี้

I = 1 - (หน้า² + q²) = 1 - (หน้า² + (1-p)²)

ที่ไหน:

I คือจินีที่ไม่บริสุทธิ์
p คือเศษส่วนของตัวอย่าง "1"
q คือเศษส่วนของตัวอย่าง "0" โปรดทราบว่า q = 1-p

ตัวอย่างเช่น ลองพิจารณาชุดข้อมูลต่อไปนี้

ป้ายกำกับ 100 รายการ (0.25 ของชุดข้อมูล) มีค่า "1"
ป้ายกำกับ 300 รายการ (0.75 ของชุดข้อมูล) มีค่า "0"

ดังนั้น ความไม่บริสุทธิ์ของจินีจึงมีลักษณะดังนี้

คะแนน = 0.25
q = 0.75
I = 1 - (0.25² + 0.75²) = 0.375

ป้ายกำกับแบบสุ่มจากชุดข้อมูลเดียวกันจึงมีโอกาส 37.5% ที่จะจัดประเภทไม่ถูกต้อง และ 62.5% ที่จะได้รับการจัดประเภทอย่างเหมาะสม

ป้ายกำกับที่มีสมดุลอย่างสมบูรณ์ (เช่น 200 "0" และ 200 "1") จะมีความไม่บริสุทธิ์ของจินีเป็น 0.5 ป้ายกำกับที่ไม่สมดุลจะมีค่าความเจือปนของจินีเกือบ 0.0

ต้นไม้ (การตัดสินใจ) แบบไล่ระดับสี (GBT)

#df

ป่าการตัดสินใจประเภทหนึ่งที่มีลักษณะดังนี้

การฝึกอาศัยการเพิ่มการไล่ระดับสี
โมเดลที่ไม่ปลอดภัยคือแผนผังการตัดสินใจ

การเพิ่มการไล่ระดับสี

#df

อัลกอริทึมการฝึกที่มีโมเดลที่อ่อนแอได้รับการฝึกให้ปรับปรุงคุณภาพซ้ำๆ (ลดการสูญเสีย) ของโมเดลที่แข็งแกร่ง ตัวอย่างเช่น โมเดลที่ไม่รัดกุมอาจเป็นโมเดลแผนผังการตัดสินใจแบบเชิงเส้นหรือขนาดเล็ก โมเดลที่แข็งแกร่งจะกลายเป็นผลรวมของโมเดลที่อ่อนที่ได้รับการฝึกก่อนหน้านี้ทั้งหมด

ในรูปแบบที่ง่ายที่สุดของการเพิ่มการไล่ระดับสี ในการทำซ้ำแต่ละครั้ง โมเดลที่อ่อนจะได้รับการฝึกให้คาดการณ์การไล่ระดับสีแบบสูญเสียของโมเดลที่แข็งแกร่ง จากนั้น ผลลัพธ์ของโมเดลที่มีประสิทธิภาพจะอัปเดตโดยการลบการไล่ระดับสีที่คาดการณ์ออก คล้ายกับการไล่ระดับสีลง

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

ที่ไหน:

$F_{0}$ คือรูปแบบเริ่มต้นที่มีประสิทธิภาพ
$F_{i+1}$ คือรูปแบบที่แข็งแกร่งถัดไป
$F_{i}$ คือโมเดลที่มีประสิทธิภาพในปัจจุบัน
$\xi$ คือค่าระหว่าง 0.0 ถึง 1.0 ที่เรียกว่าการหด ซึ่งคล้ายกับอัตราการเรียนรู้ในขั้นตอนการไล่ระดับสี
$f_{i}$ เป็นโมเดลอ่อนที่ได้รับการฝึกให้คาดการณ์การไล่ระดับสีการสูญเสียของ $F_{i}$

รูปแบบใหม่ๆ ของการเพิ่มการไล่ระดับสียังรวมถึงอนุพันธ์ที่สอง (เฮสเซียน) ของการสูญเสียไปในการคำนวณ

ต้นไม้ตัดสินใจมักจะใช้เป็นโมเดลที่อ่อนในการเพิ่มการไล่ระดับสี ดูต้นไม้ที่เพิ่ม (ตัดสินใจ) แบบไล่ระดับสี

I

เส้นทางการอนุมาน

#df

ในแผนผังการตัดสินใจ ระหว่างการอนุมาน เส้นทางตัวอย่างหนึ่งๆ จะนำจากรากไปยังเงื่อนไขอื่นๆ โดยสิ้นสุดด้วย leaf เช่น ในแผนผังการตัดสินใจต่อไปนี้ ลูกศรแบบหนาจะแสดงเส้นทางการอนุมานสำหรับตัวอย่างที่มีค่าฟีเจอร์ต่อไปนี้

x = 7
y = 12
z = -3

เส้นทางการอนุมานในภาพประกอบต่อไปนี้จะส่งผ่านเงื่อนไข 3 ข้อก่อนที่จะไปถึงใบไม้ (Zeta)

แผนผังการตัดสินใจประกอบด้วยเงื่อนไข 4 เงื่อนไขและใบไม้ 5 ใบ
เงื่อนไขรากคือ (x > 0) เนื่องจากคำตอบคือ "ใช่" เส้นทางการอนุมานจะเดินทางจากรูทไปยังเงื่อนไขถัดไป (y > 0)
เนื่องจากคำตอบคือ "ใช่" เส้นทางการอนุมานจะเดินทางไปยังเงื่อนไขถัดไป (z > 0) เนื่องจากคำตอบคือไม่ เส้นทางการอนุมานจะเดินทางไปยังโหนดเทอร์มินัล ซึ่งก็คือ Leaf (Zeta)

ลูกศรหนา 3 อันแสดงเส้นทางการอนุมาน

ข้อมูลที่ได้รับ

#df

ในป่าตัดสินใจ ความแตกต่างระหว่างเอนโทรปีของโหนดและผลรวมถ่วงน้ำหนัก (ตามจำนวนตัวอย่าง) ของเอนโทรปีของโหนดย่อย เอนโทรปีของโหนดคือเอนโทรปี ของตัวอย่างในโหนดนั้น

ตัวอย่างเช่น ลองพิจารณาค่าเอนโทรปีต่อไปนี้

เอนโทรปีของโหนดหลัก = 0.6
เอนโทรปีของโหนดย่อย 1 โหนดพร้อมตัวอย่างที่เกี่ยวข้อง 16 รายการ = 0.2
เอนโทรปีของโหนดย่อยอื่นที่มีตัวอย่างที่เกี่ยวข้อง 24 รายการ = 0.1

ดังนั้น 40% ของตัวอย่างจะอยู่ในโหนดย่อยรายการเดียว และ 60% อยู่ในโหนดย่อยอื่นๆ ดังนั้น

ผลรวมเอนโทรปีแบบถ่วงน้ำหนักของโหนดย่อย = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

ดังนั้น ข้อมูลที่ได้จะเป็น

ข้อมูลที่ได้รับ = เอนโทรปีของโหนดหลัก - ผลรวมเอนโทรปีแบบถ่วงน้ำหนักของโหนดย่อย
ข้อมูลที่ได้รับ = 0.6 - 0.14 = 0.46

splitter ส่วนใหญ่พยายามสร้างเงื่อนไข ที่เพิ่มพูนข้อมูลให้สูงสุด

สภาพสินค้า

#df

ในแผนผังการตัดสินใจคือเงื่อนไขที่ทดสอบการมี 1 รายการในชุดสินค้า ตัวอย่างต่อไปนี้เป็นเงื่อนไขที่กำหนดไว้

  house-style in [tudor, colonial, cape]

ในระหว่างการอนุมาน หากค่าของฟีเจอร์สไตล์บ้านคือ tudor หรือ colonial หรือ cape เงื่อนไขนี้จะประเมินเป็น "ใช่ หากค่าของฟีเจอร์สไตล์บ้านไม่ใช่ค่าอื่น (เช่น ranch) เงื่อนไขนี้จะประเมินเป็น "ไม่"

เงื่อนไขที่รวมไว้มักจะทําให้แผนผังการตัดสินใจมีประสิทธิภาพมากกว่าเงื่อนไขที่ทดสอบฟีเจอร์เข้ารหัสแบบ One-Hot

L

ใบไม้

#df

ปลายทางทั้งหมดในแผนผังการตัดสินใจ Leaf ไม่ได้ทำการทดสอบ ซึ่งต่างจากสภาพสินค้า แต่ใบไม้เป็นคำที่คาดเดาได้ Leaf ยังเป็นเทอร์มินัลโหนดของเส้นทางการอนุมานอีกด้วย

ตัวอย่างเช่น แผนผังการตัดสินใจต่อไปนี้มีใบไม้ 3 ใบ

แผนผังการตัดสินใจที่มี 2 เงื่อนไขนำไปสู่ใบไม้ 3 ใบ

N

โหนด (แผนผังการตัดสินใจ)

#df

ในแผนผังการตัดสินใจ ให้ระบุเงื่อนไขหรือใบไม้ใดก็ได้

แผนผังการตัดสินใจที่มี 2 เงื่อนไขและใบ 3 ใบ

ภาวะนอนไบนารี

#df

เงื่อนไข ที่มีผลลัพธ์ที่เป็นไปได้มากกว่า 2 รายการ ตัวอย่างเช่น เงื่อนไขที่ไม่ใช่ไบนารีซึ่งมีผลลัพธ์ที่เป็นไปได้ 3 แบบดังนี้

เงื่อนไข (number_of_legs = ?) ที่จะนำไปสู่ผลลัพธ์ที่เป็นไปได้ 3 รายการ ผลลัพธ์หนึ่ง (number_of_legs = 8) นำไปสู่ใบไม้ที่ชื่อแมงมุม ผลลัพธ์ที่ 2 (number_of_legs = 4) นำไปสู่สุนัขที่มีชื่อใบไม้ ผลลัพธ์ที่ 3 (number_of_legs = 2) นำไปสู่
ใบไม้ชื่อเพนกวิน

O

เงื่อนไขแบบเอียง

#df

ในแผนผังการตัดสินใจ จะมีเงื่อนไขที่ประกอบด้วยฟีเจอร์มากกว่า 1 รายการ ตัวอย่างเช่น ถ้าความสูงและความกว้างเป็นคุณสมบัติทั้ง 2 อย่าง ต่อไปนี้จะเป็นเงื่อนไขแบบเอียง

  height > width

คอนทราสต์กับเงื่อนไขที่จัดแนวแกน

การประเมินนอกกระเป๋า (การประเมิน OOB)

#df

กลไกในการประเมินคุณภาพของป่าการตัดสินใจ โดยทดสอบแผนผังการตัดสินใจแต่ละรายการกับตัวอย่าง ที่ไม่ได้ใช้ระหว่างการฝึกอบรมของแผนผังการตัดสินใจนั้น เช่น ในแผนภาพต่อไปนี้ ให้สังเกตว่าระบบจะฝึกแผนผังการตัดสินใจแต่ละรายการในตัวอย่างประมาณ 2 ใน 3 ของตัวอย่าง จากนั้นจึงประเมินผลกับตัวอย่าง 1 ใน 3 ที่เหลือ

ฟอเรสต์การตัดสินใจประกอบด้วยแผนผังการตัดสินใจ 3 ต้นไม้
แผนผังการตัดสินใจ 1 รายการจะฝึกโดยใช้ 2 ใน 3 ของตัวอย่าง จากนั้นใช้ 1 ใน 3 ที่เหลือสำหรับการประเมิน OOB
แผนผังการตัดสินใจที่ 2 จะฝึกบนตัวอย่าง 2 ใน 3 ต่างจากแผนผังการตัดสินใจก่อนหน้า จากนั้นใช้ 1 ใน 3 สำหรับการประเมิน OOB จากแผนผังการตัดสินใจก่อนหน้า

การประเมินนอกกระเป๋าเป็นการประมาณอย่างมีประสิทธิภาพในเชิงคำนวณของกลไกการตรวจสอบแบบข้ามระบบ ในการตรวจสอบข้ามข้อ จะมีการฝึกโมเดล 1 รายการสำหรับการตรวจสอบข้ามรอบแต่ละรอบ (เช่น โมเดล 10 รายการจะได้รับการฝึกในการตรวจสอบข้าม 10 เท่า) เมื่อใช้การประเมิน OOB โมเดลเดียวจะได้รับการฝึก เนื่องจากการแบกข้อมูลจะระงับข้อมูลบางอย่างจากต้นไม้แต่ละต้นระหว่างการฝึก การประเมิน OOB จะใช้ข้อมูลนั้นเพื่อประมาณการตรวจสอบข้ามข้อมูลได้

คะแนน

ความสำคัญของตัวแปรการเรียงสับเปลี่ยน

#df

ประเภทของลำดับความสำคัญของตัวแปรที่ประเมินการเพิ่มขึ้นของข้อผิดพลาดในการคาดการณ์ของโมเดลหลังจากการเปลี่ยนเส้นทางค่าของฟีเจอร์ ความสำคัญของตัวแปรการเรียงสับเปลี่ยนเป็นเมตริกที่ขึ้นอยู่กับโมเดล

R

ป่าแบบสุ่ม

#df

ชุดต้นไม้การตัดสินใจ ซึ่งต้นไม้การตัดสินใจแต่ละอันได้รับการฝึกด้วยเสียงแบบสุ่ม เช่น การกลืน

ป่าสุ่มเป็นป่าตัดสินใจประเภทหนึ่ง

รูท

#df

โหนดเริ่มต้น (เงื่อนไขแรก) ในแผนผังการตัดสินใจ ตามแบบแผน แผนภาพจะวางรากไว้ที่ด้านบนสุดของโครงสร้างการตัดสินใจ เช่น

แผนผังการตัดสินใจที่มี 2 เงื่อนไขและใบ 3 ใบ เงื่อนไขเริ่มต้น (x > 2) คือรูท

S

การสุ่มตัวอย่างพร้อมการแทนที่

#df

วิธีเลือกรายการจากชุดของรายการที่เสนอซึ่งเลือกรายการเดียวกันได้หลายครั้ง วลี "พร้อมการแทนที่" หมายความว่าหลังจากการเลือกแต่ละครั้ง รายการที่เลือกจะถูกส่งกลับไปยังกลุ่มรายการตัวเลือก วิธีการผกผัน การสุ่มตัวอย่างโดยไม่มีการแทนที่หมายความว่าจะเลือกรายการผู้สมัครได้เพียงครั้งเดียวเท่านั้น

ตัวอย่างเช่น ลองพิจารณาชุดผลไม้ต่อไปนี้

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

สมมติว่าระบบสุ่มเลือก fig เป็นรายการแรก หากใช้การสุ่มตัวอย่างกับการแทนที่ ระบบจะเลือกรายการที่ 2 จากชุดต่อไปนี้

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

ใช่ เหมือนกับก่อนหน้านี้ ระบบจึงอาจเลือก fig อีกครั้ง

หากใช้การสุ่มตัวอย่างโดยไม่มีการแทนที่ เมื่อเลือกแล้ว จะไม่สามารถเลือกตัวอย่างได้อีก เช่น หากระบบสุ่มเลือก fig เป็นตัวอย่างแรก ระบบจะไม่เลือก fig อีก ดังนั้น ระบบจะเลือกตัวอย่างที่สองจากชุดต่อไปนี้ (ลด)

fruit = {kiwi, apple, pear, cherry, lime, mango}

คลิกไอคอนเพื่อดูหมายเหตุเพิ่มเติม

คำว่าการแทนที่ในการสุ่มตัวอย่างด้วยการแทนที่ทำให้หลายคนสับสน ในภาษาอังกฤษ replacement หมายถึง "การแทนที่" อย่างไรก็ตาม การสุ่มตัวอย่างโดยการแทนที่จะใช้คำจำกัดความในภาษาฝรั่งเศสสำหรับการแทนที่ ซึ่งหมายถึง "การนำบางอย่างกลับมา"

คำภาษาอังกฤษ replacement แปลเป็นคำว่า remplacement ในภาษาฝรั่งเศส

การหดตัว

#df

hyperparameter ใน การเพิ่มการไล่ระดับสีที่ควบคุม การปรับให้พอดี การหดตัวของการเร่งการไล่ระดับสี คล้ายกับอัตราการเรียนรู้ใน การไล่ระดับสีลง การย่อคือค่าทศนิยมระหว่าง 0.0 ถึง 1.0 ค่าการหดตัวที่ต่ำลงจะลดปริมาณการหดตัวที่มากเกินไป

ข้อมูลแบบแยกส่วน

#df

ในแผนผังการตัดสินใจ อีกชื่อหนึ่งของเงื่อนไข

ตัวแยก

#df

ขณะฝึกแผนผังการตัดสินใจ กิจวัตร (และอัลกอริทึม) จะทำหน้าที่ค้นหาเงื่อนไขที่ดีที่สุดในโหนดแต่ละรายการ

T

ทดสอบ

#df

ในแผนผังการตัดสินใจ อีกชื่อหนึ่งของเงื่อนไข

เกณฑ์ (สำหรับแผนผังการตัดสินใจ)

#df

ในเงื่อนไขที่ปรับแนวแกน ระบบจะเปรียบเทียบค่าที่มีฟีเจอร์ เช่น 75 คือค่าเกณฑ์ในเงื่อนไขต่อไปนี้

grade >= 75

V

ความสำคัญของตัวแปร

#df

ชุดคะแนนที่ระบุความสำคัญเชิงสัมพัทธ์ของฟีเจอร์แต่ละรายการกับโมเดล

เช่น ลองพิจารณาแผนผังการตัดสินใจที่ประมาณราคาบ้าน สมมติว่าโครงสร้างการตัดสินใจนี้ใช้ฟีเจอร์ 3 อย่าง ได้แก่ ขนาด อายุ และรูปแบบ หากชุดของลำดับความสำคัญที่เปลี่ยนแปลงได้สำหรับคุณลักษณะทั้งสามคำนวณได้เป็น {size=5.8, age=2.5, style=4.7} ขนาดจะมีความสำคัญกับโครงสร้างการตัดสินใจมากกว่าอายุหรือรูปแบบ

เมตริกความสำคัญที่มีตัวแปรแตกต่างกัน ซึ่งทำให้ผู้เชี่ยวชาญ ML ทราบแง่มุมต่างๆ ของโมเดลได้

W

ภูมิปัญญาของฝูงชน

#df

แนวคิดที่ว่าค่าเฉลี่ยของความคิดเห็นหรือค่าประมาณของคนกลุ่มใหญ่ ("ผู้คนจำนวนมาก") มักให้ผลลัพธ์ที่ดีอย่างน่าประหลาด เช่น ลองพิจารณาเกมที่ผู้คนจะเดาจำนวน เยลลี่บีนที่อัดใส่ในโหลขนาดใหญ่ แม้ว่าการคาดเดาของคนส่วนใหญ่จะไม่แม่นยำ แต่ค่าเฉลี่ยการคาดเดาทั้งหมดเห็นได้ชัดว่าใกล้เคียงกับจำนวนเยลลี่บีนในโหลจริงๆ อย่างน่าประหลาด

Ensembles เป็นซอฟต์แวร์ที่รวบรวมความรู้จากผู้อื่น แม้ว่าแต่ละโมเดลจะคาดการณ์ได้ไม่ถูกต้องอย่างมาก แต่ค่าเฉลี่ยการคาดการณ์ของโมเดลจำนวนมากมักทำให้เกิดการคาดการณ์ที่ดีอย่างไม่น่าเชื่อ เช่น แม้ว่าแผนผังการตัดสินใจแต่ละรายการอาจคาดการณ์ได้ไม่ดี แต่ป่าการตัดสินใจมักให้การคาดการณ์ที่ดีมาก