หน้านี้มีคำศัพท์เกี่ยวกับอภิธานศัพท์ของ Decision Forests ดูคำศัพท์ทั้งหมดในอภิธานศัพท์ คลิกที่นี่
A
การสุ่มตัวอย่างแอตทริบิวต์
กลวิธีสำหรับการฝึกป่าการตัดสินใจ ซึ่งแผนผังการตัดสินใจแต่ละรายการจะพิจารณาเฉพาะชุดย่อยของฟีเจอร์ที่เป็นไปได้แบบสุ่มเมื่อเรียนรู้เงื่อนไข โดยทั่วไป ระบบจะสุ่มตัวอย่างชุดย่อยของฟีเจอร์ที่แตกต่างกันสำหรับแต่ละโหนด ในทางตรงกันข้าม เมื่อฝึกโครงสร้างการตัดสินใจโดยไม่มีการสุ่มตัวอย่างแอตทริบิวต์ จะมีการพิจารณาฟีเจอร์ที่เป็นไปได้ทั้งหมดสำหรับแต่ละโหนด
เงื่อนไขตามแกน
ในแผนผังการตัดสินใจ เงื่อนไขที่มีฟีเจอร์เพียงรายการเดียว ตัวอย่างเช่น หากพื้นที่เป็นจุดสนใจ ต่อไปนี้เป็นเงื่อนไขตามแกน:
area > 200
คอนทราสต์กับเงื่อนไขแบบเฉียง
B
การเก็บกระเป๋า
วิธีการฝึกชุด โดยโมเดลองค์ประกอบแต่ละองค์ประกอบจะฝึกกับตัวอย่างการฝึกชุดย่อยสุ่มตัวอย่างโดยใช้การแทนที่ เช่น ป่าแบบสุ่มคือคอลเล็กชันของต้นไม้ตัดสินใจที่ฝึกด้วยการเก็บกระเป๋า
คำว่า bagging เป็นคำสั้นๆ ของ bootstrap aggregat
เงื่อนไขเลขฐานสอง
ในแผนผังการตัดสินใจ เงื่อนไขซึ่งมีผลลัพธ์ที่เป็นไปได้เพียง 2 ค่าเท่านั้น โดยทั่วไปจะเป็น yes หรือ no ตัวอย่างต่อไปนี้เป็นเงื่อนไขเลขฐานสอง
temperature >= 100
คอนทราสต์กับสภาวะที่ไม่ใช่ไบนารี
C
เงื่อนไข
ในแผนผังการตัดสินใจ โหนดใดก็ตามที่ประเมินนิพจน์ ตัวอย่างเช่น ส่วนต่อไปนี้ของแผนผังการตัดสินใจมี 2 เงื่อนไข ดังนี้
ภาวะนี้เรียกอีกอย่างว่าการแยกหรือการทดสอบ
เงื่อนไขคอนทราสต์กับใบไม้
และดู:
D
ป่าแห่งการตัดสินใจ
โมเดลที่สร้างจากแผนผังการตัดสินใจหลายบรรทัด ฟอเรสต์การตัดสินใจทำการคาดการณ์โดยการรวมการคาดการณ์ของแผนผังการตัดสินใจ ป่าตัดสินใจประเภทที่นิยมใช้ ได้แก่ ป่าแบบสุ่มและต้นไม้ที่เพิ่มการไล่ระดับสี
แผนผังการตัดสินใจ
โมเดลการเรียนรู้ภายใต้การควบคุมดูแลประกอบด้วยชุดconditionsและconditionsโดยเรียงตามลําดับชั้น ตัวอย่างต่อไปนี้คือแผนผังการตัดสินใจ
E
เอนโทรปี
ใน ทฤษฎีข้อมูล คำอธิบายเกี่ยวกับการแจกแจงความน่าจะเป็นที่คาดการณ์ไม่ได้ นอกจากนี้เอนโทรปียังกำหนดปริมาณข้อมูลที่แต่ละตัวอย่างมีอยู่ด้วย การกระจายมีเอนโทรปีสูงสุดที่เป็นไปได้เมื่อค่าทั้งหมดของตัวแปรสุ่มมีแนวโน้มเท่ากัน
เอนโทรปีของชุดที่มีค่าที่เป็นไปได้ 2 ค่าคือ "0" และ "1" (เช่น ป้ายกำกับในปัญหาการจัดประเภทแบบไบนารี) มีสูตรดังนี้
H = -p log p - q log q = -p log p - (1-p) * บันทึก (1-p)
โดยมี
- H คือเอนโทรปี
- p คือเศษส่วนของตัวอย่าง "1"
- q คือเศษส่วนของตัวอย่าง "0" โปรดทราบว่า q = (1 - p)
- โดยทั่วไป log คือบันทึก2 ในกรณีนี้ หน่วยเอนโทรปีจะเป็นแบบสั้นๆ
ตัวอย่างเช่น สมมติว่า
- ตัวอย่าง 100 รายการมีค่า "1"
- ตัวอย่าง 300 รายการมีค่า "0"
ดังนั้น ค่าเอนโทรปีจะเป็นดังนี้
- p = 0.25
- q = 0.75
- H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 บิตต่อตัวอย่าง
ชุดที่สมดุลอย่างลงตัว (ตัวอย่างเช่น 200 "0" และ 200 "1") จะมีเอนโทรปีเป็น 1.0 บิตต่อตัวอย่าง เมื่อชุดหนึ่งๆ มีความไม่สมดุลมากขึ้น เอนโทรปีจะเลื่อนไปเป็น 0.0
ในแผนผังการตัดสินใจ เอนโทรปีจะช่วยสร้างข้อมูลที่ได้รับเพื่อช่วยให้สปลิตเตอร์เลือกเงื่อนไขระหว่างการเติบโตของแผนผังการตัดสินใจการจัดประเภท
เปรียบเทียบเอนโทรปีกับ
- ความไม่บริสุทธิ์ของจินี
- ฟังก์ชันการสูญเสีย cross-entropy
เอนโทรปีมักเรียกว่าเอนโทรปีของแชนนอน
F
ความสำคัญของฟีเจอร์
คำพ้องของลำดับความสำคัญของตัวแปร
G
ไห้ขี้เหร่
เมตริกที่คล้ายกับ เอนโทรปี ตัวแยก ใช้ค่าที่ได้จาก Gini impurity หรือเอนโทรปีในการสร้างเงื่อนไขสําหรับการแยกประเภทต้นไม้ตัดสินใจ การได้ข้อมูลได้มาจากเอนโทรปี ไม่มีคำใดเทียบเท่ากันที่เป็นที่ยอมรับโดยสากลสำหรับเมตริกที่ได้จากความมลพิษจากจินี อย่างไรก็ตาม เมตริกที่ไม่มีชื่อนี้มีความสําคัญเท่ากับการได้ข้อมูล
ความไม่บริสุทธิ์ของจีนีเรียกอีกอย่างว่า gini index หรือเรียกง่ายๆ ว่า gini
ต้นไม้ที่เพิ่ม (ตัดสินใจ) แบบไล่ระดับสี (GBT)
ฟอเรสต์การตัดสินใจประเภทหนึ่งที่มีลักษณะดังนี้
- การฝึกอาศัยการเพิ่มการไล่ระดับสี
- รูปแบบที่อ่อนแอคือแผนผังการตัดสิน
การเพิ่มการไล่ระดับสี
อัลกอริทึมการฝึกที่มีการฝึกโมเดลที่อ่อนแอเพื่อปรับปรุงคุณภาพ (ลดการสูญเสีย) ของโมเดลที่แข็งแกร่งซ้ำๆ ตัวอย่างเช่น โมเดลที่ไม่รัดกุมอาจเป็นโมเดลแผนผังการตัดสินใจแบบเชิงเส้นหรือขนาดเล็ก โมเดลที่มีประสิทธิภาพจะกลายเป็นผลรวมของโมเดลอ่อนที่มีการฝึกก่อนหน้านี้ทั้งหมด
ในรูปแบบที่ง่ายที่สุดของการเพิ่มการไล่ระดับสี ในการทำซ้ำแต่ละครั้ง โมเดลที่อ่อนจะได้รับการฝึกให้คาดการณ์การไล่ระดับสีแบบสูญเสียของโมเดลที่แข็งแกร่ง จากนั้น เอาต์พุตของโมเดลที่มีประสิทธิภาพจะอัปเดตโดยการลบการไล่ระดับสีที่คาดการณ์ คล้ายกับการไล่ระดับสีลง
โดยมี
- $F_{0}$ คือรูปแบบที่แข็งแกร่งเริ่มต้น
- $F_{i+1}$ คือรูปแบบที่แข็งแกร่งรองลงมา
- $F_{i}$ เป็นรูปแบบที่แข็งแกร่งในปัจจุบัน
- $\xi$ คือค่าระหว่าง 0.0 ถึง 1.0 ที่เรียกว่าการลดขนาด ซึ่งคล้ายกับอัตราการเรียนรู้ในการไล่ระดับสีลง
- $f_{i}$ คือโมเดลที่อ่อนแอที่ได้รับการฝึกให้คาดการณ์การไล่ระดับสีที่สูญเสียของ $F_{i}$
รูปแบบต่างๆ ที่ทันสมัยของการเพิ่มการไล่ระดับสียังรวมถึงอนุพันธ์ที่สอง (เฮสเซียน) ของการสูญเสียในการคํานวณด้วย
แผนผังการตัดสินใจมักจะใช้เป็นรูปแบบที่อ่อนในการเพิ่มการไล่ระดับสี ดู ต้นไม้ที่เพิ่ม (การตัดสินใจ) การไล่ระดับสี
I
เส้นทางการอนุมาน
ในแผนผังการตัดสินใจ ระหว่างการอนุมาน ระบบจะกำหนดเส้นทางตัวอย่างที่เฉพาะเจาะจงจากรากไปยังเงื่อนไขอื่นๆ โดยสิ้นสุดด้วยใบไม้ ตัวอย่างเช่น ในแผนผังการตัดสินใจต่อไปนี้ ลูกศรหนาจะแสดงเส้นทางการอนุมานสำหรับตัวอย่างที่มีค่าฟีเจอร์ต่อไปนี้
- x = 7
- y = 12
- z = -3
เส้นทางการอนุมานในภาพประกอบต่อไปนี้เดินทางผ่านเงื่อนไข 3 อย่างก่อนจะไปถึงใบไม้ (Zeta
)
ลูกศรหนา 3 อันแสดงเส้นทางการอนุมาน
ข้อมูลที่ได้รับ
ในฟอเรสต์การตัดสินใจ ความแตกต่างระหว่างเอนโทรปีของโหนดและผลรวมถ่วงน้ำหนัก (ตามจำนวนตัวอย่าง) ของเอนโทรปีของโหนดย่อย เอนโทรปีของโหนดคือเอนโทรปีของตัวอย่างในโหนดนั้น
ตัวอย่างเช่น ลองพิจารณาค่าเอนโทรปีต่อไปนี้
- เอนโทรปีของโหนดหลัก = 0.6
- เอนโทรปีของโหนดย่อย 1 โหนดที่มีตัวอย่างที่เกี่ยวข้อง 16 ตัวอย่าง = 0.2
- เอนโทรปีของโหนดย่อยอื่นที่มีตัวอย่างที่เกี่ยวข้อง 24 ตัวอย่าง = 0.1
ดังนั้น 40% ของตัวอย่างจะอยู่ในโหนดย่อย 1 โหนดและ 60% อยู่ในโหนดย่อยอื่นๆ ดังนั้น
- ผลรวมเอนโทรปีแบบถ่วงน้ำหนักของโหนดย่อย = (0.4 * 0.2) + (0.6 * 0.1) = 0.14
ดังนั้น ข้อมูลที่ได้จะเป็น
- ข้อมูลที่ได้รับ = เอนโทรปีของโหนดหลัก - ผลรวมเอนโทรปีแบบถ่วงน้ำหนักของโหนดย่อย
- ข้อมูลที่ได้รับ = 0.6 - 0.14 = 0.46
Splitter ส่วนใหญ่พยายามสร้างเงื่อนไข ที่จะเพิ่มข้อมูลให้สูงสุด
เงื่อนไขในชุด
ในแผนผังการตัดสินใจ นี่คือเงื่อนไขที่ทดสอบการมี 1 รายการในชุดรายการนั้นๆ ตัวอย่างต่อไปนี้เป็นเงื่อนไขที่กำหนดไว้แล้ว
house-style in [tudor, colonial, cape]
ในการอนุมาน หากค่าของฟีเจอร์แบบบ้านคือ tudor
หรือ colonial
หรือ cape
เงื่อนไขนี้จะประเมินเป็น "ใช่" หากคุณค่าของฟีเจอร์สไตล์บ้านต่างจากค่าอื่น (เช่น ranch
) เงื่อนไขนี้จะประเมินเป็น "ไม่"
เงื่อนไขที่กําหนดไว้มักจะทําให้เกิดแผนผังการตัดสินใจที่มีประสิทธิภาพมากกว่าเงื่อนไขที่ทดสอบฟีเจอร์เข้ารหัสแบบคลิกเดียว
L
ใบไม้
ปลายทางทั้งหมดในแผนผังการตัดสิน Leaf จะไม่ทำการทดสอบ ซึ่งต่างจาก condition แต่ใบไม้เป็นการคาดคะเนที่เป็นไปได้ Leaf ยังเป็นเทอร์มินัลโหนดของเส้นทางการอนุมานอีกด้วย
ตัวอย่างเช่น แผนผังการตัดสินใจต่อไปนี้มีใบไม้ 3 ใบ
N
โหนด (แผนผังการตัดสินใจ)
ในแผนผังการตัดสินใจ จะมีเงื่อนไขหรือใบไม้ใดก็ได้
เงื่อนไขที่ไม่ใช่ไบนารี
เงื่อนไข ที่มีผลลัพธ์ที่เป็นไปได้มากกว่า 2 รายการ ตัวอย่างเช่น เงื่อนไขที่ไม่ใช่ไบนารีต่อไปนี้มีผลลัพธ์ที่เป็นไปได้ 3 อย่าง
O
เงื่อนไขแบบเอียง
ในแผนผังการตัดสินใจ เงื่อนไขที่มีฟีเจอร์มากกว่า 1 รายการ ตัวอย่างเช่น หากความสูงและความกว้างเป็นทั้ง 2 ฟีเจอร์ ตัวอย่างต่อไปนี้จะเป็นเงื่อนไขแบบเฉียง
height > width
คอนทราสต์กับเงื่อนไขที่ปรับแนวแกน
การประเมินสินค้านอกถุง (การประเมิน OOB)
กลไกในการประเมินคุณภาพของป่าการตัดสินใจโดยการทดสอบแผนผังการตัดสินใจแต่ละรายการกับตัวอย่าง ที่ไม่ได้ใช้ในระหว่างการฝึกอบรมของแผนผังการตัดสินใจนั้น ตัวอย่างเช่น ในแผนภาพต่อไปนี้ ให้สังเกตว่าระบบจะฝึกแผนผังการตัดสินใจแต่ละรายการจากตัวอย่างประมาณ 2 ใน 3 แล้วประเมินเทียบกับตัวอย่างที่เหลือ 1 ใน 3
การประเมินแบบรวมศูนย์เป็นการประมาณอย่างมีประสิทธิภาพและประหยัดเพื่อการคำนวณของกลไกการตรวจสอบข้าม ในการตรวจสอบข้าม 1 โมเดลจะได้รับการฝึกสำหรับการตรวจสอบข้ามแต่ละรอบ (เช่น 10 โมเดลได้รับการฝึกในการตรวจสอบข้าม 10 เท่า) เมื่อใช้การประเมิน OOB โมเดลเดียวจะได้รับการฝึก เนื่องจากBagging จะระงับข้อมูลบางอย่างจากต้นไม้แต่ละต้นไม้ในระหว่างการฝึก การประเมิน OOB จึงใช้ข้อมูลนั้นเพื่อประมาณการตรวจสอบข้ามได้
คะแนน
ความสำคัญของตัวแปรการเรียงสับเปลี่ยน
ประเภทหนึ่งของความสำคัญตัวแปรที่ประเมินการเพิ่มขึ้นของข้อผิดพลาดในการคาดการณ์ของโมเดลหลังจากเปลี่ยนค่าของฟีเจอร์ ความสำคัญของตัวแปรการเรียงสับเปลี่ยนเป็นเมตริกที่ สามารถปรับได้
R
ป่าแบบสุ่ม
ชุดของแผนผังการตัดสินใจที่มีการฝึกต้นไม้การตัดสินใจแต่ละอันโดยสุ่มเลือกสัญญาณรบกวนเฉพาะ เช่น ต้นไม้ตัดสินใจ
ป่าแบบสุ่มเป็นป่าการตัดสินใจประเภทหนึ่ง
รูท
โหนด (เงื่อนไขแรก) ในแผนผังการตัดสินใจ ตามแบบแผน แผนภาพจะวางรากที่ด้านบนสุดของโครงสร้างการตัดสินใจ เช่น
S
การสุ่มตัวอย่างพร้อมการแทนที่
วิธีการเลือกรายการจากชุดของรายการตัวเลือกซึ่งจะเลือกรายการเดียวกันได้หลายครั้ง วลี "มีการแทนที่" หมายความว่าหลังจากการเลือกแต่ละครั้ง รายการที่เลือกจะถูกส่งกลับไปยังกลุ่มรายการตัวเลือก วิธีการผกผันการสุ่มตัวอย่างโดยไม่มีการแทนที่หมายความว่าระบบจะเลือกรายการตัวเลือกได้เพียงครั้งเดียว
ตัวอย่างเช่น ลองพิจารณาชุดผลไม้ต่อไปนี้
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
สมมติว่าระบบสุ่มเลือก fig
เป็นรายการแรก
หากใช้การสุ่มตัวอย่างกับการแทนที่ ระบบจะเลือกรายการที่ 2 จากชุดต่อไปนี้
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
ใช่ เป็นชุดเดียวกันกับก่อนหน้านี้ ดังนั้นระบบจึงอาจเลือก fig
อีกครั้ง
หากมีการใช้การสุ่มตัวอย่างโดยไม่มีการแทนที่ โดยเมื่อเลือกแล้ว จะไม่สามารถเลือกตัวอย่างอีกครั้งได้ เช่น หากระบบสุ่มเลือก fig
เป็นตัวอย่างแรก ก็จะเลือก fig
อีกครั้งไม่ได้ ดังนั้น ระบบจะเลือกตัวอย่างที่สองจากชุดต่อไปนี้ (ลดลง)
fruit = {kiwi, apple, pear, cherry, lime, mango}
การหด
hyperparameter ใน การเพิ่มการไล่ระดับสีที่ควบคุม การปรับให้พอดี การลดลงของการเพิ่มการไล่ระดับสีจะเหมือนกับอัตราการเรียนรู้ในการไล่ระดับสีลง การลดขนาดเป็นค่าทศนิยมระหว่าง 0.0 ถึง 1.0 ค่าที่หดตัวต่ำกว่าจะลดปริมาณการหดตัวมากเกินไป
ข้อมูลแบบแยกส่วน
ในแผนผังการตัดสินใจ ซึ่งเป็นอีกชื่อหนึ่งของเงื่อนไข
ตัวแยก
ขณะฝึกแผนผังการตัดสินใจ กิจวัตร (และอัลกอริทึม) จะทำหน้าที่ค้นหาเงื่อนไขที่ดีที่สุดในโหนดแต่ละรายการ
T
ทดสอบ
ในแผนผังการตัดสินใจ ซึ่งเป็นอีกชื่อหนึ่งของเงื่อนไข
เกณฑ์ (สำหรับแผนผังการตัดสินใจ)
ในเงื่อนไขที่ปรับแนวแกน ระบบจะเปรียบเทียบค่าที่มีฟีเจอร์ ตัวอย่างเช่น 75 คือค่าเกณฑ์ในเงื่อนไขต่อไปนี้
grade >= 75
V
ลำดับความสำคัญของตัวแปร
ชุดคะแนนที่ระบุความสำคัญที่สัมพันธ์กันของฟีเจอร์แต่ละรายการกับโมเดล
เช่น ลองพิจารณาแผนผังการตัดสินใจที่ประมาณราคาบ้าน สมมติว่าแผนผังการตัดสินใจนี้มีคุณลักษณะ 3 อย่าง ได้แก่ ขนาด อายุ และรูปแบบ ถ้าชุดของลำดับความสำคัญที่เปลี่ยนแปลงได้สำหรับคุณลักษณะทั้งสามคำนวณได้เป็น {size=5.8, age=2.5, style=4.7} ขนาดจะมีความสำคัญกับแผนผังการตัดสินใจมากกว่าอายุหรือรูปแบบ
มีเมตริกความสำคัญที่ตัวแปรต่างกัน ซึ่งสามารถแจ้งให้ผู้เชี่ยวชาญ ML ทราบเกี่ยวกับแง่มุมต่างๆ ของโมเดลได้
W
ภูมิปัญญาของฝูงชน
แนวคิดที่ว่าการคิดหาค่าเฉลี่ยของความคิดเห็นหรือค่าประมาณของคนกลุ่มใหญ่ ("ผู้คนจำนวนมาก") มักให้ผลลัพธ์ที่ดีอย่างไม่น่าเชื่อ เช่น ลองเล่นเกมที่คนเดาจำนวนเยลลี่บีนที่บรรจุในโหลใหญ่ แม้ว่าการคาดเดาส่วนใหญ่จะไม่แม่นยำ แต่ค่าเฉลี่ยการคาดเดาทั้งหมดแสดงได้ใกล้เคียงอย่างน่าประหลาดใจกับจำนวนเยลลี่บีนในโหลจริงๆ
Ensembles เป็นซอฟต์แวร์ที่รวบรวมความรู้ของมวลชน แม้ว่าแต่ละโมเดลจะทำการคาดการณ์ได้ไม่ถูกต้องอย่างมาก แต่ค่าเฉลี่ยการคาดการณ์ของหลายๆ โมเดลมักทำให้เกิดการคาดการณ์ที่ดีอย่างไม่น่าเชื่อ เช่น แม้ว่าแผนผังการตัดสินใจแต่ละรายการอาจคาดการณ์ได้ไม่ดี แต่ป่าการตัดสินใจมักให้การคาดการณ์ที่ดีมาก