อภิธานศัพท์เกี่ยวกับแมชชีนเลิร์นนิง: การตัดสินใจ

หน้านี้มีคําในอภิธานศัพท์เกี่ยวกับ Decision Forests สําหรับอภิธานศัพท์ทั้งหมด คลิกที่นี่

A

การสุ่มตัวอย่างแอตทริบิวต์

#df

กลยุทธ์สําหรับการฝึกอบรมป่าแห่งการตัดสินใจ โดยแต่ละแผนผังการตัดสินใจจะพิจารณาเฉพาะชุดย่อยที่เป็นไปได้ของ ฟีเจอร์ต่างๆ ขณะเรียนรู้เงื่อนไข โดยทั่วไปแล้วจะมีชุดย่อยของฟีเจอร์ที่แตกต่างกันสําหรับแต่ละโหนด ในทางตรงกันข้าม เมื่อฝึกโครงสร้างการตัดสินใจโดยไม่มีการสุ่มตัวอย่างแอตทริบิวต์ ระบบจะพิจารณาฟีเจอร์ที่เป็นไปได้ทั้งหมดสําหรับโหนดแต่ละโหนด

เงื่อนไขตามแกน

#df

ในแผนผังการตัดสินใจ เงื่อนไขที่มีฟีเจอร์เพียงรายการเดียว ตัวอย่างเช่น ถ้าพื้นที่เป็นจุดสนใจ ต่อไปนี้จะเป็นเงื่อนไขที่สอดคล้องกับแกน:

area > 200

ตรงข้ามกับเงื่อนไขเอียง

B

การถือถุง

#df

เมธอดในการฝึกกลุ่มที่แต่ละองค์ประกอบรุ่นจะฝึกสําหรับชุดย่อยของตัวอย่างการฝึก ตัวอย่างที่ใช้แทน ตัวอย่างเช่น ป่าแบบสุ่มคือคอลเล็กชันของต้นไม้ที่ตัดสินใจที่ผ่านการฝึกด้วยถุง

คําว่า bagging เป็นชื่อย่อของ bootstrap aggregating

เงื่อนไขแบบไบนารี

#df

ในแผนผังการตัดสินใจ เงื่อนไขที่มีผลลัพธ์ที่เป็นไปได้ 2 อย่าง โดยทั่วไปแล้วจะเป็น yes หรือ no ตัวอย่างเป็นเงื่อนไขแบบไบนารี

temperature >= 100

ตรงข้ามกับเงื่อนไขนอนไบนารี

C

เงื่อนไข

#df

ในต้นไม้แห่งการตัดสินใจ โหนดโหนดจะประเมินนิพจน์ ตัวอย่างเช่น ส่วนต่อไปนี้ของแผนผังการตัดสินใจ มีเงื่อนไขสองอย่าง

แผนผังการตัดสินใจประกอบด้วย 2 เงื่อนไข ได้แก่ (x > 0) และ (y > 0)

เงื่อนไขเรียกอีกอย่างว่าการแยกหรือการทดสอบ

ความเปรียบต่างของคอนทราสต์กับ leaf

และดู:

D

ป่าแห่งการตัดสินใจ

#df

โมเดลที่สร้างจากต้นการตัดสินใจหลายรายการ ป่าที่ตัดสินใจจะทําการคาดการณ์โดยรวบรวมการคาดการณ์ของแผนผังการตัดสินใจ ป่าที่ได้รับความนิยมประเภทต่างๆ ได้แก่ ป่าแบบสุ่มและต้นไม้ในการไล่ระดับสี

แผนผังการตัดสินใจ

#df

รูปแบบการเรียนรู้ภายใต้การดูแลที่ประกอบด้วยชุดเงื่อนไขและการออกที่แบ่งเป็นลําดับชั้น ตัวอย่างเช่น โครงสร้างการตัดสินใจมีดังนี้

แผนผังการตัดสินใจประกอบด้วย 4 เงื่อนไขที่จัดเรียงแบบลําดับชั้น ซึ่งนําไปสู่ใบไม้ 5 ใบ

E

Entropy

#df

ใน ทฤษฎีข้อมูล คําอธิบายว่าการแจกแจงความน่าจะเป็นที่คาดการณ์ได้คืออะไร หรืออีกทางหนึ่ง เอนโทรปียังกําหนดปริมาณข้อมูลที่ตัวอย่างแต่ละรายการมีข้อมูลด้วย การกระจายมีเอนโทรปีสูงสุดเท่าที่เป็นไปได้เมื่อค่าทั้งหมดของตัวแปรสุ่มมีแนวโน้มเท่ากัน

เอนโทรปีของชุดค่าที่เป็นไปได้ 2 ค่าคือ "0" และ "1" (เช่น ป้ายกํากับในปัญหาการแยกประเภทไบนารี) มีสูตรต่อไปนี้

  H = -p log p - q log q = -p log p - (1-p) * บันทึก (1-p)

โดยที่:

  • H คือเอนโทรปี
  • p คือเศษส่วนของตัวอย่าง "1"
  • q คือเศษส่วนของตัวอย่าง "0" โปรดทราบว่า q = (1 - p)
  • log คือบันทึกโดยทั่วไป2 ในกรณีเช่นนี้ หน่วยเอนโทรปี

ตัวอย่างเช่น สมมติว่า

  • ตัวอย่าง 100 รายการมีค่า "1"
  • ตัวอย่าง 300 ตัวอย่างมีค่า "0"

ดังนั้น ค่าเอนโทรปีก็คือ

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 บิตต่อตัวอย่าง

ชุดที่มีการจัดสรรความลงตัวอย่างสมบูรณ์แบบ (เช่น 200 "0" และ 200 "1") จะมีเอนโทรปี 1.0 บิตต่อตัวอย่าง เมื่อชุดกิจกรรมเริ่มไม่สมดุล เอนโทรปีก็จะเคลื่อนไปเป็น 0.0

ในต้นไม้แห่งการตัดสินใจ เอนโทรปีจะช่วยกําหนดข้อมูลที่ได้เพื่อช่วยผู้ควบคุมเลือกเงื่อนไข ระหว่างการเติบโตของแผนผังการตัดสินใจจัดหมวดหมู่

เปรียบเทียบเอนโทรปีกับ:

เอนโทรปีมักเรียกกันว่าเอนโทรปีของแชนนอน

F

ความสําคัญของฟีเจอร์

#df

คําพ้องความหมายสําหรับความสําคัญของตัวแปร

G

ความบกพร่องทางกาย

#df

เมตริกที่คล้ายกับ entropy ตัวแยก ใช้ค่าที่มาจากความบกพร่องของกีนีหรือเอนโทรปีในการเขียน เงื่อนไขเพื่อจัดประเภท ต้นไม้ที่ตัดสินใจ ได้รับประโยชน์จากข้อมูลมาจากเอนโทรปี ยังไม่มีการใช้คําที่เทียบเท่าที่เป็นสากลสําหรับเมตริกที่มาจากความไม่เจาะจงของจีนี แต่เมตริกที่ไม่มีชื่อนี้ก็สําคัญไม่แพ้ข้อมูลที่ได้จากการได้มา

ความบกพร่องของ Gini เรียกอีกอย่างหนึ่งว่าดัชนี Gini หรือเรียกง่ายๆ ว่าจีน

การเพิ่มระดับการไล่ระดับสี

#df

อัลกอริทึมการฝึกที่มีการฝึกโมเดลที่อ่อนแอเพื่อปรับปรุงคุณภาพอย่างต่อเนื่อง (ลดการสูญเสีย) ของโมเดลที่มีประสิทธิภาพ ตัวอย่างเช่น โมเดลที่คาดเดาง่ายอาจเป็นโมเดลต้นไม้ตัดสินใจแบบเชิงเส้นหรือขนาดเล็ก โมเดลที่แข็งแกร่งนี้จะกลายเป็นผลรวมของโมเดลที่อ่อนแอที่ผ่านการฝึกทั้งหมดก่อนหน้านี้

ในรูปแบบไล่ระดับที่เรียบที่สุด ในการทําซ้ําแต่ละครั้ง โมเดลที่ไม่รัดกุมจะได้รับการฝึกให้คาดการณ์การไล่ระดับสีที่สูญเสียไปของโมเดลที่รัดกุม จากนั้น ระบบจะอัปเดตเอาต์พุตของโมเดลที่มีประสิทธิภาพโดยการลบการไล่ระดับสีที่คาดการณ์ไว้ ซึ่งคล้ายกับการไล่ระดับแบบไล่ระดับสี

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

โดยที่:

  • $F_{0}$ เป็นรูปแบบที่แข็งแกร่งที่เริ่มต้น
  • $F_{i+1}$ เป็นรูปแบบที่แข็งแกร่งถัดไป
  • $F_{i}$ เป็นรูปแบบที่แข็งแกร่งในปัจจุบัน
  • $\xi$ เป็นค่าระหว่าง 0.0 ถึง 1.0 ซึ่งเรียกว่า การย่อ ซึ่งคล้ายกับอัตราการเรียนรู้ในการไล่ระดับสีที่ไล่ระดับ
  • $f_{i}$ คือโมเดลที่อ่อนต่อการฝึกเพื่อคาดการณ์การไล่ระดับสีที่สูญเสียไปของ $F_{i}$

การเพิ่มประสิทธิภาพการไล่ระดับสีรูปแบบต่างๆ ยังรวมถึงอนุพันธ์ที่สอง (Hessian) ที่สูญเสียไปในการคํานวณด้วย

ต้นไม้แห่งการตัดสินใจมักจะเป็นรูปแบบที่อ่อนแอใน การเพิ่มระดับการไล่ระดับสี ดูต้นไม้แบบไล่ระดับสี (การตัดสินใจ)

ต้นไม้ไล่ระดับสี (การตัดสินใจ) (GBT)

#df

ป่าแห่งการตัดสินใจประเภทหนึ่งซึ่งมีคุณสมบัติดังนี้

I

เส้นทางการอนุมาน

#df

ในตารางการตัดสินใจ ในระหว่างการอนุมาน เส้นทางที่ตัวอย่างใช้จากราก เงื่อนไขอื่นๆ ไปถึงใบ ตัวอย่างเช่น ในแผนผังการตัดสินใจต่อไปนี้ ลูกศรหนาจะแสดงเส้นทางการอนุมานสําหรับตัวอย่างที่มีค่าคุณลักษณะต่อไปนี้

  • x = 7
  • y = 12
  • z = -3

เส้นทางการอนุมานในภาพประกอบต่อไปนี้เดินทางผ่าน 3 เงื่อนไขก่อนไปถึงใบไม้ (Zeta)

ต้นไม้แห่งการตัดสินใจประกอบด้วย 4 เงื่อนไขและ 5 ใบ
          เงื่อนไขรูทคือ (x > 0) เนื่องจากคําตอบคือ "ใช่" เส้นทางการอนุมานจะเดินทางจากรูทไปยังเงื่อนไขถัดไป (y > 0)
          เนื่องจากคําตอบคือ "ใช่" เส้นทางการอนุมานจะไปที่เงื่อนไขถัดไป (z > 0) เนื่องจากคําตอบคือ "ไม่" เส้นทางการอนุมานจะเดินทางไปที่โหนดเทอร์มินัลซึ่งเป็น Leaf (Zeta)

ลูกศรหนา 3 เส้นจะแสดงเส้นทางการอนุมาน

การรับข้อมูล

#df

ในป่าที่ตัดสินใจ ความแตกต่างระหว่างเอนโทรปีของโหนดและผลรวมที่ถ่วงน้ําหนัก (ตามจํานวนตัวอย่าง) ของเอนโทรปีของโหนดย่อยของโหนดย่อย เอนโทรปีของโหนดคือเอนโทรปี ของตัวอย่างในโหนดนั้น

ตัวอย่างเช่น พิจารณาค่าเอนโทรปีต่อไปนี้

  • เอนโทรปีของโหนดระดับบนสุด = 0.6
  • เอนโทรปีของโหนดย่อย 1 โหนดที่มีตัวอย่างที่เกี่ยวข้อง 16 รายการ = 0.2
  • เอนโทรปีของโหนดย่อยอื่นที่มีตัวอย่างที่เกี่ยวข้อง 24 ตัวอย่าง = 0.1

ดังนั้น 40% ของตัวอย่างอยู่ในโหนดย่อยหนึ่งและ 60% อยู่ในโหนดย่อยอื่นๆ ดังนั้น

  • ผลรวมเอนโทรปีที่มีการให้น้ําหนักของโหนดย่อย = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

ประโยชน์ที่ได้คือ

  • ข้อมูลที่เพิ่มขึ้น = เอนโทรปีของโหนดระดับบนสุด - ผลรวมเอนโทรปีแบบถ่วงน้ําหนักของโหนดย่อย
  • การเพิ่มขึ้นของข้อมูล = 0.6 - 0.14 = 0.46

โปรแกรมค้นหาส่วนใหญ่พยายามสร้างเงื่อนไขที่เพิ่มข้อมูลให้ได้มากที่สุด

เงื่อนไขที่กําหนด

#df

ในแผนผังการตัดสินใจ จะมีเงื่อนไขที่ทดสอบการแสดงรายการ 1 รายการในชุดรายการต่างๆ ตัวอย่างเช่น เงื่อนไขเริ่มต้นคือ

  house-style in [tudor, colonial, cape]

ในระหว่างการอนุมาน หากค่าของ feature แบบบ้านเป็น tudor หรือ colonial หรือ cape เงื่อนไขนี้จะประเมินเป็นใช่ หากค่าของฟีเจอร์รูปแบบบ้านเป็นอย่างอื่น (เช่น ranch) เงื่อนไขนี้จะประเมินเป็น "ไม่"

โดยปกติเงื่อนไขที่กําหนดจะนําไปสู่โครงสร้างการตัดสินใจที่มีประสิทธิภาพมากกว่าเงื่อนไขที่ทดสอบฟีเจอร์ที่เข้ารหัสแบบ 1 ฮ็อต

L

ใบไม้

#df

ปลายทางใดก็ได้ในแผนผังการตัดสินใจ ใบไม้ไม่เหมือนกับการทดสอบสภาพสินค้า Leaf เป็นการคาดการณ์ที่เป็นไปได้ ใบไม้ก็เป็นเทอร์มินัล โหนดของเส้นทางการอนุมานเช่นกัน

ตัวอย่างเช่น โครงสร้างการตัดสินใจต่อไปนี้มีใบประกาศ 3 ใบ

แผนผังการตัดสินใจโดยมี 2 เงื่อนไขที่นําไปสู่ใบไม้ 3 ใบ

N

โหนด (แผนผังการตัดสินใจ)

#df

ในแผนผังการตัดสินใจ ให้กําหนดเงื่อนไขหรือใบไม้

ต้นไม้ตัดสินใจซึ่งมี 2 เงื่อนไขและ 3 ใบ

นอนไบนารี

#df

สภาพสินค้าที่มีผลลัพธ์ที่เป็นไปได้มากกว่า 2 รายการ ตัวอย่างเช่น เงื่อนไขที่ไม่ใช่ไบนารีต่อไปนี้มีผลลัพธ์ที่เป็นไปได้ 3 แบบ

เงื่อนไข (number_of_legs = ?) ที่ทําให้เกิดผลลัพธ์ 3 อย่าง ผลลัพธ์ 1 รายการ (number_of_legs = 8) นําไปสู่ใบไม้ที่มีชื่อ
          แมงมุม ผลลัพธ์ที่สอง (number_of_legs = 4) นําไปสู่ใบไม้ที่ชื่อ dog ผลลัพธ์ที่สาม (number_of_legs = 2) นําไปสู่ใบไม้ที่ชื่อ penguin

O

เงื่อนไขเอียง

#df

ในแผนผังการตัดสินใจ จะมีเงื่อนไขที่เกี่ยวข้องกับฟีเจอร์มากกว่า 1 รายการ ตัวอย่างเช่น ถ้าคุณลักษณะความสูงและความกว้างเป็นทั้งสองคุณลักษณะ เงื่อนไขต่อไปนี้จะเป็นแบบเอียง

  height > width

คอนทราสต์กับเงื่อนไขที่สอดคล้องกับแกน

การประเมินนอกกระเป๋า (การประเมิน OOB)

#df

กลไกสําหรับการประเมินคุณภาพของกลุ่มการตัดสินใจโดยการทดสอบแต่ละกรอบการตัดสินใจกับตัวอย่าง ไม่ถูกนําไปใช้ระหว่าง การฝึกอบรมโครงสร้างการตัดสินใจ ตัวอย่างเช่น ในแผนภาพต่อไปนี้ ให้สังเกตว่าระบบช่วยฝึกการตัดสินใจแต่ละแบบจากต้นไม้ประมาณ 2 ใน 3 ของตัวอย่าง แล้วนําไปเทียบกับตัวอย่าง 1 ใน 3 ที่เหลือ

ป่าที่ตัดสินใจประกอบด้วยต้นไม้ตัดสินใจ 3 ต้น
          แผนผังการตัดสินใจ 1 ช่องจะฝึกใช้ 2 ใน 3 ของตัวอย่าง แล้วใช้ 1 ใน 3 ที่เหลือสําหรับการประเมิน OOB
          แผนผังการตัดสินใจรายการที่ 2 จะฝึกใช้ 2 ใน 3 ของตัวอย่างที่แตกต่างจากแผนผังการตัดสินใจก่อนหน้านี้ จากนั้นใช้ 1 ใน 3 ของการประเมิน OOB ที่ต่างจากแผนผังการตัดสินใจก่อนหน้า

การประเมินแบบไม่ต้องใช้กระเป๋าเป็นการประเมิน เชิงกลวิธีที่มีประสิทธิภาพการตรวจสอบความถูกต้องข้ามกัน ในการตรวจสอบความถูกต้องข้ามแพลตฟอร์ม จะมีการฝึก 1 โมเดลต่อรอบการตรวจสอบความถูกต้องแต่ละรอบ (เช่น โมเดล 10 รายการจะได้รับการฝึกในการตรวจสอบความถูกต้อง 10 เท่า) เมื่อใช้การประเมิน OOB ระบบจะฝึกโมเดลเดี่ยว เนื่องจากสัมภาระ ระงับข้อมูลบางอย่างจากแต่ละโครงสร้างระหว่างการฝึก การประเมิน OOB สามารถใช้ข้อมูลดังกล่าวเพื่อประมาณค่าการตรวจสอบความถูกต้องระหว่างกัน

P

ความสําคัญของตัวแปรที่เปลี่ยนแปลงได้

#df

ประเภทของลําดับความสําคัญของตัวแปรที่ประเมินการเพิ่มขึ้นของข้อผิดพลาดการคาดการณ์ของโมเดลหลังจากเปลี่ยนแปลงค่าของฟีเจอร์ ความแปรผันของการเปลี่ยนแปลงเป็นเมตริกที่เข้าใจง่าย

ขวา

ป่าแบบสุ่ม

#df

ประโยคของแผนผังการตัดสินใจที่ซึ่งต้นไม้การตัดสินใจแต่ละตัวจะได้รับการฝึกโดยใช้เสียงแบบสุ่มเฉพาะ เช่น กระเป๋าถือ

ป่าแบบสุ่มเป็นป่าแห่งการตัดสินใจประเภทหนึ่ง

รูท

#df

โหนดเริ่มต้น (เงื่อนไขแรก) ในแผนผังการตัดสินใจ แผนภาพมักจะวางรากไว้ที่ด้านบนของโครงสร้างการตัดสินใจ ตัวอย่างเช่น

ต้นไม้ตัดสินใจซึ่งมี 2 เงื่อนไขและ 3 ใบ เงื่อนไขเริ่มต้น (x > 2) คือราก

S

การสุ่มตัวอย่างด้วยการแทนที่

#df

วิธีการเลือกรายการจากชุดตัวเลือกซึ่งสามารถเลือกรายการเดียวกันได้หลายครั้ง วลี "พร้อมแทนที่" หมายความว่าหลังจากรายการที่เลือกแต่ละรายการ จะส่งกลับกลุ่มที่เลือกไปยังรายการตัวเลือก วิธีการผกผันคือการสุ่มตัวอย่างที่ไม่มีการแทนที่ ซึ่งหมายความว่าจะเลือกรายการตัวเลือกได้เพียง 1 ครั้งเท่านั้น

ตัวอย่างเช่น ลองพิจารณาชุดผลไม้ต่อไปนี้

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

สมมติว่าระบบสุ่มเลือก fig เป็นรายการแรก หากใช้การสุ่มตัวอย่างโดยการแทนที่ ระบบจะเลือกรายการที่ 2 จากชุดต่อไปนี้

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

ใช่ ค่านั้นเหมือนเดิม ระบบจึงอาจเลือก fig อีกครั้ง

หากใช้การสุ่มตัวอย่างโดยไม่มีการแทนที่ เมื่อเลือกแล้ว คุณจะหยิบตัวอย่างอีกครั้งไม่ได้ ตัวอย่างเช่น หากระบบสุ่มเลือก fig เป็นตัวอย่างแรก ก็จะเลือก fig อีกไม่ได้ ดังนั้น ระบบจะเลือกตัวอย่างที่สองจากชุด (ลดลง) ต่อไปนี้

fruit = {kiwi, apple, pear, cherry, lime, mango}

หด

#df

hyperparameter ในการเร่งระดับการไล่ระดับสีที่ควบคุมการปรับให้เหมาะสม การเพิ่มขึ้นของการไล่ระดับการไล่ระดับสี คล้ายกับอัตราการเรียนรู้ในการไล่ระดับแบบไล่ระดับสี การย่อเป็นค่าทศนิยม ระหว่าง 0.0 ถึง 1.0 ค่าการหดตัวต่ํากว่าจะลดปริมาณที่มากเกินไปเกินกว่าค่าการย่อ

ข้อมูลแบบแยกส่วน

#df

ในแผนผังการตัดสินใจ ซึ่งเป็นอีกชื่อหนึ่งของเงื่อนไข

ตัวแยก

#df

ขณะฝึกอบรมแผนผังการตัดสินใจ กิจวัตร (และอัลกอริทึม) ที่มีหน้าที่ค้นหาเงื่อนไขที่ดีที่สุดในแต่ละโหนด

T

ทดสอบ

#df

ในแผนผังการตัดสินใจ ซึ่งเป็นอีกชื่อหนึ่งของเงื่อนไข

เกณฑ์ (สําหรับแผนผังการตัดสินใจ)

#df

ในเงื่อนไขที่สอดคล้องกับแกน ค่าที่มีการเปรียบเทียบฟีเจอร์ เช่น 75 คือค่าเกณฑ์ในเงื่อนไขต่อไปนี้

grade >= 75

V

ความสําคัญของตัวแปร

#df

ชุดคะแนนที่ระบุความสําคัญสัมพัทธ์ของฟีเจอร์แต่ละรายการที่มีต่อโมเดล

เช่น ลองพิจารณาแผนผังการตัดสินใจที่คาดคะเนราคาบ้าน สมมติว่าโครงสร้างการตัดสินใจนี้ใช้คุณลักษณะ 3 อย่าง คือ ขนาด อายุ และสไตล์ หากชุดความสําคัญของตัวแปรสําหรับ คุณลักษณะทั้ง 3 มีค่าเป็น {size=5.8, age=2.5, style=4.7} ขนาดก็สําคัญสําหรับโครงสร้างการตัดสินใจมากกว่าอายุหรือรูปแบบ

เมตริกสําคัญต่างๆ ของตัวแปรมีอยู่ ซึ่งช่วยให้ผู้เชี่ยวชาญ ML ทราบเกี่ยวกับแง่มุมต่างๆ ของโมเดล

W

ภูมิปัญญาของคนหมู่มาก

#df

แนวคิดที่เฉลี่ยจากความคิดเห็นหรือค่าประมาณของคนจํานวนมาก ("ฝูงชน") มักจะให้ผลลัพธ์ที่น่าประหลาดใจ เช่น ลองเล่นเกมที่มีคนเดาว่า เยลลี่ถั่วอัดแน่นไปด้วยโอ่งในโอ่ง แม้ว่าการคาดเดาของแต่ละคนจะไม่ถูกต้อง แต่โดยเฉลี่ยแล้วการเดาทั้งหมดก็ใกล้เคียงกับจํานวนจริงของถั่วเจลลี่ในโหลแก้วจริงๆ

Ensembles คือซอฟต์แวร์ที่เปรียบเสมือนสติปัญญาอันชาญฉลาด แม้ว่าแต่ละโมเดลจะคาดการณ์ได้ไม่ถูกต้องนัก แต่การคาดการณ์ของโมเดลจํานวนมากก็มักจะสร้างการคาดการณ์ที่ดีอย่างไม่น่าเชื่อ ตัวอย่างเช่น แม้ว่าต้นไม้แห่งการตัดสินใจแต่ละรายการอาจคาดการณ์ได้ไม่ดี แต่ป่าแห่งการตัดสินใจก็มักจะทําการคาดการณ์ที่ดีมาก