ป่าแบบสุ่ม

นี่คือวัว

รูปภาพวัวตัวเก่า

รูปที่ 19 วัวตัวผู้

 

ในปี 1906 การจัดการประกวดตัดสินน้ําหนักในอังกฤษ ผู้เข้าร่วม 787 คนเดาน้ําหนักของวัวตัวหนึ่ง ค่ามัธยฐานข้อผิดพลาดของการประเมินแต่ละค่าคือ 37 ปอนด์ (ข้อผิดพลาด 3.1%) อย่างไรก็ตาม ค่ามัธยฐานโดยรวมของการเดามีน้ําหนักเพียง 9 ปอนด์จากน้ําหนักจริงของวัว (1198 ปอนด์) ซึ่งมีข้อผิดพลาดเพียง 0.7%

ฮิสโตแกรมของการคาดเดาส่วนบุคคล แสดงการคาดเดาส่วนใหญ่ที่กระจุกตามน้ําหนักจริงของวัว

รูปที่ 20 ฮิสโตแกรมของการคาดคะเนน้ําหนัก

 

เกร็ดเล็กเกร็ดน้อยนี้แสดงภาพภูมิปัญญาของฝูงชน: ในบางกรณี ความคิดเห็นโดยรวมจะให้ผลการประเมินที่ดี

ในทางคณิตศาสตร์ ภูมิปัญญาของฝูงชนสามารถประมาณได้ด้วยทฤษฎีขีดจํากัดกลาง: ข้อผิดพลาดรูปยกกําลัง 2 ระหว่างค่าและค่าเฉลี่ยโดยประมาณของค่า N มักอยู่ที่ 0 ด้วยปัจจัย 1/N อย่างไรก็ตาม หากตัวแปรไม่เป็นอิสระ ความแปรปรวนจะสูงกว่า

ในแมชชีนเลิร์นนิง ensemble คือคอลเล็กชันโมเดลที่มีค่าเฉลี่ยในการคาดการณ์ (หรือรวมในลักษณะใดลักษณะหนึ่ง) หากโมเดลหลักของรูปแบบต่างๆ แตกต่างกันมากพอโดยไม่ส่งผลเสียต่อแต่ละบุคคล คุณภาพของเทมเพลตแต่ละรูปแบบจะดีกว่าคุณภาพของโมเดลแต่ละรูปแบบ กลุ่มข้อความจําเป็นต้องมีเวลาในการฝึกและการอนุมานมากกว่า โมเดลเดี่ยว ท้ายที่สุดแล้ว คุณต้องฝึกและอนุมานโมเดลหลายๆ รูปแบบแทนโมเดลเดียว

แบบไม่เป็นทางการ เพื่อให้ทํางานได้ดีที่สุด แต่ละโมเดลควรแยกจากกัน ตัวอย่างหนึ่งก็คือ กลุ่มที่ประกอบด้วยโมเดลเดียวกัน 10 โมเดล (โดยไม่แยกอิสระเลย) จะดีกว่าโมเดลแต่ละรายการ ในทางกลับกัน การบังคับให้รูปแบบเป็นอิสระต่อกันอาจ ทําให้เลวร้ายลงได้ การรวมกลุ่มที่มีประสิทธิภาพกําหนดให้ต้องหาสมดุลระหว่างความเป็นอิสระของโมเดลกับคุณภาพของโมเดลย่อย