ข้อมูลที่เหมาะสมสําหรับป่าการตัดสินใจ

ป่าการตัดสินใจจะมีประสิทธิภาพมากที่สุดเมื่อคุณมีชุดข้อมูลแบบตาราง (ข้อมูลที่คุณอาจเป็นตัวแทนในสเปรดชีต ไฟล์ CSV หรือตารางฐานข้อมูล) ข้อมูลแบบตารางคือรูปแบบข้อมูลที่พบได้บ่อยที่สุดรูปแบบหนึ่ง และป่าการตัดสินใจควรเป็น "โซลูชันที่ดีที่สุด" สําหรับการจําลองรูปแบบ

ตาราง 1 ตัวอย่างชุดข้อมูลแบบตาราง

จํานวนขา จํานวนดวงตา น้ําหนัก (ปอนด์) สายพันธุ์ (ป้ายกํากับ)
2 2 12 เพนกวิน
8 6 0.1 แมงมุม
4 2 44 สุนัข

ซึ่งต่างจากเครือข่ายประสาทเทียม ป่าการตัดสินใจจึงใช้ข้อมูลแบบตารางเป็นหลัก คุณไม่จําเป็นต้องทําสิ่งต่างๆ ดังต่อไปนี้ขณะพัฒนาฟลัดไลท์การตัดสินใจ

  • ประมวลผลล่วงหน้า เช่น การปรับฟีเจอร์ให้สอดคล้องตามมาตรฐาน หรือการเข้ารหัสแบบ Hot-hot
  • ประเมินค่า (เช่น แทนที่ค่าที่ขาดหายไปด้วย -1)

อย่างไรก็ตาม ป่าการตัดสินใจไม่เหมาะสําหรับการใช้ข้อมูลที่ไม่ใช่ตารางโดยตรง (หรือที่เรียกว่าข้อมูลที่ไม่มีโครงสร้าง) เช่น รูปภาพหรือข้อความ ได้ วิธีแก้ปัญหานี้จํากัดไว้อยู่แล้ว แต่เครือข่ายประสาทเทียมมักจะจัดการข้อมูลที่ไม่มีโครงสร้างดีกว่า

ประสิทธิภาพ

ป่าการตัดสินใจเป็นตัวอย่างที่มีประสิทธิภาพ กล่าวคือ ป่าการตัดสินใจเหมาะสําหรับการฝึกอบรมชุดข้อมูลขนาดเล็ก หรือชุดข้อมูลที่มีอัตราส่วนจํานวนฟีเจอร์ / ตัวอย่างสูง (อาจมากกว่า 1) แม้ว่าป่าแห่งการตัดสินใจจะเป็นตัวอย่างที่มีประสิทธิภาพ เช่น โมเดลแมชชีนเลิร์นนิงทั้งหมด แต่ป่าแห่งการตัดสินใจจะทํางานได้ดีที่สุดเมื่อมีข้อมูลจํานวนมาก

ป่าแห่งการตัดสินใจมักอนุมานเร็วกว่าเครือข่ายระบบประสาทแบบเทียบเคียง เช่น ป่าแห่งการตัดสินใจขนาดกลางต้องอาศัยการอนุมาน ในระดับไมโครวินาทีใน CPU สมัยใหม่