โมเดลป่าการตัดสินใจประกอบด้วยแผนผังการตัดสินใจ อัลกอริทึมการเรียนรู้เกี่ยวกับป่าการตัดสินใจ (เช่น ป่าแบบสุ่ม) อย่างน้อยส่วนหนึ่งจะอาศัยการเรียนรู้ต้นไม้ตัดสินใจ
ในส่วนนี้ คุณจะได้ศึกษาชุดข้อมูลตัวอย่างเล็กๆ และเรียนรู้วิธีฝึกต้นไม้การตัดสินใจแบบเดี่ยว ในส่วนถัดไป คุณจะได้เรียนรู้วิธีรวมต้นไม้การตัดสินใจเพื่อฝึกฟอเรสต์การตัดสินใจ
ใน YDF ให้ใช้ตัวเรียนรู้ CART เพื่อฝึกโมเดลโครงสร้างต้นไม้การตัดสินใจแต่ละโมเดล ดังนี้
# https://ydf.readthedocs.io/en/latest/py_api/CartLearner import ydf model = ydf.CartLearner(label="my_label").train(dataset)
โมเดล
แผนผังการตัดสินใจคือโมเดลที่ประกอบด้วยชุดของ "คำถาม" ที่จัดเป็นลำดับชั้นในรูปร่างของต้นไม้ คำถามนี้เรียกว่า เงื่อนไข การแยก หรือ test เราจะใช้คำว่า "สภาพสินค้า" ในคลาสนี้ แต่ละโหนดที่ไม่ใช่ Leaf จะมีเงื่อนไข และโหนด Leaf แต่ละโหนดจะมีการคาดการณ์
ต้นไม้โดยปกติจะเติบโตโดยมีรากอยู่ด้านล่าง แต่ต้นไม้ที่ต้องการมักจะแสดงด้วยราก (โหนดแรก) ที่ด้านบน
รูปที่ 1 แผนผังการตัดสินใจอย่างง่าย คำอธิบายสีเขียวไม่ได้เป็นส่วนหนึ่งของแผนผังการตัดสินใจ
การอนุมานโมเดลแผนผังการตัดสินใจจะคำนวณโดยการกำหนดเส้นทางตัวอย่างจากราก (ด้านบนสุด) ไปยังโหนด Leaf 1 โหนด (ที่ด้านล่าง) ตามเงื่อนไข ค่าของใบไม้ที่เข้าถึงคือการคาดการณ์ของแผนผังการตัดสินใจ ชุดของโหนดที่เข้าชมเรียกว่าเส้นทางการอนุมาน ตัวอย่างเช่น ลองพิจารณาค่าฟีเจอร์ต่อไปนี้
num_legs | num_eyes |
---|---|
4 | 2 |
การคาดคะเนจะเป็น dog เส้นทางการอนุมานมีดังนี้
- num_legs ≥ 3 → ใช่
- num_eyes ≥ 3 → ไม่
รูปที่ 2 เส้นทางการอนุมานที่ประกอบขึ้นเป็นใบ *สุนัข* ในตัวอย่าง *{num_legs : 4, num_eyes : 2}*
ในตัวอย่างก่อนหน้านี้ ใบของแผนผังการตัดสินใจมีการคาดเดาการจัดประเภท กล่าวคือใบไม้แต่ละใบจะมีสปีชีส์ของสัตว์ในชุดสิ่งมีชีวิตต่างๆ ที่เป็นไปได้
ในทำนองเดียวกัน ต้นไม้การตัดสินใจสามารถคาดการณ์ค่าตัวเลขโดยติดป้ายกำกับใบไม้ด้วยการคาดคะเนที่ถดถอย (ค่าตัวเลข) เช่น แผนผังการตัดสินใจต่อไปนี้คาดการณ์คะแนนความน่ารักของสัตว์ได้ตั้งแต่ 0 ถึง 10
รูปที่ 3 แผนผังการตัดสินใจที่ทำการคาดคะเนเป็นตัวเลข