ต้นไม้ตัดสินใจ

โมเดลป่าการตัดสินใจประกอบด้วยแผนผังการตัดสินใจ อัลกอริทึมการเรียนรู้เกี่ยวกับป่าการตัดสินใจ (เช่น ป่าแบบสุ่ม) อย่างน้อยส่วนหนึ่งจะอาศัยการเรียนรู้ต้นไม้ตัดสินใจ

ในส่วนนี้ คุณจะได้ศึกษาชุดข้อมูลตัวอย่างเล็กๆ และเรียนรู้วิธีฝึกต้นไม้การตัดสินใจแบบเดี่ยว ในส่วนถัดไป คุณจะได้เรียนรู้วิธีรวมต้นไม้การตัดสินใจเพื่อฝึกฟอเรสต์การตัดสินใจ

รหัส YDF

ใน YDF ให้ใช้ตัวเรียนรู้ CART เพื่อฝึกโมเดลโครงสร้างต้นไม้การตัดสินใจแต่ละโมเดล ดังนี้

# https://ydf.readthedocs.io/en/latest/py_api/CartLearner
import ydf
model = ydf.CartLearner(label="my_label").train(dataset)

โมเดล

แผนผังการตัดสินใจคือโมเดลที่ประกอบด้วยชุดของ "คำถาม" ที่จัดเป็นลำดับชั้นในรูปร่างของต้นไม้ คำถามนี้เรียกว่า เงื่อนไข การแยก หรือ test เราจะใช้คำว่า "สภาพสินค้า" ในคลาสนี้ แต่ละโหนดที่ไม่ใช่ Leaf จะมีเงื่อนไข และโหนด Leaf แต่ละโหนดจะมีการคาดการณ์

ต้นไม้โดยปกติจะเติบโตโดยมีรากอยู่ด้านล่าง แต่ต้นไม้ที่ต้องการมักจะแสดงด้วยราก (โหนดแรก) ที่ด้านบน

แผนผังการตัดสินใจที่มี 2 เงื่อนไขและใบ 3 ใบ เงื่อนไขแรก (รูท) คือ num_legs >= 3 เงื่อนไขที่ 2 คือ num_eyes >= 3 ใบทั้ง 3 ใบคือ เพนกวิน แมงมุม
และสุนัข

รูปที่ 1 แผนผังการตัดสินใจอย่างง่าย คำอธิบายสีเขียวไม่ได้เป็นส่วนหนึ่งของแผนผังการตัดสินใจ

 

การอนุมานโมเดลแผนผังการตัดสินใจจะคำนวณโดยการกำหนดเส้นทางตัวอย่างจากราก (ด้านบนสุด) ไปยังโหนด Leaf 1 โหนด (ที่ด้านล่าง) ตามเงื่อนไข ค่าของใบไม้ที่เข้าถึงคือการคาดการณ์ของแผนผังการตัดสินใจ ชุดของโหนดที่เข้าชมเรียกว่าเส้นทางการอนุมาน ตัวอย่างเช่น ลองพิจารณาค่าฟีเจอร์ต่อไปนี้

num_legs num_eyes
4 2

การคาดคะเนจะเป็น dog เส้นทางการอนุมานมีดังนี้

  1. num_legs ≥ 3 → ใช่
  2. num_eyes ≥ 3 → ไม่

ภาพประกอบเหมือนกับรูปที่ 1 แต่ภาพนี้แสดงเส้นทางการอนุมานใน 2 เงื่อนไข โดยจะสิ้นสุดในใบไม้สำหรับสุนัข

รูปที่ 2 เส้นทางการอนุมานที่ประกอบขึ้นเป็นใบ *สุนัข* ในตัวอย่าง *{num_legs : 4, num_eyes : 2}*

 

ในตัวอย่างก่อนหน้านี้ ใบของแผนผังการตัดสินใจมีการคาดเดาการจัดประเภท กล่าวคือใบไม้แต่ละใบจะมีสปีชีส์ของสัตว์ในชุดสิ่งมีชีวิตต่างๆ ที่เป็นไปได้

ในทำนองเดียวกัน ต้นไม้การตัดสินใจสามารถคาดการณ์ค่าตัวเลขโดยติดป้ายกำกับใบไม้ด้วยการคาดคะเนที่ถดถอย (ค่าตัวเลข) เช่น แผนผังการตัดสินใจต่อไปนี้คาดการณ์คะแนนความน่ารักของสัตว์ได้ตั้งแต่ 0 ถึง 10

แผนผังการตัดสินใจที่แต่ละใบมีตัวเลขจุดลอยตัวที่ต่างกัน

รูปที่ 3 แผนผังการตัดสินใจที่ทำการคาดคะเนเป็นตัวเลข