มาเริ่มกันด้วยรีวิวสั้นๆ เกี่ยวกับแนวคิดสําคัญจากหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง ดูการกระจายในแผนภูมิด้านล่าง
รูปที่ 1: ราคาบ้านเทียบกับละติจูด
สําหรับคําถามต่อไปนี้ ให้คลิกลูกศรที่ต้องการเพื่อตรวจคําตอบ
ในกรณีอย่างเช่นตัวอย่างละติจูด คุณต้องแบ่งละติจูดเป็นที่เก็บข้อมูลต่างๆ เพื่อดูข้อมูลที่แตกต่างกันไปเกี่ยวกับค่าที่อยู่อาศัยของแต่ละที่เก็บข้อมูล การเปลี่ยนฟีเจอร์ตัวเลขให้เป็นฟีเจอร์ตามหมวดหมู่โดยใช้ชุดเกณฑ์ที่เรียกว่าที่เก็บข้อมูล (หรือการเชื่อมโยง) ในตัวอย่างที่เก็บข้อมูลนี้ ขอบเขตจะเท่ากัน
รูปที่ 2: ราคาบ้านเทียบกับละติจูด ตอนนี้แบ่งเป็นที่เก็บข้อมูลแล้ว
การสะสมควอร์ไทล์
มาดูชุดข้อมูลราคารถยนต์ของเราพร้อมที่เพิ่มที่เก็บข้อมูลกันบ้าง ด้วยฟีเจอร์ 1 รายการต่อที่เก็บข้อมูล โมเดลจะใช้ความจุสูงสุดสําหรับตัวอย่างเดียวในช่วง >45000 เช่นเดียวกับตัวอย่างทั้งหมดในช่วง 5000-10000 งานนี้ดูแล้วไม่มีประโยชน์เลย เราจะปรับปรุงสถานการณ์นี้ได้อย่างไร
รูปที่ 3: จํานวนรถยนต์ที่จําหน่ายในราคาที่ต่างกัน
แต่ปัญหาก็คือ ที่เก็บข้อมูลที่เว้นระยะห่างเท่าๆ กันไม่กระจายอย่างนี้ โซลูชันอยู่ในการสร้างที่เก็บข้อมูลที่แต่ละรายการมีจํานวนจุดเท่ากัน เทคนิคนี้เรียกว่าที่เก็บข้อมูลแบบควอนไทล์ เช่น รูปภาพต่อไปนี้แบ่งราคารถออกเป็นที่เก็บข้อมูลแต่ละส่วน หากต้องการได้ตัวอย่างจํานวนเดียวกันในที่เก็บข้อมูลแต่ละชุด ที่เก็บข้อมูลบางชุดจะครอบคลุมระยะเวลาที่จํากัด ในขณะที่อีกรายการครอบคลุมระยะเวลาที่มีราคากว้างมาก
รูปที่ 4: ที่เก็บข้อมูลควอร์ไทล์ช่วยให้รถยนต์แต่ละคันมีจํานวนประมาณเท่าๆ กัน
สรุปที่เก็บข้อมูล
หากเลือกที่จะฝากฟีเจอร์ตัวเลขไว้ในตัวเลขเดิม ให้คํานึงถึงวิธีกําหนดขอบเขตและประเภทของการใช้พื้นที่เก็บข้อมูลที่ชัดเจน
- ที่เก็บข้อมูลที่มีระยะห่างเท่ากัน: ขอบเขตจะคงที่และอยู่ในช่วงเดียวกัน (เช่น 0-4 องศา 5-9 องศา และ 10-14 องศา หรือ $5,000-$9,999, $10,000-$14,999 และ $15,000-$19,999) ที่เก็บข้อมูลบางรายการอาจมีหลายจุด ในขณะที่ที่เก็บข้อมูลอื่นๆ อาจไม่มีเลย
- ที่เก็บข้อมูลที่มีขอบเขตควอนไทล์: ที่เก็บข้อมูลแต่ละรายการมีจํานวนจุดเท่ากัน ค่าคงที่ไม่ได้ตายตัวและอาจครอบคลุมช่วงค่าที่แคบหรือกว้าง