ที่เก็บข้อมูล

มาเริ่มกันด้วยรีวิวสั้นๆ เกี่ยวกับแนวคิดสําคัญจากหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิง ดูการกระจายในแผนภูมิด้านล่าง

แผนผังบ้านต่อละติจูด พล็อตนี้ค่อนข้างไม่สม่ําเสมอโดยมีวงกบรอบละติจูด 36 และเส้นกราฟที่พุ่งสูงขึ้นรอบละติจูด 34 และ 38 รูปที่ 1: ราคาบ้านเทียบกับละติจูด

 

สําหรับคําถามต่อไปนี้ ให้คลิกลูกศรที่ต้องการเพื่อตรวจคําตอบ

รูปที่ 1 หากคิดว่าละติจูดอาจเป็นตัวคาดการณ์ที่ดีของมูลค่าที่พักอาศัย คุณควรปล่อยให้ละติจูดเป็นค่าทศนิยมหรือไม่ เหตุใดจึงเป็นเช่นนั้น (สมมติว่านี่คือรูปแบบเชิงเส้น)
ได้ - หากละติจูดเป็นค่าทศนิยมในชุดข้อมูล คุณก็ไม่ควรเปลี่ยนแปลงค่าดังกล่าว
หากคุณใส่ค่าจุดลอยตัวดังกล่าวลงในเครือข่าย ระบบจะพยายามเรียนรู้ความสัมพันธ์เชิงเส้นระหว่างฟีเจอร์กับป้ายกํากับ แต่ความสัมพันธ์เชิงเส้นไม่เหมาะสําหรับละติจูด ละติจูดที่เพิ่มขึ้น 1 องศา (เช่น จาก 34 ถึง 35 องศา) อาจมีการเปลี่ยนแปลงบางอย่างในเอาต์พุตของโมเดล ในขณะที่การเพิ่มขึ้นระดับ 1 องศาอาจแตกต่างออกไป (เช่น จาก 35 ถึง 36 องศา) อาจมีการเปลี่ยนแปลงในระดับที่แตกต่างกัน นั่นไม่ใช่ลักษณะการทํางานแบบเชิงเส้น
ไม่ ไม่มีความสัมพันธ์เชิงเส้นระหว่างละติจูดกับค่าที่อยู่อาศัย
คุณสงสัยว่าค่าละติจูดและค่าที่อยู่อาศัยแต่ละค่ามีความเกี่ยวข้องกัน แต่ความสัมพันธ์ไม่ใช่เชิงเส้น

ในกรณีอย่างเช่นตัวอย่างละติจูด คุณต้องแบ่งละติจูดเป็นที่เก็บข้อมูลต่างๆ เพื่อดูข้อมูลที่แตกต่างกันไปเกี่ยวกับค่าที่อยู่อาศัยของแต่ละที่เก็บข้อมูล การเปลี่ยนฟีเจอร์ตัวเลขให้เป็นฟีเจอร์ตามหมวดหมู่โดยใช้ชุดเกณฑ์ที่เรียกว่าที่เก็บข้อมูล (หรือการเชื่อมโยง) ในตัวอย่างที่เก็บข้อมูลนี้ ขอบเขตจะเท่ากัน

เส้นรุ้งของละติจูดที่เทียบได้กับที่พักอาศัยเป็นรูปก่อนหน้า อย่างไรก็ตาม เวลานี้พล็อตกราฟแบ่งออกเป็น 11 "bins" ระหว่างละติจูดทั้งหมด

 

รูปที่ 2: ราคาบ้านเทียบกับละติจูด ตอนนี้แบ่งเป็นที่เก็บข้อมูลแล้ว

การสะสมควอร์ไทล์

มาดูชุดข้อมูลราคารถยนต์ของเราพร้อมที่เพิ่มที่เก็บข้อมูลกันบ้าง ด้วยฟีเจอร์ 1 รายการต่อที่เก็บข้อมูล โมเดลจะใช้ความจุสูงสุดสําหรับตัวอย่างเดียวในช่วง >45000 เช่นเดียวกับตัวอย่างทั้งหมดในช่วง 5000-10000 งานนี้ดูแล้วไม่มีประโยชน์เลย เราจะปรับปรุงสถานการณ์นี้ได้อย่างไร

โครงข่ายราคารถต่อจํานวนรถยนต์ที่ขายในราคานั้น เส้นแบ่งถูกแบ่งลงใน
ที่เก็บข้อมูล 10 ขนาดที่เท่ากันซึ่งมีช่วง 5,000 ช่วง (ราคารถ) ที่เก็บข้อมูล 3 รายการแรกมีตัวอย่างหลายรายการ แต่ที่เก็บข้อมูล 7 รายการสุดท้ายจะมีตัวอย่างน้อยมาก

รูปที่ 3: จํานวนรถยนต์ที่จําหน่ายในราคาที่ต่างกัน

 

แต่ปัญหาก็คือ ที่เก็บข้อมูลที่เว้นระยะห่างเท่าๆ กันไม่กระจายอย่างนี้ โซลูชันอยู่ในการสร้างที่เก็บข้อมูลที่แต่ละรายการมีจํานวนจุดเท่ากัน เทคนิคนี้เรียกว่าที่เก็บข้อมูลแบบควอนไทล์ เช่น รูปภาพต่อไปนี้แบ่งราคารถออกเป็นที่เก็บข้อมูลแต่ละส่วน หากต้องการได้ตัวอย่างจํานวนเดียวกันในที่เก็บข้อมูลแต่ละชุด ที่เก็บข้อมูลบางชุดจะครอบคลุมระยะเวลาที่จํากัด ในขณะที่อีกรายการครอบคลุมระยะเวลาที่มีราคากว้างมาก

เหมือนกับรูปที่ 3 ยกเว้นที่เก็บข้อมูลแบบควอนไทล์ กล่าวคือ ที่เก็บข้อมูลจะมีขนาดต่างๆ กัน ที่เก็บข้อมูลขนาดเล็กที่สุดมีช่วงประมาณ 1,000 ดอลลาร์ และที่เก็บข้อมูลที่ใหญ่ที่สุดมีช่วงประมาณ 25,000 ดอลลาร์
ปัจจุบัน จํานวนรถยนต์ในที่เก็บข้อมูลแต่ละชุด
ใกล้เคียงกัน

รูปที่ 4: ที่เก็บข้อมูลควอร์ไทล์ช่วยให้รถยนต์แต่ละคันมีจํานวนประมาณเท่าๆ กัน

สรุปที่เก็บข้อมูล

หากเลือกที่จะฝากฟีเจอร์ตัวเลขไว้ในตัวเลขเดิม ให้คํานึงถึงวิธีกําหนดขอบเขตและประเภทของการใช้พื้นที่เก็บข้อมูลที่ชัดเจน

  • ที่เก็บข้อมูลที่มีระยะห่างเท่ากัน: ขอบเขตจะคงที่และอยู่ในช่วงเดียวกัน (เช่น 0-4 องศา 5-9 องศา และ 10-14 องศา หรือ $5,000-$9,999, $10,000-$14,999 และ $15,000-$19,999) ที่เก็บข้อมูลบางรายการอาจมีหลายจุด ในขณะที่ที่เก็บข้อมูลอื่นๆ อาจไม่มีเลย
  • ที่เก็บข้อมูลที่มีขอบเขตควอนไทล์: ที่เก็บข้อมูลแต่ละรายการมีจํานวนจุดเท่ากัน ค่าคงที่ไม่ได้ตายตัวและอาจครอบคลุมช่วงค่าที่แคบหรือกว้าง