การปรับให้เป็นมาตรฐาน

เป้าหมายของการปรับให้เป็นมาตรฐานคือการเปลี่ยนฟีเจอร์ต่างๆ ให้อยู่ในระดับที่คล้ายกัน การดําเนินการนี้จะช่วยปรับปรุงประสิทธิภาพและความเสถียรของการฝึกโมเดล

เทคนิคการปรับข้อมูลโดยย่อ

เทคนิคการปรับให้สอดคล้องตามมาตรฐาน 4 ข้ออาจมีประโยชน์ ดังนี้

  • การปรับขนาดเป็นช่วง
  • การตัดเก็บ
  • การปรับขนาดบันทึก
  • ค่ามาตรฐาน

แผนภูมิต่อไปนี้แสดงเทคนิคของเทคนิคการปรับให้สอดคล้องตามมาตรฐานแต่ละแบบต่อ การเผยแพร่ฟีเจอร์ดิบ (ราคา) ทางด้านซ้าย แผนภูมินี้อิงจากชุดข้อมูลของ Automotive Yearbook ของ Ward' ในปี 1985 ซึ่งเป็นส่วนหนึ่งของที่เก็บข้อมูลแมชชีนเลิร์นนิงของ UCI ภายใต้ชุดข้อมูล รถยนต์

ห้ากราฟ: 1. การกระจายข้อมูล RAW 2. การกระจายแบบ Raw ที่ปรับขนาดเป็นช่วง
ซึ่งมีรูปร่างเหมือนกับการกระจายดิบ 3. การกระจายแบบ Raw ที่ตัดออก ซึ่งจะลบค่าสูงสุด 4. การกระจายดิบที่ปรับขนาดตามลอการิทึม ซึ่งจะจัดกลุ่มข้อมูลที่อยู่ตรงกลางของการกระจาย 5. z คะแนนของการกระจาย ซึ่งมีรูปร่างคล้ายกับการกระจายดิบ

รูปที่ 1 สรุปเทคนิคของการปรับให้สอดคล้องตามมาตรฐาน

การปรับขนาดเป็นช่วง

การเรียกคืนจาก MLCC ที่การปรับขนาด หมายถึงการแปลงค่าฟีเจอร์จุดลอยตัวจากช่วงตามปกติ (เช่น 100 ถึง 900) เป็นช่วงมาตรฐาน ซึ่งโดยทั่วไปจะเป็น 0 และ 1 (หรือบางครั้ง -1 ถึง +1) ใช้สูตรง่ายๆ ต่อไปนี้เพื่อปรับขนาดเป็นช่วง

\[ x' = (x - x_{min}) / (x_{max} - x_{min}) \]

การปรับขนาดเป็นช่วงจะเป็นทางเลือกที่ดีเมื่อเป็นไปตามเงื่อนไขทั้ง 2 ข้อต่อไปนี้

  • คุณรู้ขอบเขตบนและล่างของข้อมูลแบบคร่าวๆ หรือไม่มีค่าผิดปกติเลย
  • ข้อมูลจะเผยแพร่อย่างสม่ําเสมอทั่วทั้งช่วงดังกล่าว

ตัวอย่างที่ดีคืออายุ ค่าอายุส่วนใหญ่อยู่ในช่วง 0 ถึง 90 และทุกช่วงของช่วงมีผู้ใช้เป็นจํานวนมาก

ในทางตรงกันข้าม คุณจะไม่ใช้การปรับขนาดรายได้ เนื่องจากมีเพียงไม่กี่คนที่มีรายได้สูงมาก ขอบเขตระดับบนของรายได้เชิงเส้นจะสูงมาก และผู้คนส่วนใหญ่จะถูกหักเป็นส่วนเล็กๆ ในสเกล

การตัดคลิปฟีเจอร์

หากชุดข้อมูลของคุณมีค่าที่ผิดปกติอย่างมาก ให้ลองตัดคลิปของฟีเจอร์ ซึ่งจะจํากัดค่าของฟีเจอร์ทั้งหมดที่ด้านบน (หรือด้านล่าง) ของค่าที่ต้องการไว้ในค่าคงที่ เช่น คุณอาจตัดค่าอุณหภูมิทั้งหมด เกิน 40 ให้เท่ากับ 40

คุณอาจใช้การตัดฟีเจอร์ก่อนหรือหลังจากการทํามาตรฐานอื่นๆ

สูตร: ตั้งค่าขั้นต่ํา/สูงสุดเพื่อหลีกเลี่ยงค่าที่ผิดปกติ

การเปรียบเทียบการกระจายเนทีฟและขีดจํากัดสูงสุด ในการกระจายแบบเนทีฟ ค่าเกือบทั้งหมดอยู่ในช่วง 1 ถึง 4 แต่มีค่าเพียงไม่กี่เปอร์เซ็นต์ที่อยู่ระหว่าง 5 ถึง 55 ในการกระจายที่มีการกําหนด
ค่าทั้งหมดที่ก่อนหน้านี้สูงกว่า 4 จะมีค่าเป็น 4

รูปที่ 2 การเปรียบเทียบการเผยแพร่ไฟล์ RAW กับเวอร์ชันที่ถูกตัดออก

กลยุทธ์การตัดธรรมดาอีกอย่างคือคลิปตามหลักการ Z ด้วยคะแนน +-Nī (เช่น จํากัดให้อยู่ที่ +-3ī) โปรดทราบว่า ī คือค่าเบี่ยงเบนมาตรฐาน

การปรับขนาดบันทึก

การปรับขนาดบันทึกจะคํานวณบันทึกของค่าเพื่อบีบอัดช่วงแบบกว้างให้เป็นช่วงแคบ

\[ x' = log(x) \]

การปรับขนาดบันทึกจะมีประโยชน์เมื่อค่าจํานวนหนึ่งมีหลายจุด ในขณะที่ค่าอื่นๆ ส่วนใหญ่มีจุดน้อย การกระจายข้อมูลนี้เรียกว่าการกระจายพลังงาน การให้คะแนนภาพยนตร์เป็นตัวอย่างที่ดี ในแผนภูมิด้านล่าง ภาพยนตร์ส่วนใหญ่มีการจัดระดับน้อยมาก (ข้อมูลในการค้นหา) ขณะที่บางเรื่องมีการจัดระดับจํานวนมาก (ข้อมูลในหัว) การปรับขนาดบันทึกจะเปลี่ยนแปลงการกระจาย ซึ่งช่วยปรับปรุงประสิทธิภาพของโมเดลเชิงเส้น

กราฟ 2 รายการที่เปรียบเทียบข้อมูลดิบกับบันทึกของข้อมูลดิบ กราฟข้อมูลดิบจะแสดงการให้คะแนนจํานวนมากในส่วนหัว ตามด้วยหางยาว กราฟบันทึกนี้มีการกระจายที่สม่ําเสมอยิ่งขึ้น

รูปที่ 3 เปรียบเทียบการเผยแพร่ไฟล์ดิบกับบันทึก

แกน Z

Z-score เป็นการปรับสเกลที่แสดงถึงจํานวนความคลาดเคลื่อนมาตรฐานจากค่าเฉลี่ย คุณจะใช้ค่า z คะแนนเพื่อให้แน่ใจว่าการกระจาย ฟีเจอร์ของคุณมีค่าเฉลี่ย = 0 และ std = 1 ซึ่งมีประโยชน์เมื่อค่าผิดปกติ 2-3 รายการ แต่ไม่มากเกินไปจนคุณต้องตัดคลิป

สูตรการคํานวณค่าคะแนน z ของจุด x มีดังนี้

\[ x' = (x - μ) / σ \]

กราฟ 2 รายการที่เปรียบเทียบข้อมูลดิบกับข้อมูลที่ปรับให้เป็นมาตรฐานด้วยค่ามาตรฐาน ข้อมูลดิบจะแสดงการกระจายตัวของ Poisson แบบคร่าวๆ ตั้งแต่ 5,000 ถึง 45,000 ตัว
ช่วงข้อมูลมาตรฐานอยู่ในช่วงตั้งแต่ -1 ถึง +4

รูปที่ 4 เปรียบเทียบการแจกแจงแบบดิบกับการกระจายแบบ Z-score

โปรดสังเกตว่าค่ามาตรฐานจะบีบค่าดิบที่มีช่วงประมาณ 40,000 ไปจนถึงช่วงตั้งแต่ประมาณ -1 ถึง +4

สมมติว่าคุณไม่แน่ใจเกี่ยวกับค่าที่ผิดปกติสุดโต่ง ในกรณีนี้ ให้เริ่มต้นด้วยคะแนน z เว้นแต่คุณจะมีค่าของฟีเจอร์ที่คุณไม่ต้องการ และไม่ต้องการให้โมเดลเรียนรู้ เช่น ค่านั้นเป็นผลมาจากข้อผิดพลาดในการวัดหรือการทํางานที่ผิดปกติ

สรุป

เทคนิคการปรับให้สอดคล้องตามมาตรฐานสูตรกรณีที่ควรใช้
การปรับขนาดเชิงเส้น $$ x' = (x - x_{min}) / (x_{max} - x_{min}) $$ เมื่อฟีเจอร์เผยแพร่อย่างสม่ําเสมอมากขึ้นหรือน้อยลงในช่วงที่กําหนด
เสียงขาดๆ หายๆ if x > max, x' = max. if x < min ตามด้วย x' = นาที เมื่อฟีเจอร์มีข้อมูลที่ผิดปกติสุดโต่ง
การปรับขนาดบันทึก x' = บันทึก(x) เมื่อฟีเจอร์นี้เป็นไปตามกฎหมายพลังงาน
x' = (x - μ) / ̈ เมื่อการกระจายฟีเจอร์ไม่มีค่าที่ผิดปกติอย่างมาก