การแสดง

โมเดลแมชชีนเลิร์นนิงจะดู ได้ยิน หรือรับรู้ตัวอย่างการป้อนข้อมูลโดยตรงไม่ได้ แต่จะต้องสร้างการนำเสนอข้อมูลเพื่อให้โมเดลมีมุมมองที่เป็นประโยชน์เกี่ยวกับคุณภาพที่สำคัญของข้อมูล กล่าวคือ คุณต้องเลือกชุดฟีเจอร์ที่แสดงข้อมูลได้ดีที่สุดเพื่อฝึกโมเดล

การแสดง

ความคิดคือการจับคู่แต่ละส่วนของเวกเตอร์ทางด้านซ้ายเป็นฟิลด์หนึ่งหรือหลายฟิลด์ลงในเวกเตอร์ของจุดสนใจทางด้านขวา

ข้อมูลดิบจะได้รับการแมปกับเวกเตอร์ของจุดสนใจผ่านกระบวนการที่เรียกว่าวิศวกรรมฟีเจอร์
ตัวอย่างของฟีเจอร์ที่คัดลอกได้โดยตรงจากข้อมูลดิบ
ตัวอย่างของฟีเจอร์สตริง (ชื่อถนน) ที่คัดลอกจากข้อมูลดิบโดยตรงไม่ได้
การจับคู่ค่าสตริง (
  • พจนานุกรมจะจับคู่ชื่อถนนแต่ละชื่อกับ int ใน {0, ...,V-1}
  • แสดงเวกเตอร์หนึ่งที่นิยมด้านบนเป็น <i>

ค่าฟีเจอร์ควรปรากฏด้วยค่าที่ไม่ใช่ 0 เป็นจำนวนน้อยครั้งมากในชุดข้อมูล

my_device_id:8SK982ZZ1242Z

device_model:galaxy_s6

สถานที่ควรมีความหมายที่ชัดเจน

user_age:23

user_age:123456789

ฟีเจอร์ต่างๆ ไม่ควรต้องใช้กับค่า "เวทมนตร์"

(ใช้ฟีเจอร์บูลีนเพิ่มเติม เช่น watch_time_is_define แทน)

watch_time: -1.0

watch_time: 1.023

watch_time_is_defined: 1.0

คำจำกัดความของฟีเจอร์ไม่ควรเปลี่ยนแปลงเมื่อเวลาผ่านไป

(โปรดระวังการใช้ระบบ ML อื่นด้วย)

city_id:"br/sao_paulo"

inferred_city_cluster_id:219

การกระจายไม่ควรมีค่าผิดปกติมากเกินไป

โดยหลักการแล้ว เนื้อหาทั้งหมดจะเปลี่ยนรูปแบบให้อยู่ในช่วงที่คล้ายกัน เช่น (-1, 1) หรือ (0, 5)

การกระจายที่มีค่าผิดปกติและการแจกแจงที่มีขีดจำกัด
กราฟแสดงการแจกแจงด้วยเส้นโค้งที่พอดีโดยอิงตามสถานที่ตั้ง
กราฟแสดงการแจกแจงด้วยเส้นโค้งที่พอดีโดยอิงตามสถานที่ตั้ง
  • สร้างถังบูลีนหลายๆ ถัง โดยแต่ละถังจับคู่กับฟีเจอร์ใหม่ที่ไม่ซ้ำกัน
  • อนุญาตให้โมเดลใส่ค่าที่แตกต่างกันสำหรับ Bin แต่ละขนาด

รู้ข้อมูลของคุณ

  • แสดงภาพ: วาดฮิสโตแกรมโดยจัดอันดับจากมากที่สุดไปน้อยที่สุด
  • แก้ไขข้อบกพร่อง: มีตัวอย่างที่ซ้ำกันไหม ไม่พบค่าใช่ไหม ค่าผิดปกติหรือไม่ ข้อมูลเห็นด้วยกับหน้าแดชบอร์ดไหม ข้อมูลการฝึกอบรมและการตรวจสอบคล้ายกันไหม
  • ตรวจสอบ: ควอนไทล์ของฟีเจอร์ จำนวนตัวอย่างเมื่อเวลาผ่านไป