ข้อมูลการสุ่มตัวอย่างและการแยก

ข้อมูลเบื้องต้นเกี่ยวกับการสุ่มตัวอย่าง

การพยายามรวบรวมข้อมูลที่เพียงพอสําหรับโครงการแมชชีนเลิร์นนิงมักทําได้ยาก อย่างไรก็ตาม บางครั้งมีข้อมูลมากเกินไป และคุณต้องเลือกตัวอย่างบางส่วนสําหรับการฝึกอบรม

คุณจะเลือกชุดย่อยนี้อย่างไร ลองดูตัวอย่างใน Google Search คุณจะแสดงตัวอย่างข้อมูลปริมาณมหาศาล ที่ระดับใด คุณจะใช้คําค้นหาแบบสุ่มไหม สุ่มเซสชันใช่ไหม สุ่มผู้ใช้ใช่ไหม

ท้ายที่สุด คําตอบที่ได้จะขึ้นอยู่กับปัญหา ได้แก่ เราอยากคาดการณ์อะไรและเราต้องการฟีเจอร์ไหน

  • หากต้องการใช้ฟีเจอร์คําค้นหาก่อนหน้า คุณต้องสุ่มตัวอย่างที่ระดับเซสชัน เนื่องจากเซสชันมีลําดับของคําค้นหา
  • หากต้องการใช้ฟีเจอร์พฤติกรรมของผู้ใช้จากวันก่อนหน้า คุณต้องสุ่มตัวอย่างที่ระดับผู้ใช้

การกรองหา PII (ข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้)

หากข้อมูลมี PII (ข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้) คุณอาจต้องกรองข้อมูลออกจากข้อมูลของคุณ เช่น นโยบายอาจกําหนดให้คุณต้องนําฟีเจอร์ที่พบไม่บ่อยนักออก เป็นต้น

การกรองนี้บิดเบือนการกระจายของคุณ คุณจะสูญเสียข้อมูลเฉพาะส่วน (ส่วนของการกระจายที่มีค่าต่ํามาก ไกลจากค่าเฉลี่ย)

การกรองนี้เป็นประโยชน์เนื่องจากฟีเจอร์ที่ใช้ไม่บ่อยจะเรียนรู้ได้ยาก แต่คุณควรตระหนักว่าชุดข้อมูลมีอคติต่อการค้นหาส่วนหัว ขณะแสดงโฆษณา คุณสามารถแสดงตัวอย่างการแสดงวิดีโอต่อจากนั้นแย่ลง เนื่องจากตัวอย่างเหล่านี้เป็นข้อมูลที่ถูกกรองออกจากข้อมูลการฝึกของคุณ แม้ว่าค่าเบี่ยงเบนนี้จะหลีกเลี่ยงไม่ได้ แต่โปรดคํานึงถึงความแตกต่างระหว่างการวิเคราะห์