ครอสฟีเจอร์: ครอสเวกเตอร์ที่ได้รับความนิยม

ตอนนี้เราเน้นฟีเจอร์ข้าม 2 ฟีเจอร์ ในทางปฏิบัติ โมเดลแมชชีนเลิร์นนิงจะไม่ค่อยในแต่ละ ฟีเจอร์ต่อเนื่องกัน อย่างไรก็ตาม โมเดลของแมชชีนเลิร์นนิงมักมีเวกเตอร์ของฟีเจอร์หนึ่งที่ได้รับความนิยม ให้คิดว่าไม้กางเขนของฟีเจอร์ เวกเตอร์เวกเตอร์ที่ได้รับความนิยม ตัวอย่างเช่น สมมติว่าเรามี 2 ฟีเจอร์ ได้แก่ ประเทศและภาษา การเข้ารหัส 1 ช็อตสําหรับแต่ละรายการจะสร้างเวกเตอร์ที่มีฟีเจอร์ไบนารีที่สามารถตีความเป็น country=USA, country=France หรือ language=English, language=Spanish ได้ และหากคุณสร้างลักษณะที่มีการเข้ารหัสแบบเผด็จการเหล่านี้ คุณจะได้รับฟีเจอร์ไบนารีที่สามารถตีความว่าเป็นการรวมเชิงตรรกะ เช่น

  country:usa AND language:spanish

อย่างเช่นในอีกตัวอย่างหนึ่ง สมมติว่าคุณใช้ละติจูดและลองจิจูดเพื่อผลิต เวกเตอร์เวกเตอร์ของเอลิเมนต์แบบ 1 องค์ประกอบที่ร้อนแยกกัน เช่น ละติจูดและลองจิจูดอาจแสดงดังนี้

  binned_latitude = [0, 0, 0, 1, 0]
  binned_longitude = [0, 1, 0, 0, 0]

สมมติว่าคุณสร้างกากบาทสําหรับคุณลักษณะของเวกเตอร์ของคุณลักษณะทั้งสองนี้:

  binned_latitude X binned_longitude

ฟีเจอร์กากบาทคือเวกเตอร์ 1 องค์ประกอบ 25 องค์ประกอบที่ได้รับความนิยม (24 เลขศูนย์และ 1 เลข 1) 1 ไม้กางเขนเดี่ยวแสดงละติจูดและลองจิจูดเฉพาะกัน จากนั้น โมเดลจะสามารถเรียนรู้การเชื่อมโยงบางอย่าง เกี่ยวกับการรวมดังกล่าว

สมมติว่าเราจํากัดละติจูดและลองจิจูดให้ใกล้เคียงกันขึ้นอย่างมาก ดังนี้

binned_latitude(lat) = [
  0  < lat <= 10
  10 < lat <= 20
  20 < lat <= 30
]

binned_longitude(lon) = [
  0  < lon <= 15
  15 < lon <= 30
]

การสร้างไม้กางเขนแบบกว้างๆ สําหรับถังที่หยาบๆ เหล่านั้นจะทําให้สิ่งสังเคราะห์ มีความหมายดังนี้

binned_latitude_X_longitude(lat, lon) = [
  0  < lat <= 10 AND 0  < lon <= 15
  0  < lat <= 10 AND 15 < lon <= 30
  10 < lat <= 20 AND 0  < lon <= 15
  10 < lat <= 20 AND 15 < lon <= 30
  20 < lat <= 30 AND 0  < lon <= 15
  20 < lat <= 30 AND 15 < lon <= 30
]

สมมติว่าโมเดลของเราจําเป็นต้องคาดคะเนว่าเจ้าของสุนัขจะพึงพอใจกับสุนัข เมื่อพิจารณาจากฟีเจอร์ 2 อย่างต่อไปนี้หรือไม่

  • ประเภทพฤติกรรม (การเห่า การร้องไห้ การจับกุม ฯลฯ)
  • ช่วงเวลาของวัน

หากเราสร้างฟีเจอร์จากทั้ง 2 ฟีเจอร์ต่อไปนี้

  [behavior type X time of day]

จากนั้นเราจะมีความสามารถในการคาดการณ์มากมาย มากกว่าตัวฟีเจอร์ในตัวของมันเอง เช่น ถ้าสุนัขร้องไห้ (มีความสุข) เวลา 17:00 น. เมื่อเจ้าของกลับจากที่ทํางานก็น่าจะเป็นผู้คาดการณ์เรื่องความพอใจได้อย่างยอดเยี่ยม การร้องไห้ (อาจใช่) เวลา 3.00 น. เมื่อเจ้าของนอนหลับสนิท มีแนวโน้มที่จะเป็นการคาดการณ์เชิงลบอย่างมากต่อความพึงพอใจของเจ้าของ

ผู้เรียนเชิงเส้นจะปรับขนาดได้ดีจนมีข้อมูลจํานวนมาก การใช้ไม้กางเขนฟีเจอร์กับชุดข้อมูลขนาดใหญ่เป็นกลยุทธ์ที่มีประสิทธิภาพอย่างหนึ่งในการเรียนรู้โมเดลที่ซับซ้อนมาก เครือข่ายประสาท ใช้กลยุทธ์อื่น