การครอสฟีเจอร์สร้างขึ้นโดยการครอส (ใช้ผลคูณคาร์ทีเซียน) ฟีเจอร์เชิงหมวดหมู่หรือฟีเจอร์ที่จัดกลุ่มเป็นกลุ่มย่อยตั้งแต่ 2 รายการขึ้นไปของชุดข้อมูล เช่นเดียวกับการเปลี่ยนรูปแบบเป็นพหุนาม การครอสฟีเจอร์ช่วยให้โมเดลเชิงเส้นจัดการกับลักษณะที่ไม่ใช่เชิงเส้นได้ จุดตัดขององค์ประกอบยังเข้ารหัสการโต้ตอบระหว่างองค์ประกอบด้วย
ตัวอย่างเช่น ลองพิจารณาชุดข้อมูลระดับล่างที่มีฟีเจอร์เชิงหมวดหมู่ต่อไปนี้
edges
ซึ่งมีค่าsmooth
,toothed
และlobed
arrangement
ซึ่งมีค่าopposite
และalternate
สมมติว่าลําดับด้านบนคือลําดับของคอลัมน์ฟีเจอร์ในการนําเสนอแบบฮอตเวิร์ก เพื่อให้ใบที่มีขอบ smooth
และการจัดเรียง opposite
แสดงเป็น {(1, 0, 0), (1, 0)}
การครอสฟีเจอร์หรือผลคูณคาร์ทีเซียนของฟีเจอร์ 2 รายการนี้คือ
{Smooth_Opposite, Smooth_Alternate, Toothed_Opposite, Toothed_Alternate,
Lobed_Opposite, Lobed_Alternate}
โดยค่าของคําแต่ละคําคือผลคูณของค่าฟีเจอร์พื้นฐาน เช่น
Smooth_Opposite = edges[0] * arrangement[0]
Smooth_Alternate = edges[0] * arrangement[1]
Toothed_Opposite = edges[1] * arrangement[0]
Toothed_Alternate = edges[1] * arrangement[1]
Lobed_Opposite = edges[2] * arrangement[0]
Lobed_Alternate = edges[2] * arrangement[1]
ตัวอย่างเช่น หากใบไม้มีขอบ lobed
และการจัดเรียง alternate
เวกเตอร์การครอสฟีเจอร์จะมีค่า 1 สําหรับ Lobed_Alternate
และค่า 0 สําหรับคําอื่นๆ ทั้งหมด ดังนี้
{0, 0, 0, 0, 0, 1}
ชุดข้อมูลนี้อาจใช้เพื่อจัดประเภทใบไม้ตามสายพันธุ์ต้นไม้ได้ เนื่องจากลักษณะเหล่านี้จะไม่แตกต่างกันภายในสายพันธุ์
กรณีที่ควรใช้การครอสฟีเจอร์
ความรู้เกี่ยวกับโดเมนสามารถแนะนําชุดฟีเจอร์ที่เป็นประโยชน์ในการครอส หากไม่มีความรู้ในโดเมนดังกล่าว การระบุการครอสฟีเจอร์ที่มีประสิทธิภาพหรือการเปลี่ยนรูปแบบพหุนามด้วยตนเองอาจเป็นเรื่องยาก บ่อยครั้งที่คุณใช้เครือข่ายประสาทเทียมเพื่อค้นหาและนําการผสมผสานฟีเจอร์ที่มีประโยชน์ไปใช้โดยอัตโนมัติได้ หากการประมวลผลมีค่าใช้จ่ายสูง
โปรดระมัดระวัง การครอสฟีเจอร์ที่กระจัดกระจาย 2 รายการจะทำให้เกิดฟีเจอร์ใหม่ที่มีความกระจัดกระจายมากกว่าฟีเจอร์เดิม 2 รายการ เช่น หากฟีเจอร์ ก. เป็นฟีเจอร์แบบเบาบางที่มีองค์ประกอบ 100 รายการ และฟีเจอร์ ข. เป็นฟีเจอร์แบบเบาบางที่มีองค์ประกอบ 200 รายการ การครอสฟีเจอร์ของ ก. กับ ข. จะให้ฟีเจอร์แบบเบาบางที่มีองค์ประกอบ 20,000 รายการ