ภาพรวมของการสร้างผู้สมัคร

การสร้างผู้สมัครเป็นขั้นตอนแรกของคําแนะนํา จากข้อความค้นหา ระบบจะสร้างชุดของผู้สมัครที่เกี่ยวข้อง ตารางต่อไปนี้แสดงแนวทางทั่วไปสําหรับผู้สมัคร 2 แบบ

ประเภทคำจำกัดความตัวอย่าง
การกรองเนื้อหา ใช้ความคล้ายคลึงกันระหว่างรายการเพื่อแนะนํารายการที่คล้ายกับสิ่งที่ผู้ใช้ชอบ หากผู้ใช้ A ดูวิดีโอแมวน่ารักๆ 2 ตัว ระบบจะแนะนําวิดีโอสัตว์น่ารักๆ แก่ผู้ใช้กลุ่มนั้น
การกรองการทํางานร่วมกัน ใช้ความคล้ายคลึงกันระหว่างคําค้นหาและรายการพร้อมกันเพื่อให้คําแนะนํา หากผู้ใช้ A คล้ายกับผู้ใช้ B และผู้ใช้ B ชอบวิดีโอ 1 ระบบจะแนะนําวิดีโอ 1 แก่ผู้ใช้ A (แม้ว่าผู้ใช้ A จะไม่พบวิดีโอที่คล้ายกับวิดีโอ 1)

การฝังพื้นที่ทํางาน

ทั้งการกรองตามเนื้อหาและการทํางานร่วมกันจะแมปแต่ละรายการและคําค้นหาแต่ละรายการ (หรือบริบท) กับเวกเตอร์การฝังในพื้นที่การฝังทั่วไป \(E = \mathbb R^d\)โดยปกติแล้ว พื้นที่แบบฝังมีมิติข้อมูลต่ํา (กล่าวคือ \(d\) มีขนาดเล็กกว่าคลังข้อมูล) และจะบันทึกโครงสร้างที่ช้าบางอย่างของรายการหรือชุดคําค้นหา ส่วนรายการที่คล้ายกัน เช่น วิดีโอ YouTube ที่มักจะได้รับการดูโดยผู้ใช้คนเดียวกันมักจะอยู่ด้วยกันในพื้นที่แบบฝัง แนวคิดของ "ปิดและความสนิทสนม{0}กําหนดโดยความคล้ายคลึงกัน

มาตรวัดความคล้ายคลึง

การวัดความคล้ายคลึงคือฟังก์ชัน \(s : E \times E \to \mathbb R\) ที่ใช้การฝัง 2 คู่ซ้อนกันและส่งสเกลวัดค่าความคล้ายคลึงกัน การฝังสามารถใช้สําหรับการสร้างตัวเลือกต่อไปนี้ได้: ด้วยการฝังคําค้นหา \(q \in E\)ระบบจะค้นหาการฝังรายการ \(x \in E\) ที่อยู่ใกล้กับ \(q\)ซึ่งก็คือการฝังที่มีความคล้ายกันสูง \(s(q, x)\)

ในการระบุระดับความคล้ายคลึงกัน ระบบการแนะนําส่วนใหญ่จะอ้างอิงปัจจัยต่อไปนี้อย่างน้อย 1 ข้อ

  • โคไซน์
  • ผลิตภัณฑ์จุด
  • ระยะทางแบบยุโรป

โคไซน์

นี่เป็นเพียงโคไซน์ของมุมระหว่างเวกเตอร์ 2 ตัว \(s(q, x) = \cos(q, x)\)

ผลิตภัณฑ์จุด

ผลคูณของเวกเตอร์ 2 เวกเตอร์คือ\(s(q, x) = \langle q, x \rangle = \sum_{i = 1}^d q_i x_i\) และยังได้จาก \(s(q, x) = \|x\| \|q\| \cos(q, x)\) (โคไซน์ของมุมคูณด้วยผลของบรรทัดฐาน) ดังนั้น หากการฝังเป็นปกติ ให้จุดผลิตภัณฑ์กับโคไซน์เกิดขึ้นพร้อมกัน

ระยะทางแบบยุโรป

นี่คือระยะทางปกติใน พื้นที่แบบยูคลิเชียน \(s(q, x) = \|q - x\| = \left[ \sum_{i = 1}^d (q_i - x_i)^2\right]^{\frac{1}{2}}\) ระยะทางที่เล็กลงหมายถึงความคล้ายคลึงกันที่สูงขึ้น โปรดทราบว่าเมื่อการฝังมีค่าเป็นมาตรฐาน ระยะทางแบบยูเคเดียนยกกําลัง 2 จะสอดคล้องกับจุดผลิตภัณฑ์ (และโคไซน์) จนถึงค่าคงที่ เนื่องจากในกรณีนี้ \(\frac{1}{2}\|q - x\|^2 = 1 - \langle q, x \rangle\)

รูปภาพแสดงพื้นที่แบบฝัง 2 มิติซึ่งมีการฝังคําค้นหาและรายการตัวเลือก 3 รายการ

การเปรียบเทียบมาตรวัดความคล้ายคลึง

ดูตัวอย่างในภาพทางขวา เวกเตอร์สีดําจะแสดง การฝังข้อความค้นหา เวกเตอร์แบบฝังอีก 3 รายการ (รายการ A, รายการ B, รายการ C) แสดงถึงไฟล์ตัวเลือก การจัดอันดับสินค้าอาจแตกต่างกันไป โดยขึ้นอยู่กับการวัดความคล้ายคลึงกันที่ใช้

ระหว่างการใช้รูปภาพ พยายามกําหนดการจัดอันดับรายการโดยใช้มาตรการที่คล้ายกันทั้ง 3 ค่า ได้แก่ โคไซน์ ผลิตภัณฑ์จุด และระยะทางแบบยูคลิเชียน

ความใกล้เคียงใดที่ควรเลือก

เมื่อเปรียบเทียบกับโคไซน์ ความคล้ายคลึงกันของผลิตภัณฑ์จุดจะคํานึงถึงบรรทัดฐานของการฝังตัว กล่าวคือ ยิ่งบรรทัดฐานของการฝังมีขนาดใหญ่มากเท่าไหร่ ก็ยิ่งมีความคล้ายคลึงกันสูง (สําหรับสินค้าที่มีมุมฉาก) มากขึ้นเท่านั้น และมีแนวโน้มมากขึ้นที่จะได้รับการแนะนํารายการนั้นด้วย ซึ่งส่งผลต่อวิดีโอแนะนําดังนี้

  • รายการที่ปรากฏบ่อยๆ ในชุดการฝึก (เช่น วิดีโอ YouTube ที่ได้รับความนิยม) มักจะมีการฝังที่มีบรรทัดฐานขนาดใหญ่ หากต้องการให้ข้อมูลความนิยมเป็นที่ต้องการ คุณควรเลือกใช้ผลิตภัณฑ์ที่เป็นจุด แต่หากคุณไม่ระมัดระวัง รายการยอดนิยม อาจกลายเป็นวิดีโอแนะนํา ในทางปฏิบัติ คุณสามารถใช้ตัวแปรของความคล้ายคลึงอื่นๆ ที่ให้ความสําคัญกับบรรทัดฐานของสินค้าน้อยกว่า เช่น กําหนด\(s(q, x) = \|q\|^\alpha \|x\|^\alpha \cos(q, x)\) สําหรับบางคน \(\alpha \in (0, 1)\)

  • รายการที่ปรากฏน้อยครั้งอาจจะไม่อัปเดตบ่อยๆ ในระหว่างการฝึก ดังนั้น หากกฎเกณฑ์เริ่มต้นด้วยบรรทัดฐานขนาดใหญ่ ระบบอาจแนะนําสินค้าที่หายากก่อนรายการที่เกี่ยวข้องมากขึ้น เพื่อหลีกเลี่ยงปัญหานี้ โปรดระมัดระวังในการฝังการเริ่มต้นและใช้การปรับให้เหมาะสมที่เหมาะสม เราจะอธิบายรายละเอียดของปัญหานี้ในแบบฝึกหัดแรก