หน้านี้มีคําศัพท์ในอภิธานศัพท์เป็นกลุ่ม สําหรับอภิธานศัพท์ทั้งหมด คลิกที่นี่
A
การรวมคลัสเตอร์
C
Cenroid
ศูนย์กลางของคลัสเตอร์ที่ระบุโดยอัลกอริทึม k-means หรือ k-มัธยฐาน เช่น ถ้า k เท่ากับ 3 อัลกอริทึม k-means หรือ k-มัธยฐานจะพบ 3 centroid
คลัสเตอร์แบบเซนทรอยด์
หมวดหมู่ของอัลกอริทึมคลัสเตอร์ที่จัดระเบียบข้อมูลไปยังคลัสเตอร์แบบลําดับชั้น ส่วนk-means เป็นอัลกอริทึมคลัสเตอร์ที่ใช้เซนโตรัลที่ใช้กันอย่างแพร่หลาย
ตรงข้ามกับคลัสเตอร์แบบลําดับชั้น
คลัสเตอร์
การจัดกลุ่มตัวอย่างที่เกี่ยวข้อง โดยเฉพาะอย่างยิ่งในช่วงการเรียนรู้ที่ไม่ได้อยู่ภายใต้การควบคุมดูแล เมื่อจัดกลุ่มตัวอย่างทั้งหมดเรียบร้อยแล้ว มนุษย์จะสามารถระบุความหมายให้กับคลัสเตอร์แต่ละรายการได้
มีอัลกอริทึมการจัดกลุ่มจํานวนมาก ตัวอย่างเช่น ตัวอย่างอัลกอริทึมของ k-means จะอ้างอิงตามระยะความใกล้กับ centroid ดังเช่นในแผนภาพต่อไปนี้
จากนั้นนักวิจัยที่เป็นมนุษย์จะสามารถตรวจสอบคลัสเตอร์ และยกตัวอย่างคลัสเตอร์ที่ 1 เป็น "ต้นไม้แคระ" และคลัสเตอร์ 2 เป็น "ต้นไม้ใหญ่"
อีกตัวอย่างหนึ่งก็คือใช้อัลกอริทึมการจัดกลุ่มตามระยะห่างของตัวอย่างจากจุดศูนย์กลาง ดังที่แสดงให้เห็นดังนี้
D
คลัสเตอร์แบบกระจาย
H
การจัดกลุ่มแบบลําดับชั้น
หมวดหมู่ของอัลกอริทึมคลัสเตอร์ที่สร้างลําดับชั้น การจัดกลุ่มแบบลําดับชั้นจะเหมาะกับข้อมูลแบบลําดับชั้น เช่น การจัดหมวดหมู่พฤกษศาสตร์ อัลกอริทึมการจัดกลุ่มแบบลําดับชั้น มี 2 ประเภทดังนี้
- คลัสเตอร์รวมจะกําหนดตัวอย่างทุกรายการให้กับคลัสเตอร์ของตนเองก่อน จากนั้นจึงผสานรวมคลัสเตอร์ที่ใกล้ที่สุดซ้ําเพื่อสร้างโครงสร้างแบบลําดับชั้น
- การจัดกลุ่มแบบกระจายจะจัดกลุ่มตัวอย่างทั้งหมดเป็นคลัสเตอร์เดียว จากนั้นจะแบ่งคลัสเตอร์ออกเป็นต้นไม้แบบลําดับชั้น
ตรงข้ามกับคลัสเตอร์แบบเซนทรอยด์
K
K-Means
อัลกอริทึมคลัสเตอร์ยอดนิยมที่จัดกลุ่มตัวอย่างในการเรียนรู้ที่ไม่ได้อยู่ภายใต้การควบคุมดูแล โดยทั่วไปแล้ว อัลกอริทึม k-means จะทําสิ่งต่อไปนี้
- กําหนดจุดศูนย์กลาง k ที่ดีที่สุดซ้ําๆ (เรียกว่าเซนทรอยด์)
- กําหนดตัวอย่างแต่ละรายการให้มีค่าใกล้เคียงกับเซนทรอยด์ ตัวอย่างที่ใกล้เคียงที่สุด ที่ศูนย์เดียวกันอยู่ในกลุ่มเดียวกัน
อัลกอริทึม k-means จะเลือกตําแหน่งเซนทรอยด์เพื่อลดกําลังสองสะสมของระยะทางจากแต่ละตัวอย่างไปยังเซนทรอยด์ที่ใกล้เคียงที่สุด
ตัวอย่างเช่น ลองพิจารณาส่วนความสูงของสุนัขต่อไปนี้เป็นความกว้างของสุนัข
หากเป็น k=3 อัลกอริทึม k-means จะกําหนด centroid จํานวน 3 ตัว แต่ละตัวอย่างจะกําหนดให้กับเซนทรอยด์ที่อยู่ใกล้ที่สุด ทําให้มีสามกลุ่ม
สมมติว่าผู้ผลิตต้องการกําหนดขนาดที่เหมาะสมสําหรับสเวตเตอร์ขนาดเล็ก ขนาดกลาง และขนาดใหญ่สําหรับสุนัข เซนทรอยด์ทั้ง 3 ตัวจะระบุความสูง เฉลี่ยของความกว้างและน้ําหนักของสุนัขแต่ละตัวในกลุ่มนั้น ดังนั้น ผู้ผลิตควรให้ขนาดเสื้อสเวตเตอร์ตามเทรนด์ 3 เซนติเมตร โปรดทราบว่าโดยปกติแล้ว Centroid ของคลัสเตอร์จะไม่ใช่ตัวอย่างในคลัสเตอร์
ภาพประกอบก่อนหน้านี้แสดง k-mean สําหรับตัวอย่างที่มีเพียง 2 ฟีเจอร์ (ความสูงและความกว้าง) โปรดทราบว่า k-means สามารถจัดกลุ่มตัวอย่าง ในคุณลักษณะมากมาย
ค่ามัธยฐาน k
อัลกอริทึมการจัดกลุ่มที่เกี่ยวข้องกับ k-means อย่างมาก ความแตกต่างในทางปฏิบัติระหว่าง 2 สิ่งนี้มีดังต่อไปนี้
- ใน k-mean เซนทรอยด์จะกําหนดได้ด้วยการย่อผลรวมของกําลังสองของระยะทางระหว่างผู้สมัครศูนย์เซนติเมตรกับตัวอย่างแต่ละรายการ
- ในค่ามัธยฐาน k นั้น เซนโตรรอยด์จะกําหนดโดยการลดผลรวมระยะทางระหว่างตัวเลือกเซนทรอยด์และแต่ละตัวอย่าง
โปรดทราบว่าคําจํากัดความของระยะทางอาจแตกต่างกันด้วย:
- k-means อาศัยระยะทางเอกวาดอร์จากเซนทรอยด์ไปเป็นตัวอย่าง (แบบ 2 มิติ ระยะทางแบบยูคลิดหมายถึงการใช้ทฤษฎีบทพีทาโกรัสในการคํานวณด้านตรงข้ามมุมฉาก) เช่น ระยะ k-means ระหว่าง (2,2) ถึง (5,-2) คือ
- ค่ามัธยฐานของ K อาศัย ระยะทางแมนฮัตตันจากเซนทรอยด์ไปเป็นตัวอย่าง ระยะทางนี้คือผลรวมของเดลต้าสัมบูรณ์ในแต่ละมิติข้อมูล ตัวอย่างเช่น ค่ากลางของค่า k ระหว่าง (2,2) ถึง (5,-2) จะเป็นดังนี้
S
ความคล้ายคลึงกัน
ในอัลกอริทึมคลัสเตอร์ เมตริกที่ใช้ระบุความคล้ายคลึงกัน (ความคล้ายคลึงกัน) ของตัวอย่าง 2 รายการ
การสเก็ตช์ภาพ
ในแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล ซึ่งเป็นหมวดหมู่ของอัลกอริทึมที่ทําการวิเคราะห์ความคล้ายคลึงกันเบื้องต้นเบื้องต้นบนตัวอย่าง อัลกอริทึมการร่างจะใช้ ฟังก์ชันแฮชที่คํานึงถึงตําแหน่งเพื่อระบุจุดที่น่าจะคล้ายกัน จากนั้นจึงจัดกลุ่มไว้ในที่เก็บข้อมูล
การสเก็ตช์จะลดการคํานวณที่จําเป็นสําหรับการคํานวณความคล้ายคลึงกันในชุดข้อมูลขนาดใหญ่ แทนที่จะคํานวณความคล้ายคลึงกันสําหรับคู่ตัวอย่างเดี่ยวทั้งหมดในชุดข้อมูล เราจะคํานวณความคล้ายคลึงกันเฉพาะสําหรับแต่ละคู่ของจุดภายในที่เก็บข้อมูลแต่ละชุดเท่านั้น
T
การวิเคราะห์อนุกรมเวลา
ช่องย่อยของแมชชีนเลิร์นนิงและสถิติที่วิเคราะห์ข้อมูลชั่วคราว ปัญหาหลายประเภทเกี่ยวกับแมชชีนเลิร์นนิงต้องใช้การวิเคราะห์อนุกรมเวลา รวมถึงการแยกประเภท การจัดกลุ่ม การคาดการณ์ และการตรวจจับความผิดปกติ เช่น ใช้การวิเคราะห์อนุกรมเวลาเพื่อคาดการณ์ยอดขายเสื้อโค้ทฤดูหนาวในอนาคตตามเดือนตามข้อมูลการขายที่ผ่านมา
U
แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล
การฝึกโมเดลเพื่อค้นหารูปแบบในชุดข้อมูล ซึ่งโดยปกติจะเป็นชุดข้อมูลที่ไม่มีป้ายกํากับ
การใช้แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลที่พบบ่อยที่สุดคือการจัดกลุ่มข้อมูลลงในกลุ่มตัวอย่างที่คล้ายกัน เช่น อัลกอริทึมแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลจะจัดกลุ่มเพลงตามพร็อพเพอร์ตี้ที่หลากหลายของเพลงได้ คลัสเตอร์ที่ได้อาจกลายเป็นอินพุตของอัลกอริทึม แมชชีนเลิร์นนิงอื่นๆ (เช่น บริการแนะนําเพลง) การคลัสเตอร์มีประโยชน์เมื่อไม่มีป้ายกํากับที่มีประโยชน์หรือขาดแคลน ตัวอย่างเช่น ในโดเมนอย่างเช่น การป้องกันการละเมิดและการประพฤติมิชอบ คลัสเตอร์จะช่วยให้ผู้คนเข้าใจข้อมูลได้ดีขึ้น
ขัดแย้งกับแมชชีนเลิร์นนิงที่มีการควบคุมดูแล