อภิธานศัพท์เกี่ยวกับแมชชีนเลิร์นนิง: การจัดกลุ่ม

หน้านี้มีคําศัพท์ในอภิธานศัพท์เป็นกลุ่ม สําหรับอภิธานศัพท์ทั้งหมด คลิกที่นี่

การรวมคลัสเตอร์

#clustering

ดูการจัดกลุ่มแบบลําดับชั้น

Cenroid

#clustering

ศูนย์กลางของคลัสเตอร์ที่ระบุโดยอัลกอริทึม k-means หรือ k-มัธยฐาน เช่น ถ้า k เท่ากับ 3 อัลกอริทึม k-means หรือ k-มัธยฐานจะพบ 3 centroid

คลัสเตอร์แบบเซนทรอยด์

#clustering

หมวดหมู่ของอัลกอริทึมคลัสเตอร์ที่จัดระเบียบข้อมูลไปยังคลัสเตอร์แบบลําดับชั้น ส่วนk-means เป็นอัลกอริทึมคลัสเตอร์ที่ใช้เซนโตรัลที่ใช้กันอย่างแพร่หลาย

ตรงข้ามกับคลัสเตอร์แบบลําดับชั้น

คลัสเตอร์

#clustering

การจัดกลุ่มตัวอย่างที่เกี่ยวข้อง โดยเฉพาะอย่างยิ่งในช่วงการเรียนรู้ที่ไม่ได้อยู่ภายใต้การควบคุมดูแล เมื่อจัดกลุ่มตัวอย่างทั้งหมดเรียบร้อยแล้ว มนุษย์จะสามารถระบุความหมายให้กับคลัสเตอร์แต่ละรายการได้

มีอัลกอริทึมการจัดกลุ่มจํานวนมาก ตัวอย่างเช่น ตัวอย่างอัลกอริทึมของ k-means จะอ้างอิงตามระยะความใกล้กับ centroid ดังเช่นในแผนภาพต่อไปนี้

กราฟ 2 มิติที่แกน x มีข้อความว่า "ความกว้างของต้นไม้" และแกน y มีข้อความว่า "ความสูงของต้นไม้" กราฟประกอบด้วยเซนทรอยด์สองจุดและจุดข้อมูลอีกหลายสิบ ระบบจะจัดหมวดหมู่จุดข้อมูลตามระยะห่าง นั่นคือ จุดข้อมูล
 ที่อยู่ใกล้กับศูนย์กลางอย่างน้อย 1 หมวดหมู่จะได้รับการจัดหมวดหมู่เป็น "คลัสเตอร์ 1" ส่วนจุดศูนย์กลางที่อยู่ใกล้กับศูนย์กลางสูงสุดอีกแห่งหนึ่งคือ "คลัสเตอร์ 2"

จากนั้นนักวิจัยที่เป็นมนุษย์จะสามารถตรวจสอบคลัสเตอร์ และยกตัวอย่างคลัสเตอร์ที่ 1 เป็น "ต้นไม้แคระ" และคลัสเตอร์ 2 เป็น "ต้นไม้ใหญ่"

อีกตัวอย่างหนึ่งก็คือใช้อัลกอริทึมการจัดกลุ่มตามระยะห่างของตัวอย่างจากจุดศูนย์กลาง ดังที่แสดงให้เห็นดังนี้

จุดข้อมูลหลาย 10 จุดจัดเรียงกันเป็นวงกลม เกือบจะเหมือนรูรอบๆ กึ่งกลางของกระดานปาเป้า วงแหวนด้านในสุดของจุดข้อมูลได้รับการจัดหมวดหมู่เป็น "คลัสเตอร์ 1" วงแหวนตรงกลางถูกจัดหมวดหมู่เป็น "คลัสเตอร์ 2" และวงแหวนรอบนอกเป็น "คลัสเตอร์ 3"

คลัสเตอร์แบบกระจาย

#clustering

ดูการจัดกลุ่มแบบลําดับชั้น

H

การจัดกลุ่มแบบลําดับชั้น

#clustering

หมวดหมู่ของอัลกอริทึมคลัสเตอร์ที่สร้างลําดับชั้น การจัดกลุ่มแบบลําดับชั้นจะเหมาะกับข้อมูลแบบลําดับชั้น เช่น การจัดหมวดหมู่พฤกษศาสตร์ อัลกอริทึมการจัดกลุ่มแบบลําดับชั้น มี 2 ประเภทดังนี้

  • คลัสเตอร์รวมจะกําหนดตัวอย่างทุกรายการให้กับคลัสเตอร์ของตนเองก่อน จากนั้นจึงผสานรวมคลัสเตอร์ที่ใกล้ที่สุดซ้ําเพื่อสร้างโครงสร้างแบบลําดับชั้น
  • การจัดกลุ่มแบบกระจายจะจัดกลุ่มตัวอย่างทั้งหมดเป็นคลัสเตอร์เดียว จากนั้นจะแบ่งคลัสเตอร์ออกเป็นต้นไม้แบบลําดับชั้น

ตรงข้ามกับคลัสเตอร์แบบเซนทรอยด์

K

K-Means

#clustering

อัลกอริทึมคลัสเตอร์ยอดนิยมที่จัดกลุ่มตัวอย่างในการเรียนรู้ที่ไม่ได้อยู่ภายใต้การควบคุมดูแล โดยทั่วไปแล้ว อัลกอริทึม k-means จะทําสิ่งต่อไปนี้

  • กําหนดจุดศูนย์กลาง k ที่ดีที่สุดซ้ําๆ (เรียกว่าเซนทรอยด์)
  • กําหนดตัวอย่างแต่ละรายการให้มีค่าใกล้เคียงกับเซนทรอยด์ ตัวอย่างที่ใกล้เคียงที่สุด ที่ศูนย์เดียวกันอยู่ในกลุ่มเดียวกัน

อัลกอริทึม k-means จะเลือกตําแหน่งเซนทรอยด์เพื่อลดกําลังสองสะสมของระยะทางจากแต่ละตัวอย่างไปยังเซนทรอยด์ที่ใกล้เคียงที่สุด

ตัวอย่างเช่น ลองพิจารณาส่วนความสูงของสุนัขต่อไปนี้เป็นความกว้างของสุนัข

พล็อตคาร์ทีเซียนซึ่งมีจุดข้อมูลหลายสิบจุด

หากเป็น k=3 อัลกอริทึม k-means จะกําหนด centroid จํานวน 3 ตัว แต่ละตัวอย่างจะกําหนดให้กับเซนทรอยด์ที่อยู่ใกล้ที่สุด ทําให้มีสามกลุ่ม

แผนภูมิ Cartesian เดียวกับในภาพก่อนหน้า ยกเว้นมีเซนไทรอยด์ 3 ตัวเพิ่มเข้ามา
          จุดข้อมูลก่อนหน้าจะจัดกลุ่มเป็นกลุ่มต่างๆ 3 กลุ่ม โดยแต่ละกลุ่มจะแทนจุดข้อมูลที่ใกล้เคียงที่สุดกับศูนย์กลางที่เจาะจง

สมมติว่าผู้ผลิตต้องการกําหนดขนาดที่เหมาะสมสําหรับสเวตเตอร์ขนาดเล็ก ขนาดกลาง และขนาดใหญ่สําหรับสุนัข เซนทรอยด์ทั้ง 3 ตัวจะระบุความสูง เฉลี่ยของความกว้างและน้ําหนักของสุนัขแต่ละตัวในกลุ่มนั้น ดังนั้น ผู้ผลิตควรให้ขนาดเสื้อสเวตเตอร์ตามเทรนด์ 3 เซนติเมตร โปรดทราบว่าโดยปกติแล้ว Centroid ของคลัสเตอร์จะไม่ใช่ตัวอย่างในคลัสเตอร์

ภาพประกอบก่อนหน้านี้แสดง k-mean สําหรับตัวอย่างที่มีเพียง 2 ฟีเจอร์ (ความสูงและความกว้าง) โปรดทราบว่า k-means สามารถจัดกลุ่มตัวอย่าง ในคุณลักษณะมากมาย

ค่ามัธยฐาน k

#clustering

อัลกอริทึมการจัดกลุ่มที่เกี่ยวข้องกับ k-means อย่างมาก ความแตกต่างในทางปฏิบัติระหว่าง 2 สิ่งนี้มีดังต่อไปนี้

  • ใน k-mean เซนทรอยด์จะกําหนดได้ด้วยการย่อผลรวมของกําลังสองของระยะทางระหว่างผู้สมัครศูนย์เซนติเมตรกับตัวอย่างแต่ละรายการ
  • ในค่ามัธยฐาน k นั้น เซนโตรรอยด์จะกําหนดโดยการลดผลรวมระยะทางระหว่างตัวเลือกเซนทรอยด์และแต่ละตัวอย่าง

โปรดทราบว่าคําจํากัดความของระยะทางอาจแตกต่างกันด้วย:

  • k-means อาศัยระยะทางเอกวาดอร์จากเซนทรอยด์ไปเป็นตัวอย่าง (แบบ 2 มิติ ระยะทางแบบยูคลิดหมายถึงการใช้ทฤษฎีบทพีทาโกรัสในการคํานวณด้านตรงข้ามมุมฉาก) เช่น ระยะ k-means ระหว่าง (2,2) ถึง (5,-2) คือ
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • ค่ามัธยฐานของ K อาศัย ระยะทางแมนฮัตตันจากเซนทรอยด์ไปเป็นตัวอย่าง ระยะทางนี้คือผลรวมของเดลต้าสัมบูรณ์ในแต่ละมิติข้อมูล ตัวอย่างเช่น ค่ากลางของค่า k ระหว่าง (2,2) ถึง (5,-2) จะเป็นดังนี้
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

ความคล้ายคลึงกัน

#clustering

ในอัลกอริทึมคลัสเตอร์ เมตริกที่ใช้ระบุความคล้ายคลึงกัน (ความคล้ายคลึงกัน) ของตัวอย่าง 2 รายการ

การสเก็ตช์ภาพ

#clustering

ในแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล ซึ่งเป็นหมวดหมู่ของอัลกอริทึมที่ทําการวิเคราะห์ความคล้ายคลึงกันเบื้องต้นเบื้องต้นบนตัวอย่าง อัลกอริทึมการร่างจะใช้ ฟังก์ชันแฮชที่คํานึงถึงตําแหน่งเพื่อระบุจุดที่น่าจะคล้ายกัน จากนั้นจึงจัดกลุ่มไว้ในที่เก็บข้อมูล

การสเก็ตช์จะลดการคํานวณที่จําเป็นสําหรับการคํานวณความคล้ายคลึงกันในชุดข้อมูลขนาดใหญ่ แทนที่จะคํานวณความคล้ายคลึงกันสําหรับคู่ตัวอย่างเดี่ยวทั้งหมดในชุดข้อมูล เราจะคํานวณความคล้ายคลึงกันเฉพาะสําหรับแต่ละคู่ของจุดภายในที่เก็บข้อมูลแต่ละชุดเท่านั้น

T

การวิเคราะห์อนุกรมเวลา

#clustering

ช่องย่อยของแมชชีนเลิร์นนิงและสถิติที่วิเคราะห์ข้อมูลชั่วคราว ปัญหาหลายประเภทเกี่ยวกับแมชชีนเลิร์นนิงต้องใช้การวิเคราะห์อนุกรมเวลา รวมถึงการแยกประเภท การจัดกลุ่ม การคาดการณ์ และการตรวจจับความผิดปกติ เช่น ใช้การวิเคราะห์อนุกรมเวลาเพื่อคาดการณ์ยอดขายเสื้อโค้ทฤดูหนาวในอนาคตตามเดือนตามข้อมูลการขายที่ผ่านมา

U

แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแล

#clustering
#fundamentals

การฝึกโมเดลเพื่อค้นหารูปแบบในชุดข้อมูล ซึ่งโดยปกติจะเป็นชุดข้อมูลที่ไม่มีป้ายกํากับ

การใช้แมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลที่พบบ่อยที่สุดคือการจัดกลุ่มข้อมูลลงในกลุ่มตัวอย่างที่คล้ายกัน เช่น อัลกอริทึมแมชชีนเลิร์นนิงที่ไม่มีการควบคุมดูแลจะจัดกลุ่มเพลงตามพร็อพเพอร์ตี้ที่หลากหลายของเพลงได้ คลัสเตอร์ที่ได้อาจกลายเป็นอินพุตของอัลกอริทึม แมชชีนเลิร์นนิงอื่นๆ (เช่น บริการแนะนําเพลง) การคลัสเตอร์มีประโยชน์เมื่อไม่มีป้ายกํากับที่มีประโยชน์หรือขาดแคลน ตัวอย่างเช่น ในโดเมนอย่างเช่น การป้องกันการละเมิดและการประพฤติมิชอบ คลัสเตอร์จะช่วยให้ผู้คนเข้าใจข้อมูลได้ดีขึ้น

ขัดแย้งกับแมชชีนเลิร์นนิงที่มีการควบคุมดูแล