واژه نامه یادگیری ماشینی: خوشه بندی

با مجموعه‌ها، منظم بمانید ذخیره و دسته‌بندی محتوا براساس اولویت‌های شما.

این صفحه شامل اصطلاحات واژه نامه خوشه بندی است. برای همه اصطلاحات واژه نامه، اینجا را کلیک کنید .

آ

خوشه بندی تجمعی

#خوشه بندی

به خوشه بندی سلسله مراتبی مراجعه کنید.

سی

نقطه مرکزی

#خوشه بندی

مرکز یک خوشه که توسط یک الگوریتم k-means یا k-median تعیین می شود. به عنوان مثال، اگر k 3 باشد، الگوریتم k-means یا k-median 3 مرکز پیدا می کند.

خوشه بندی مبتنی بر مرکز

#خوشه بندی

دسته ای از الگوریتم های خوشه بندی که داده ها را در خوشه های غیر سلسله مراتبی سازماندهی می کند. k-means پرکاربردترین الگوریتم خوشه‌بندی مبتنی بر مرکز است.

در تضاد با الگوریتم های خوشه بندی سلسله مراتبی .

خوشه بندی

#خوشه بندی

گروه بندی نمونه های مرتبط، به ویژه در طول یادگیری بدون نظارت . هنگامی که تمام مثال ها گروه بندی شدند، یک انسان می تواند به صورت اختیاری به هر خوشه معنا بدهد.

بسیاری از الگوریتم های خوشه بندی وجود دارد. به عنوان مثال، الگوریتم k-means نمونه هایی را بر اساس نزدیکی آنها به مرکز، مانند نمودار زیر خوشه بندی می کند:

یک نمودار دو بعدی که در آن محور x با عنوان "عرض درخت" و محور y با "ارتفاع درخت" مشخص شده است. این نمودار شامل دو مرکز و چندین ده نقطه داده است. نقاط داده بر اساس مجاورت آنها دسته بندی می شوند. یعنی، نزدیکترین نقاط داده به یک مرکز به عنوان "خوشه 1" طبقه بندی می شوند، در حالی که نزدیکترین نقاط داده به مرکز دیگر به عنوان "خوشه 2" طبقه بندی می شوند.

سپس یک محقق انسانی می‌تواند خوشه‌ها را بررسی کند و برای مثال، خوشه 1 را به عنوان "درختان کوتوله" و خوشه 2 را به عنوان "درختان با اندازه کامل" برچسب‌گذاری کند.

به عنوان مثالی دیگر، یک الگوریتم خوشه بندی را بر اساس فاصله یک مثال از نقطه مرکزی در نظر بگیرید که به صورت زیر نشان داده شده است:

ده‌ها نقطه داده در دایره‌های متحدالمرکز قرار گرفته‌اند، تقریباً مانند سوراخ‌هایی در اطراف مرکز یک تخته دارت. درونی ترین حلقه نقاط داده به عنوان 'خوشه 1'، حلقه میانی به عنوان 'خوشه 2'، و بیرونی ترین حلقه به عنوان 'خوشه 3' طبقه بندی می شود.

D

خوشه بندی تفرقه انگیز

#خوشه بندی

به خوشه بندی سلسله مراتبی مراجعه کنید.

اچ

خوشه بندی سلسله مراتبی

#خوشه بندی

دسته ای از الگوریتم های خوشه بندی که درختی از خوشه ها را ایجاد می کند. خوشه بندی سلسله مراتبی برای داده های سلسله مراتبی، مانند طبقه بندی های گیاه شناسی، مناسب است. دو نوع الگوریتم خوشه بندی سلسله مراتبی وجود دارد:

  • خوشه‌بندی تجمعی ابتدا هر نمونه را به خوشه خودش اختصاص می‌دهد و به طور مکرر نزدیک‌ترین خوشه‌ها را برای ایجاد یک درخت سلسله مراتبی ادغام می‌کند.
  • خوشه بندی تقسیمی ابتدا همه نمونه ها را در یک خوشه گروه بندی می کند و سپس به طور مکرر خوشه را به یک درخت سلسله مراتبی تقسیم می کند.

در تقابل با خوشه‌بندی مبتنی بر مرکز .

ک

k-به معنی

#خوشه بندی

یک الگوریتم خوشه‌بندی محبوب که نمونه‌هایی را در یادگیری بدون نظارت گروه‌بندی می‌کند. الگوریتم k-means اساساً موارد زیر را انجام می دهد:

  • به صورت مکرر بهترین K نقطه مرکزی (معروف به مرکز ) را تعیین می کند.
  • هر مثال را به نزدیکترین مرکز مرکزی اختصاص می دهد. نزدیکترین نمونه ها به مرکز مشابه به همان گروه تعلق دارند.

الگوریتم k-means مکان های مرکز را انتخاب می کند تا مجذور تجمعی فواصل هر مثال تا نزدیکترین مرکز آن را به حداقل برساند.

به عنوان مثال، نمودار زیر را از ارتفاع سگ به عرض سگ در نظر بگیرید:

نمودار دکارتی با چندین ده نقطه داده.

اگر k=3 باشد، الگوریتم k-means سه مرکز را تعیین می کند. هر مثال به نزدیکترین مرکز خود اختصاص داده می شود و سه گروه را به دست می دهد:

همان نمودار دکارتی مانند تصویر قبلی، به جز با اضافه شدن سه مرکز. نقاط داده قبلی در سه گروه مجزا دسته بندی می شوند که هر گروه نشان دهنده نزدیک ترین نقاط داده به یک مرکز خاص است.

تصور کنید که یک سازنده می خواهد اندازه های ایده آل ژاکت های کوچک، متوسط ​​و بزرگ را برای سگ ها تعیین کند. سه مرکز، میانگین قد و عرض هر سگ در آن خوشه را مشخص می کنند. بنابراین، سازنده احتمالاً باید اندازه ژاکت را بر اساس آن سه مرکز قرار دهد. توجه داشته باشید که مرکز یک خوشه معمولاً یک نمونه در خوشه نیست .

تصاویر قبلی میانگین k را برای نمونه هایی با تنها دو ویژگی (ارتفاع و عرض) نشان می دهد. توجه داشته باشید که k-means می تواند نمونه ها را در بسیاری از ویژگی ها گروه بندی کند.

k-median

#خوشه بندی

یک الگوریتم خوشه بندی که ارتباط نزدیکی با k-means دارد. تفاوت عملی این دو به شرح زیر است:

  • در k-means، مرکزها با به حداقل رساندن مجموع مجذورات فاصله بین یک نامزد مرکز و هر یک از نمونه های آن تعیین می شوند.
  • در k-median، مرکزها با به حداقل رساندن مجموع فاصله بین یک نامزد مرکز و هر یک از نمونه های آن تعیین می شوند.

توجه داشته باشید که تعاریف فاصله نیز متفاوت است:

  • k-means به فاصله اقلیدسی از مرکز تا یک مثال متکی است. (در دو بعد، فاصله اقلیدسی به معنای استفاده از قضیه فیثاغورث برای محاسبه فرضیه است.) برای مثال، فاصله k-means بین (2،2) و (5،-2) خواهد بود:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median به فاصله منهتن از مرکز تا یک مثال متکی است. این فاصله مجموع دلتاهای مطلق در هر بعد است. به عنوان مثال، فاصله k-میانگین بین (2،2) و (5،-2) خواهد بود:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

اس

اندازه گیری شباهت

#خوشه بندی

در الگوریتم‌های خوشه‌بندی ، از معیار برای تعیین شباهت (مشابه بودن) هر دو مثال استفاده می‌شود.

طراحی

#خوشه بندی

در یادگیری ماشینی بدون نظارت ، دسته‌ای از الگوریتم‌ها که یک تحلیل شباهت اولیه را روی نمونه‌ها انجام می‌دهند. الگوریتم های ترسیم از یک تابع هش حساس به محلی برای شناسایی نقاطی که احتمالاً مشابه هستند استفاده می کنند و سپس آنها را در سطل ها گروه بندی می کنند.

طراحی، محاسبات مورد نیاز برای محاسبات شباهت در مجموعه داده های بزرگ را کاهش می دهد. به جای محاسبه شباهت برای هر جفت مثال در مجموعه داده، شباهت را فقط برای هر جفت نقطه در هر سطل محاسبه می کنیم.

تی

تجزیه و تحلیل سری های زمانی

#خوشه بندی

زیرشاخه ای از یادگیری ماشین و آمار که داده های زمانی را تجزیه و تحلیل می کند. بسیاری از انواع مشکلات یادگیری ماشین نیاز به تجزیه و تحلیل سری های زمانی، از جمله طبقه بندی، خوشه بندی، پیش بینی، و تشخیص ناهنجاری دارند. برای مثال، می‌توانید از تحلیل سری‌های زمانی برای پیش‌بینی فروش آتی مانتوهای زمستانی بر اساس داده‌های تاریخی فروش ماهانه استفاده کنید.

U

یادگیری ماشینی بدون نظارت

#خوشه بندی

آموزش یک مدل برای یافتن الگوها در یک مجموعه داده، معمولاً یک مجموعه داده بدون برچسب.

رایج ترین استفاده از یادگیری ماشینی بدون نظارت، خوشه بندی داده ها در گروه هایی از نمونه های مشابه است. به عنوان مثال، یک الگوریتم یادگیری ماشینی بدون نظارت می‌تواند آهنگ‌ها را بر اساس ویژگی‌های مختلف موسیقی با هم دسته‌بندی کند. خوشه‌های به‌دست‌آمده می‌توانند ورودی برای سایر الگوریتم‌های یادگیری ماشین (مثلاً برای یک سرویس توصیه موسیقی) باشند. خوشه بندی می تواند در حوزه هایی که به سختی برچسب های واقعی به دست می آید مفید باشد. به عنوان مثال، در حوزه هایی مانند ضد سوء استفاده و تقلب، خوشه ها می توانند به انسان در درک بهتر داده ها کمک کنند.

نمونه دیگری از یادگیری ماشینی بدون نظارت، تجزیه و تحلیل اجزای اصلی (PCA) است. به عنوان مثال، استفاده از PCA روی مجموعه داده‌ای که حاوی محتوای میلیون‌ها سبد خرید است ممکن است نشان دهد که سبدهای خرید حاوی لیمو اغلب حاوی آنتی اسید نیز هستند.

با یادگیری ماشینی نظارت شده مقایسه کنید.