این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.

واژه نامه یادگیری ماشینی: خوشه بندی

این صفحه شامل اصطلاحات واژه نامه خوشه بندی است. برای همه اصطلاحات واژه نامه، اینجا را کلیک کنید .

الف

خوشه بندی تجمعی

#خوشه بندی

به خوشه بندی سلسله مراتبی مراجعه کنید.

سی

مرکز

#خوشه بندی

مرکز یک خوشه که توسط یک الگوریتم k-means یا k-median تعیین می شود. برای مثال، اگر k 3 باشد، الگوریتم k-means یا k-median 3 مرکز پیدا می کند.

برای اطلاعات بیشتر به الگوریتم های خوشه بندی در دوره کلاسترینگ مراجعه کنید.

خوشه بندی مبتنی بر مرکز

#خوشه بندی

دسته ای از الگوریتم های خوشه بندی که داده ها را در خوشه های غیر سلسله مراتبی سازماندهی می کند. k-means پرکاربردترین الگوریتم خوشه‌بندی مبتنی بر مرکز است.

در تضاد با الگوریتم های خوشه بندی سلسله مراتبی .

برای اطلاعات بیشتر به الگوریتم های خوشه بندی در دوره کلاسترینگ مراجعه کنید.

خوشه بندی

#خوشه بندی

گروه بندی نمونه های مرتبط، به ویژه در طول یادگیری بدون نظارت . هنگامی که تمام مثال ها گروه بندی شدند، یک انسان می تواند به صورت اختیاری به هر خوشه معنا بدهد.

بسیاری از الگوریتم های خوشه بندی وجود دارد. به عنوان مثال، الگوریتم k-means نمونه هایی را بر اساس نزدیکی آنها به مرکز ، مانند نمودار زیر خوشه بندی می کند:

یک نمودار دو بعدی که در آن محور x با عرض درخت برچسب گذاری شده است. و محور y دارای برچسب ارتفاع درخت است. نمودار شامل دو عدد است مرکز و چندین ده نقطه داده. نقاط داده هستند بر اساس مجاورت آنها طبقه بندی شده است. یعنی نقاط داده نزدیکترین به یک مرکز به عنوان خوشه 1 طبقه بندی می شوند، در حالی که آن ها نزدیکترین مرکز به مرکز دیگر به عنوان خوشه 2 طبقه بندی می شوند.

سپس یک محقق انسانی می‌تواند خوشه‌ها را بررسی کند و برای مثال، خوشه 1 را به عنوان "درختان کوتوله" و خوشه 2 را به عنوان "درختان با اندازه کامل" برچسب‌گذاری کند.

به عنوان مثالی دیگر، یک الگوریتم خوشه بندی را بر اساس فاصله یک مثال از نقطه مرکزی در نظر بگیرید که به صورت زیر نشان داده شده است:

ده ها نقطه داده تقریباً در دایره های متحدالمرکز مرتب شده اند مانند سوراخ هایی در اطراف مرکز یک تخته دارت. درونی ترین حلقه از نقاط داده به عنوان خوشه 1، حلقه میانی طبقه بندی می شود به عنوان خوشه 2، و بیرونی ترین حلقه به عنوان طبقه بندی می شود خوشه 3.

برای اطلاعات بیشتر به دوره کلاسترینگ مراجعه کنید.

D

خوشه بندی تفرقه انگیز

#خوشه بندی

به خوشه بندی سلسله مراتبی مراجعه کنید.

اچ

خوشه بندی سلسله مراتبی

#خوشه بندی

دسته ای از الگوریتم های خوشه بندی که درختی از خوشه ها را ایجاد می کند. خوشه بندی سلسله مراتبی برای داده های سلسله مراتبی، مانند طبقه بندی های گیاه شناسی، مناسب است. دو نوع الگوریتم خوشه بندی سلسله مراتبی وجود دارد:

خوشه‌بندی تجمعی ابتدا هر نمونه را به خوشه خودش اختصاص می‌دهد و به طور مکرر نزدیک‌ترین خوشه‌ها را برای ایجاد یک درخت سلسله مراتبی ادغام می‌کند.
خوشه بندی تقسیمی ابتدا همه نمونه ها را در یک خوشه گروه بندی می کند و سپس به طور مکرر خوشه را به یک درخت سلسله مراتبی تقسیم می کند.

در تقابل با خوشه‌بندی مبتنی بر مرکز .

برای اطلاعات بیشتر به الگوریتم های خوشه بندی در دوره کلاسترینگ مراجعه کنید.

ک

k-به معنی

#خوشه بندی

یک الگوریتم خوشه‌بندی محبوب که نمونه‌هایی را در یادگیری بدون نظارت گروه‌بندی می‌کند. الگوریتم k-means اساساً موارد زیر را انجام می دهد:

به صورت مکرر بهترین K نقطه مرکزی (معروف به مرکز ) را تعیین می کند.
هر مثال را به نزدیکترین مرکز مرکزی اختصاص می دهد. نزدیکترین نمونه ها به مرکز مشابه به همان گروه تعلق دارند.

الگوریتم k-means مکان های مرکز را انتخاب می کند تا مجذور تجمعی فواصل هر مثال تا نزدیکترین مرکز آن را به حداقل برساند.

به عنوان مثال، نمودار زیر را از ارتفاع سگ به عرض سگ در نظر بگیرید:

نمودار دکارتی با چندین ده نقطه داده.

اگر k=3 باشد، الگوریتم k-means سه مرکز را تعیین می کند. هر مثال به نزدیکترین مرکز خود اختصاص داده می شود و سه گروه را به دست می دهد:

همان طرح دکارتی مانند تصویر قبلی، به جز با سه مرکز اضافه شده است. نقاط داده قبلی در سه گروه مجزا دسته بندی می شوند. هر گروه نشان دهنده نزدیک ترین نقاط داده به یک خاص است مرکز

تصور کنید که یک سازنده می خواهد اندازه های ایده آل ژاکت های کوچک، متوسط و بزرگ را برای سگ ها تعیین کند. سه مرکز، میانگین قد و عرض هر سگ در آن خوشه را مشخص می کنند. بنابراین، سازنده احتمالاً باید اندازه ژاکت را بر اساس آن سه مرکز قرار دهد. توجه داشته باشید که مرکز یک خوشه معمولاً یک نمونه در خوشه نیست .

تصاویر قبلی میانگین k را برای نمونه هایی با تنها دو ویژگی (ارتفاع و عرض) نشان می دهد. توجه داشته باشید که k-means می تواند نمونه ها را در بسیاری از ویژگی ها گروه بندی کند.

ببینید k-means خوشه بندی چیست؟ برای اطلاعات بیشتر در دوره کلاسترینگ

k-median

#خوشه بندی

یک الگوریتم خوشه بندی که ارتباط نزدیکی با k-means دارد. تفاوت عملی این دو به شرح زیر است:

در k-means، مرکزها با به حداقل رساندن مجموع مجذورات فاصله بین یک نامزد مرکز و هر یک از نمونه های آن تعیین می شوند.
در k-median، مرکزها با به حداقل رساندن مجموع فاصله بین یک نامزد مرکز و هر یک از نمونه های آن تعیین می شوند.

توجه داشته باشید که تعاریف فاصله نیز متفاوت است:

k-means به فاصله اقلیدسی از مرکز تا یک مثال متکی است. (در دو بعد، فاصله اقلیدسی به معنای استفاده از قضیه فیثاغورث برای محاسبه فرضیه است.) برای مثال، فاصله k-means بین (2،2) و (5،-2) خواهد بود:

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

k-median به فاصله منهتن از مرکز تا یک مثال متکی است. این فاصله مجموع دلتاهای مطلق در هر بعد است. به عنوان مثال، فاصله k-میانگین بین (2،2) و (5،-2) خواهد بود:

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

اس

اندازه گیری شباهت

#خوشه بندی

#متریک

در الگوریتم‌های خوشه‌بندی ، از معیار برای تعیین شباهت (مشابه بودن) هر دو مثال استفاده می‌شود.

طراحی

#خوشه بندی

در یادگیری ماشینی بدون نظارت ، دسته‌ای از الگوریتم‌ها که یک تحلیل شباهت اولیه را روی نمونه‌ها انجام می‌دهند. الگوریتم های ترسیم از یک تابع هش حساس به محلی برای شناسایی نقاطی که احتمالاً مشابه هستند استفاده می کنند و سپس آنها را در سطل ها گروه بندی می کنند.

طراحی، محاسبات مورد نیاز برای محاسبات شباهت در مجموعه داده های بزرگ را کاهش می دهد. به جای محاسبه شباهت برای هر جفت مثال در مجموعه داده، شباهت را فقط برای هر جفت نقطه در هر سطل محاسبه می کنیم.

تی

تجزیه و تحلیل سری های زمانی

#خوشه بندی

زیرشاخه ای از یادگیری ماشین و آمار که داده های زمانی را تجزیه و تحلیل می کند. بسیاری از انواع مشکلات یادگیری ماشین نیاز به تجزیه و تحلیل سری های زمانی، از جمله طبقه بندی، خوشه بندی، پیش بینی، و تشخیص ناهنجاری دارند. برای مثال، می‌توانید از تحلیل سری‌های زمانی برای پیش‌بینی فروش آتی مانتوهای زمستانی بر اساس داده‌های تاریخی فروش ماهانه استفاده کنید.

U

یادگیری ماشینی بدون نظارت

#خوشه بندی

#مبانی

آموزش یک مدل برای یافتن الگوها در یک مجموعه داده، معمولاً یک مجموعه داده بدون برچسب.

رایج ترین استفاده از یادگیری ماشینی بدون نظارت، خوشه بندی داده ها در گروه هایی از نمونه های مشابه است. به عنوان مثال، یک الگوریتم یادگیری ماشینی بدون نظارت می تواند آهنگ ها را بر اساس ویژگی های مختلف موسیقی دسته بندی کند. خوشه‌های به‌دست‌آمده می‌توانند ورودی برای سایر الگوریتم‌های یادگیری ماشین (مثلاً برای یک سرویس توصیه موسیقی) باشند. وقتی برچسب های مفید کمیاب هستند یا وجود ندارند، خوشه بندی می تواند کمک کند. به عنوان مثال، در حوزه هایی مانند ضد سوء استفاده و تقلب، خوشه ها می توانند به انسان در درک بهتر داده ها کمک کنند.

در تضاد با یادگیری ماشینی نظارت شده .

برای یادداشت های اضافی روی نماد کلیک کنید.

نمونه دیگری از یادگیری ماشینی بدون نظارت ، تجزیه و تحلیل اجزای اصلی (PCA) است. به عنوان مثال، استفاده از PCA روی مجموعه داده‌ای که حاوی محتوای میلیون‌ها سبد خرید است ممکن است نشان دهد که سبدهای خرید حاوی لیمو اغلب حاوی آنتی اسید نیز هستند.

ببینید یادگیری ماشینی چیست؟ برای اطلاعات بیشتر در دوره مقدماتی ML.

واژه نامه یادگیری ماشینی: خوشه بندی با مجموعه‌ها، منظم بمانید ذخیره و طبقه‌بندی محتوا براساس اولویت‌های شما.

الف

خوشه بندی تجمعی

سی

مرکز

خوشه بندی مبتنی بر مرکز

خوشه بندی

D

خوشه بندی تفرقه انگیز

اچ

خوشه بندی سلسله مراتبی

ک

k-به معنی

k-median

اس

اندازه گیری شباهت

طراحی

تی

تجزیه و تحلیل سری های زمانی

U

یادگیری ماشینی بدون نظارت

برای یادداشت های اضافی روی نماد کلیک کنید.

واژه نامه یادگیری ماشینی: خوشه بندی