یادگیری ماشین (با نظارت) چیست؟ به طور خلاصه به شرح زیر است:
- سیستمهای ML یاد میگیرند که چگونه ورودیها را برای تولید پیشبینیهای مفید روی دادههایی که قبلاً دیده نشدهاند، ترکیب کنند.
بیایید اصطلاحات اساسی یادگیری ماشین را بررسی کنیم.
برچسب ها
برچسب چیزی است که ما پیشبینی میکنیم - متغیر y
در رگرسیون خطی ساده. این برچسب می تواند قیمت آتی گندم، نوع حیوان نشان داده شده در تصویر، معنای یک کلیپ صوتی یا تقریباً هر چیزی باشد.
امکانات
یک ویژگی یک متغیر ورودی است - متغیر x
در رگرسیون خطی ساده. یک پروژه یادگیری ماشینی ساده ممکن است از یک ویژگی استفاده کند، در حالی که یک پروژه یادگیری ماشینی پیچیدهتر میتواند از میلیونها ویژگی استفاده کند که به شرح زیر است:
\[\\{x_1, x_2, ... x_N\\}\]
در مثال آشکارساز هرزنامه، ویژگی ها می تواند شامل موارد زیر باشد:
- کلمات در متن ایمیل
- آدرس فرستنده
- زمان ارسال ایمیل
- ایمیل حاوی عبارت "یک ترفند عجیب" است.
مثال ها
یک مثال یک نمونه خاص از داده ها، x است. (ما x را با خط پررنگ قرار می دهیم تا نشان دهیم که بردار است.) مثال ها را به دو دسته تقسیم می کنیم:
- نمونه های برچسب گذاری شده
- نمونه های بدون برچسب
یک مثال برچسبگذاری شده هم شامل ویژگی(ها) و هم برچسب است. به این معنا که:
labeled examples: {features, label}: (x, y)
برای آموزش مدل از نمونه های برچسب دار استفاده کنید. در مثال آشکارساز هرزنامه ما، نمونههای برچسبگذاریشده ایمیلهای فردی هستند که کاربران بهصراحت آنها را بهعنوان «هرزنامه» یا «نه هرزنامه» علامتگذاری کردهاند.
به عنوان مثال، جدول زیر 5 نمونه برچسب گذاری شده از مجموعه داده حاوی اطلاعات مربوط به قیمت مسکن در کالیفرنیا را نشان می دهد:
مسکنMedianAge (ویژگی) | کل اتاق ها (ویژگی) | کل اتاق خواب ها (ویژگی) | medianHouseValue (برچسب) |
---|---|---|---|
15 | 5612 | 1283 | 66900 |
19 | 7650 | 1901 | 80100 |
17 | 720 | 174 | 85700 |
14 | 1501 | 337 | 73400 |
20 | 1454 | 326 | 65500 |
یک مثال بدون برچسب حاوی ویژگیها است اما برچسب ندارد. به این معنا که:
unlabeled examples: {features, ?}: (x, ?)
در اینجا 3 نمونه بدون برچسب از یک مجموعه داده مسکن وجود دارد که medianHouseValue
را حذف می کند:
مسکنMedianAge (ویژگی) | کل اتاق ها (ویژگی) | کل اتاق خواب ها (ویژگی) |
---|---|---|
42 | 1686 | 361 |
34 | 1226 | 180 |
33 | 1077 | 271 |
هنگامی که مدل خود را با مثال های برچسب دار آموزش دادیم، از آن مدل برای پیش بینی برچسب روی نمونه های بدون برچسب استفاده می کنیم. در آشکارساز هرزنامه، نمونههای بدون برچسب ایمیلهای جدیدی هستند که انسانها هنوز برچسبگذاری نکردهاند.
مدل ها
یک مدل رابطه بین ویژگی ها و برچسب را تعریف می کند. به عنوان مثال، یک مدل تشخیص هرزنامه ممکن است ویژگی های خاصی را به شدت با "هرزنامه" مرتبط کند. بیایید دو مرحله از زندگی یک مدل را برجسته کنیم:
آموزش به معنای ایجاد یا یادگیری مدل است. به این معنا که شما نمونه هایی با برچسب مدل را نشان می دهید و مدل را قادر می سازید تا به تدریج روابط بین ویژگی ها و برچسب را یاد بگیرد.
استنتاج به معنای استفاده از مدل آموزشدیده برای نمونههای بدون برچسب است. یعنی از مدل آموزش دیده برای پیش بینی های مفید (
y'
) استفاده می کنید. به عنوان مثال، در طول استنتاج، می توانیدmedianHouseValue
را برای نمونه های جدید بدون برچسب پیش بینی کنید.
رگرسیون در مقابل طبقه بندی
یک مدل رگرسیون مقادیر پیوسته را پیش بینی می کند. به عنوان مثال، مدل های رگرسیون پیش بینی هایی را انجام می دهند که به سؤالاتی مانند زیر پاسخ می دهند:
ارزش خانه در کالیفرنیا چقدر است؟
احتمال اینکه کاربر روی این تبلیغ کلیک کند چقدر است؟
یک مدل طبقه بندی مقادیر گسسته را پیش بینی می کند. به عنوان مثال، مدل های طبقه بندی پیش بینی هایی را انجام می دهند که به سوالاتی مانند زیر پاسخ می دهند:
آیا یک پیام ایمیل داده شده هرزنامه است یا هرزنامه نیست؟
آیا این تصویر یک سگ، گربه یا همستر است؟