قاب بندی: اصطلاحات کلیدی ML

یادگیری ماشین (با نظارت) چیست؟ به طور خلاصه به شرح زیر است:

  • سیستم‌های ML یاد می‌گیرند که چگونه ورودی‌ها را برای تولید پیش‌بینی‌های مفید روی داده‌هایی که قبلاً دیده نشده‌اند، ترکیب کنند.

بیایید اصطلاحات اساسی یادگیری ماشین را بررسی کنیم.

برچسب ها

برچسب چیزی است که ما پیش‌بینی می‌کنیم - متغیر y در رگرسیون خطی ساده. این برچسب می تواند قیمت آتی گندم، نوع حیوان نشان داده شده در تصویر، معنای یک کلیپ صوتی یا تقریباً هر چیزی باشد.

امکانات

یک ویژگی یک متغیر ورودی است - متغیر x در رگرسیون خطی ساده. یک پروژه یادگیری ماشینی ساده ممکن است از یک ویژگی استفاده کند، در حالی که یک پروژه یادگیری ماشینی پیچیده‌تر می‌تواند از میلیون‌ها ویژگی استفاده کند که به شرح زیر است:

\[\\{x_1, x_2, ... x_N\\}\]

در مثال آشکارساز هرزنامه، ویژگی ها می تواند شامل موارد زیر باشد:

  • کلمات در متن ایمیل
  • آدرس فرستنده
  • زمان ارسال ایمیل
  • ایمیل حاوی عبارت "یک ترفند عجیب" است.

مثال ها

یک مثال یک نمونه خاص از داده ها، x است. (ما x را با خط پررنگ قرار می دهیم تا نشان دهیم که بردار است.) مثال ها را به دو دسته تقسیم می کنیم:

  • نمونه های برچسب گذاری شده
  • نمونه های بدون برچسب

یک مثال برچسب‌گذاری شده هم شامل ویژگی(ها) و هم برچسب است. به این معنا که:

  labeled examples: {features, label}: (x, y)

برای آموزش مدل از نمونه های برچسب دار استفاده کنید. در مثال آشکارساز هرزنامه ما، نمونه‌های برچسب‌گذاری‌شده ایمیل‌های فردی هستند که کاربران به‌صراحت آن‌ها را به‌عنوان «هرزنامه» یا «نه هرزنامه» علامت‌گذاری کرده‌اند.

به عنوان مثال، جدول زیر 5 نمونه برچسب گذاری شده از مجموعه داده حاوی اطلاعات مربوط به قیمت مسکن در کالیفرنیا را نشان می دهد:

مسکنMedianAge
(ویژگی)
کل اتاق ها
(ویژگی)
کل اتاق خواب ها
(ویژگی)
medianHouseValue
(برچسب)
15 5612 1283 66900
19 7650 1901 80100
17 720 174 85700
14 1501 337 73400
20 1454 326 65500

یک مثال بدون برچسب حاوی ویژگی‌ها است اما برچسب ندارد. به این معنا که:

  unlabeled examples: {features, ?}: (x, ?)

در اینجا 3 نمونه بدون برچسب از یک مجموعه داده مسکن وجود دارد که medianHouseValue را حذف می کند:

مسکنMedianAge
(ویژگی)
کل اتاق ها
(ویژگی)
کل اتاق خواب ها
(ویژگی)
42 1686 361
34 1226 180
33 1077 271

هنگامی که مدل خود را با مثال های برچسب دار آموزش دادیم، از آن مدل برای پیش بینی برچسب روی نمونه های بدون برچسب استفاده می کنیم. در آشکارساز هرزنامه، نمونه‌های بدون برچسب ایمیل‌های جدیدی هستند که انسان‌ها هنوز برچسب‌گذاری نکرده‌اند.

مدل ها

یک مدل رابطه بین ویژگی ها و برچسب را تعریف می کند. به عنوان مثال، یک مدل تشخیص هرزنامه ممکن است ویژگی های خاصی را به شدت با "هرزنامه" مرتبط کند. بیایید دو مرحله از زندگی یک مدل را برجسته کنیم:

  • آموزش به معنای ایجاد یا یادگیری مدل است. به این معنا که شما نمونه هایی با برچسب مدل را نشان می دهید و مدل را قادر می سازید تا به تدریج روابط بین ویژگی ها و برچسب را یاد بگیرد.

  • استنتاج به معنای استفاده از مدل آموزش‌دیده برای نمونه‌های بدون برچسب است. یعنی از مدل آموزش دیده برای پیش بینی های مفید ( y' ) استفاده می کنید. به عنوان مثال، در طول استنتاج، می توانید medianHouseValue را برای نمونه های جدید بدون برچسب پیش بینی کنید.

رگرسیون در مقابل طبقه بندی

یک مدل رگرسیون مقادیر پیوسته را پیش بینی می کند. به عنوان مثال، مدل های رگرسیون پیش بینی هایی را انجام می دهند که به سؤالاتی مانند زیر پاسخ می دهند:

  • ارزش خانه در کالیفرنیا چقدر است؟

  • احتمال اینکه کاربر روی این تبلیغ کلیک کند چقدر است؟

یک مدل طبقه بندی مقادیر گسسته را پیش بینی می کند. به عنوان مثال، مدل های طبقه بندی پیش بینی هایی را انجام می دهند که به سوالاتی مانند زیر پاسخ می دهند:

  • آیا یک پیام ایمیل داده شده هرزنامه است یا هرزنامه نیست؟

  • آیا این تصویر یک سگ، گربه یا همستر است؟