نزول به ML: آموزش و باخت

آموزش یک مدل به سادگی به معنای یادگیری (تعیین) مقادیر خوب برای همه وزن ها و سوگیری از نمونه های برچسب گذاری شده است. در یادگیری نظارت شده، یک الگوریتم یادگیری ماشینی با بررسی مثال‌های فراوان و تلاش برای یافتن مدلی که ضرر را به حداقل می‌رساند، یک مدل می‌سازد. این فرآیند به حداقل رساندن ریسک تجربی نامیده می شود.

باخت مجازات یک پیش بینی بد است. یعنی ضرر عددی است که نشان می‌دهد پیش‌بینی مدل در یک مثال چقدر بد بوده است. اگر پیش‌بینی مدل کامل باشد، ضرر صفر است. در غیر این صورت ضرر بیشتر است. هدف از آموزش یک مدل، یافتن مجموعه‌ای از وزن‌ها و سوگیری‌هایی است که به طور متوسط ​​در همه نمونه‌ها از دست دادن کم دارند. به عنوان مثال، شکل 3 یک مدل با ضرر زیاد در سمت چپ و یک مدل کم ضرر در سمت راست را نشان می دهد. در مورد شکل به موارد زیر توجه کنید:

  • فلش ها نشان دهنده ضرر هستند.
  • خطوط آبی نشان دهنده پیش بینی ها هستند.

دو نمودار دکارتی که هر کدام یک خط و چند نقطه داده را نشان می دهند. در طرح اول، خط یک تناسب وحشتناک برای داده ها است، بنابراین ضرر زیاد است. در نمودار دوم، خط برای داده ها مناسب تر است، بنابراین تلفات کم است.

شکل 3. تلفات زیاد در مدل سمت چپ. ضرر کم در مدل مناسب

توجه داشته باشید که فلش های موجود در نمودار سمت چپ بسیار طولانی تر از همتایان خود در نمودار سمت راست هستند. واضح است که خط در نمودار سمت راست یک مدل پیش بینی بسیار بهتر از خط در نمودار سمت چپ است.

ممکن است تعجب کنید که آیا می توانید یک تابع ریاضی - یک تابع ضرر - ایجاد کنید که تلفات فردی را به شکل معناداری جمع کند.

مدل‌های رگرسیون خطی که در اینجا بررسی می‌کنیم از یک تابع ضرر به نام تلفات مربعی (همچنین به عنوان ضرر L 2 شناخته می‌شود) استفاده می‌کنند. مجذور ضرر برای یک مثال به صورت زیر است:

  = the square of the difference between the label and the prediction
  = (observation - prediction(x))2
  = (y - y')2

میانگین مربعات خطا ( MSE ) میانگین تلفات مجذور در هر مثال در کل مجموعه داده است. برای محاسبه MSE، تمام زیان های مجذور را برای مثال های جداگانه جمع کنید و سپس بر تعداد مثال ها تقسیم کنید:

$$ MSE = \frac{1}{N} \sum_{(x,y)\in D} (y - prediction(x))^2 $$

جایی که:

  • \((x, y)\) مثالی است که در آن
    • \(x\) مجموعه ای از ویژگی ها است (به عنوان مثال، صدای جیر جیر/دقیقه، سن، جنسیت) که مدل از آنها برای پیش بینی استفاده می کند.
    • \(y\) برچسب مثال است (مثلاً دما).
  • \(prediction(x)\) تابعی از وزن ها و سوگیری در ترکیب با مجموعه ویژگی ها \(x\)است.
  • \(D\) یک مجموعه داده حاوی نمونه های برچسب گذاری شده زیادی است که جفت \((x, y)\) است.
  • \(N\) تعداد نمونه ها در \(D\)است.

اگرچه MSE معمولاً در یادگیری ماشین استفاده می‌شود، اما نه تنها تابع ضرر عملی است و نه بهترین تابع ضرر برای همه شرایط.