رگرسیون خطی: ضرر

Loss is a numerical metric that describes how wrong a model's predictions are. Loss فاصله بین پیش بینی های مدل و برچسب های واقعی را اندازه گیری می کند. The goal of training a model is to minimize the loss, reducing it to its lowest possible value.

در تصویر زیر می‌توانید از دست دادن را به صورت فلش‌هایی که از داده‌ها به مدل نشان می‌دهند، تجسم کنید. فلش ها نشان می دهد که پیش بینی های مدل چقدر از مقادیر واقعی فاصله دارد.

شکل 9. خطوط از دست دادن نقاط داده را به مدل

شکل 9 . ضرر از مقدار واقعی تا مقدار پیش بینی شده اندازه گیری می شود.

فاصله از دست دادن

در آمار و یادگیری ماشین، ضرر تفاوت بین مقادیر پیش‌بینی‌شده و واقعی را اندازه‌گیری می‌کند. Loss focuses on the distance between the values, not the direction. برای مثال، اگر مدلی 2 را پیش‌بینی کند، اما مقدار واقعی آن 5 باشد، برای ما مهم نیست که ضرر منفی باشد (2-5$=-3$). Instead, we care that the distance between the values is $ 3 $. بنابراین، تمام روش های محاسبه ضرر علامت را حذف می کنند.

دو روش رایج برای حذف علامت عبارتند از:

  • قدر مطلق تفاوت بین مقدار واقعی و پیش بینی را در نظر بگیرید.
  • Square the difference between the actual value and the prediction.

انواع ضرر

در رگرسیون خطی، چهار نوع اصلی زیان وجود دارد که در جدول زیر به آنها اشاره شده است.

نوع ضرر تعریف معادله
L 1 باخت مجموع مقادیر مطلق تفاوت بین مقادیر پیش بینی شده و مقادیر واقعی. $ ∑ | واقعی\ ارزش - پیش بینی شده\ ارزش | $
میانگین خطای مطلق (MAE) میانگین تلفات L 1 در مجموعه ای از نمونه *N*. $ \frac{1}{N} ∑ | واقعی\ ارزش - پیش بینی شده\ ارزش | $
L 2 loss مجموع مجذور اختلاف بین مقادیر پیش بینی شده و مقادیر واقعی. $ ∑ (مقدار\ واقعی - مقدار\ پیش بینی شده)^2 $
میانگین مربعات خطا (MSE) The average of L 2 losses across a set of *N* examples. $ \frac{1}{N} ∑ (مقدار\ واقعی - ارزش\ پیش‌بینی شده)^2 $

The functional difference between L 1 loss and L 2 loss (or between MAE and MSE) is squaring. وقتی تفاوت بین پیش‌بینی و برچسب زیاد است، مربع کردن ضرر را حتی بیشتر می‌کند. هنگامی که تفاوت کوچک است (کمتر از 1)، مربع کردن ضرر را حتی کمتر می کند.

هنگام پردازش چندین مثال به طور همزمان، توصیه می کنیم میانگین تلفات را در تمام نمونه ها، چه با استفاده از MAE یا MSE، محاسبه کنید.

مثال محاسبه ضرر

با استفاده از خط بهترین تناسب قبلی، ضرر L 2 را برای یک مثال محاسبه می‌کنیم. از بهترین خط مناسب، مقادیر زیر را برای وزن و سوگیری داشتیم:

  • $ \small{وزن: -4.6} $
  • $ \small{تعصب: 34} $

If the model predicts that a 2,370-pound car gets 23.1 miles per gallon, but it actually gets 26 miles per gallon, we would calculate the L 2 loss as follows:

ارزش معادله نتیجه
پیش بینی

$\small{bias + (وزن * ویژگی\ ارزش)}$

$\small{34 + (-4.6*2.37)}$

$\small{23.1}$
ارزش واقعی $ \small{ label } $ $ \small{ 26 } $
L 2 loss

$ \small{ (مقدار\ واقعی - پیش بینی شده\ ارزش)^2 } $

$\small{ (26 - 23.1)^2 }$

$\small{8.41}$

In this example, the L 2 loss for that single data point is 8.41.

انتخاب ضرر

تصمیم‌گیری در مورد استفاده از MAE یا MSE می‌تواند به مجموعه داده‌ها و روشی که می‌خواهید پیش‌بینی‌های خاصی را مدیریت کنید بستگی دارد. اکثر مقادیر ویژگی در یک مجموعه داده معمولاً در یک محدوده مجزا قرار می گیرند. به عنوان مثال، خودروها به طور معمول بین 2000 تا 5000 پوند هستند و بین 8 تا 50 مایل در هر گالن هستند. An 8,000-pound car, or a car that gets 100 miles per gallon, is outside the typical range and would be considered an outlier .

پرت همچنین می تواند به این اشاره داشته باشد که پیش بینی های یک مدل چقدر از مقادیر واقعی فاصله دارد. به عنوان مثال، 3000 پوند در محدوده وزن معمولی خودرو قرار دارد و 40 مایل در هر گالن در محدوده بازده سوخت معمولی است. با این حال، یک خودروی 3000 پوندی که 40 مایل در هر گالن مصرف می‌کند، از نظر پیش‌بینی مدل، یک خودروی پرت خواهد بود، زیرا این مدل پیش‌بینی می‌کند که یک خودروی 3000 پوندی حدود 20 مایل در هر گالن خواهد داشت.

هنگام انتخاب بهترین تابع ضرر، نحوه رفتار مدل را در نظر بگیرید. به عنوان مثال، MSE مدل را بیشتر به سمت نقاط پرت حرکت می دهد، در حالی که MAE این کار را نمی کند. L 2 loss incurs a much higher penalty for an outlier than L 1 loss. به عنوان مثال، تصاویر زیر یک مدل آموزش دیده با استفاده از MAE و یک مدل آموزش دیده با استفاده از MSE را نشان می دهد. خط قرمز نشان دهنده یک مدل کاملا آموزش دیده است که برای پیش بینی استفاده می شود. نقاط پرت به مدل آموزش دیده با MSE نزدیکتر از مدل آموزش دیده با MAE است.

Figure 10. The model is tilted more toward the outliers.

شکل 10 . یک مدل آموزش دیده با MSE مدل را به نقاط پرت نزدیکتر می کند.

شکل 11. مدل بیشتر از نقاط دورتر کج شده است.

شکل 11 . مدلی که با MAE آموزش دیده است، دورتر از موارد پرت است.

به رابطه بین مدل و داده توجه کنید:

  • MSE . مدل به نقاط پرت نزدیکتر است اما از بسیاری از نقاط داده دیگر دورتر است.

  • MAE مدل دورتر از نقاط پرت است اما به بسیاری از نقاط داده دیگر نزدیکتر است.

درک خود را بررسی کنید

دو طرح زیر را در نظر بگیرید:

طرح 10 امتیازی.       یک خط از 6 نقطه عبور می کند. 2 امتیاز 1 واحد است       بالای خط؛ 2 نقطه دیگر 1 واحد زیر خط هستند.طرح 10 امتیازی. یک خط اجرا می شود       از طریق 8 نقطه 1 امتیاز 2 واحد است       بالای خط؛ 1 نقطه دیگر 2 واحد زیر خط است.
Which of the two data sets shown in the preceding plots has the higher Mean Squared Error (MSE)?
مجموعه داده در سمت چپ.
شش مثال روی خط متحمل ضرر کلی 0 می‌شوند. چهار مثالی که روی خط نیستند خیلی دور از خط نیستند، بنابراین حتی مربع کردن آفست آن‌ها همچنان مقدار کمی را به دست می‌دهد: $MSE = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^0.
مجموعه داده در سمت راست.
The eight examples on the line incur a total loss of 0. However, although only two points lay off the line, both of those points are twice as far off the line as the outlier points in the left figure. ضرر مربع آن اختلافات را تقویت می کند ، بنابراین جبران دو برابر چهار برابر ضرر چهار برابر یک جبران کننده یک: $ mse = \ frac {0^2 + 0^2 + 2 + 2^2 + 0^2 + 0^2 + 0^2 + 2 + 2 + 0^2 + 0^2} {10} = 0.8 $ $ = 0.8 $