نزولی به ML: رگرسیون خطی

مدت‌هاست که مشخص شده است که جیرجیرک‌ها (یک گونه حشره) در روزهای گرم‌تر بیشتر از روزهای خنک‌تر جیرجیرک‌ها جیرجیر می‌زنند. برای چندین دهه، دانشمندان حرفه‌ای و آماتور داده‌های مربوط به صدای جیر جیر در دقیقه و دما را فهرست‌بندی کرده‌اند. به عنوان یک هدیه تولد، خاله روث شما پایگاه داده کریکت خود را به شما می دهد و از شما می خواهد که مدلی برای پیش بینی این رابطه یاد بگیرید. با استفاده از این داده ها، می خواهید این رابطه را بررسی کنید.

ابتدا داده های خود را با ترسیم آن بررسی کنید:

داده‌های خام صدای جیک/دقیقه (محور x) در مقابل دما (محور y).

شکل 1. صدای جیر جیر در دقیقه در مقابل دما بر حسب سانتیگراد.

همانطور که انتظار می رفت، نمودار افزایش دما را با تعداد صدای جیر جیر نشان می دهد. آیا این رابطه بین صدا و دما خطی است؟ بله، برای تقریب این رابطه می توانید یک خط مستقیم مانند زیر بکشید:

بهترین خط برقراری ارتباط جیک/دقیقه (محور x) در مقابل دما (محور y).

شکل 2. یک رابطه خطی.

درست است، خط از هر نقطه عبور نمی کند، اما این خط به وضوح رابطه بین صدای جیر جیر و دما را نشان می دهد. با استفاده از معادله یک خط، می توانید این رابطه را به صورت زیر بنویسید:

$$ y = mx + b $$

جایی که:

  • \(y\) دما بر حسب سانتیگراد است—مقداری که ما سعی در پیش بینی آن داریم.
  • \(m\) شیب خط است.
  • \(x\) تعداد صدای جیک در دقیقه است—مقدار ویژگی ورودی ما.
  • \(b\) نقطه ی y است.

طبق قرارداد در یادگیری ماشین، معادله یک مدل را کمی متفاوت می نویسید:

$$ y' = b + w_1x_1 $$

جایی که:

  • \(y'\) برچسب پیش بینی شده (یک خروجی دلخواه) است.
  • \(b\) سوگیری است (y-intercept)، که گاهی اوقات به عنوان \(w_0\)نامیده می شود.
  • \(w_1\) وزن ویژگی 1 است. وزن همان مفهوم "شیب" \(m\) در معادله سنتی یک خط است.
  • \(x_1\) یک ویژگی است (یک ورودی شناخته شده).

برای استنباط (پیش‌بینی) دمای \(y'\) برای یک مقدار جدید chirps-per-minute \(x_1\)، فقط مقدار \(x_1\) را در این مدل جایگزین کنید.

اگرچه این مدل تنها از یک ویژگی استفاده می کند، یک مدل پیچیده تر ممکن است به چندین ویژگی متکی باشد که هر کدام وزن جداگانه ای دارند (\(w_1\)، \(w_2\)، و غیره). به عنوان مثال، مدلی که بر سه ویژگی متکی است ممکن است به صورت زیر باشد:

$$y' = b + w_1x_1 + w_2x_2 + w_3x_3$$