رگرسیون لجستیک: از دست دادن و منظم شدن

مدل‌های رگرسیون لجستیک با استفاده از همان فرآیند مدل‌های رگرسیون خطی آموزش داده می‌شوند، با دو تفاوت کلیدی:

بخش‌های بعدی این دو ملاحظه را با عمق بیشتری بررسی می‌کنند.

تلفات لگاریتمی

در ماژول رگرسیون خطی ، از تابع زیان مربع (که به آن زیان L2 نیز گفته می‌شود) به عنوان تابع زیان استفاده کردید. زیان مربع برای یک مدل خطی که در آن نرخ تغییر مقادیر خروجی ثابت است، به خوبی کار می‌کند. برای مثال، با توجه به مدل خطی $y' = b + 3x_1$، هر بار که مقدار ورودی $x_1$ را ۱ واحد افزایش می‌دهید، مقدار خروجی $y'$ به اندازه ۳ واحد افزایش می‌یابد.

با این حال، نرخ تغییر یک مدل رگرسیون لجستیک ثابت نیست . همانطور که در محاسبه احتمال مشاهده کردید، منحنی سیگموئید به شکل s است نه خطی. وقتی مقدار لگاریتم-شانس ($z$) به 0 نزدیک‌تر باشد، افزایش‌های کوچک در $z$ منجر به تغییرات بسیار بزرگتری در $y$ نسبت به زمانی می‌شود که $z$ یک عدد مثبت یا منفی بزرگ باشد. جدول زیر خروجی تابع سیگموئید را برای مقادیر ورودی از 5 تا 10 و همچنین دقت مربوطه مورد نیاز برای ثبت تفاوت‌ها در نتایج نشان می‌دهد.

ورودی خروجی لجستیک ارقام دقیق مورد نیاز
۵ ۰.۹۹۳ ۳
۶ ۰.۹۹۷ ۳
۷ ۰.۹۹۹ ۳
۸ ۰.۹۹۹۷ ۴
۹ ۰.۹۹۹۹ ۴
۱۰ ۰.۹۹۹۹۸ ۵

اگر از مربعات زیان برای محاسبه خطاهای تابع سیگموئید استفاده می‌کردید، با نزدیک‌تر شدن خروجی به 0 و 1 ، به حافظه بیشتری برای حفظ دقت مورد نیاز برای ردیابی این مقادیر نیاز داشتید.

در عوض، تابع زیان برای رگرسیون لجستیک، لگاریتم زیان (Log Loss) است. معادله لگاریتم زیان، لگاریتم بزرگی تغییر را برمی‌گرداند، نه فقط فاصله بین داده‌ها و پیش‌بینی. لگاریتم زیان به صورت زیر محاسبه می‌شود:

$\text{لگاریتم زیان} = -\frac{1}{N}\sum_{i=1}^{N} [y_i\log(y_i') + (1 - y_i)\log(1 - y_i')]$

کجا:

  • \(N\) تعداد نمونه‌های برچسب‌گذاری شده در مجموعه داده‌ها است
  • \(i\) شاخص یک مثال در مجموعه داده‌ها است (مثلاً، \((x_3, y_3)\)سومین مثال در مجموعه داده‌ها است)
  • \(y_i\) برچسبی برای \(i\)مثال. از آنجایی که این رگرسیون لجستیک است، \(y_i\) یا باید 0 باشه یا 1
  • \(y_i'\) آیا پیش‌بینی مدل شما برای \(i\)مثال ام (جایی بین ۰ و ۱)، با توجه به مجموعه ویژگی‌های موجود در \(x_i\).

منظم‌سازی در رگرسیون لجستیک

منظم‌سازی ، مکانیزمی برای جریمه کردن پیچیدگی مدل در طول آموزش، در مدل‌سازی رگرسیون لجستیک بسیار مهم است. بدون منظم‌سازی، ماهیت مجانبی رگرسیون لجستیک در مواردی که مدل تعداد زیادی ویژگی دارد، باعث می‌شود که مقدار خطا به سمت صفر میل کند. در نتیجه، اکثر مدل‌های رگرسیون لجستیک از یکی از دو استراتژی زیر برای کاهش پیچیدگی مدل استفاده می‌کنند: