رگرسیون لجستیک: از دست دادن و منظم شدن

تابع ضرر برای رگرسیون لجستیک

تابع ضرر برای رگرسیون خطی مجذور ضرر است. تابع ضرر برای رگرسیون لجستیک Log Loss است که به صورت زیر تعریف می شود:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

جایی که:

  • \((x,y)\in D\) مجموعه داده ای است که شامل نمونه های برچسب گذاری شده زیادی است که جفت های \((x,y)\) هستند.
  • \(y\) برچسب در یک مثال برچسب‌گذاری شده است. از آنجایی که این رگرسیون لجستیک است، هر مقدار \(y\) باید 0 یا 1 باشد.
  • \(y'\) مقدار پیش بینی شده است (جایی بین 0 و 1)، با توجه به مجموعه ویژگی ها در \(x\).

منظم سازی در رگرسیون لجستیک

منظم‌سازی در مدل‌سازی رگرسیون لجستیک بسیار مهم است. بدون منظم‌سازی، ماهیت مجانبی رگرسیون لجستیک باعث افزایش تلفات به سمت صفر در ابعاد بالا می‌شود. در نتیجه، اکثر مدل‌های رگرسیون لجستیک از یکی از دو استراتژی زیر برای کاهش پیچیدگی مدل استفاده می‌کنند:

  • تنظیم L 2 .
  • توقف زودهنگام، یعنی محدود کردن تعداد مراحل آموزشی یا میزان یادگیری.

(ما یک استراتژی سوم - تنظیم L 1 - را در ماژول بعدی مورد بحث قرار خواهیم داد.)

تصور کنید که به هر مثال یک شناسه منحصربفرد اختصاص می‌دهید و هر شناسه را به ویژگی خاص خود ترسیم می‌کنید. اگر تابع منظم سازی را مشخص نکنید، مدل کاملاً بیش از حد مناسب می شود. دلیلش این است که مدل سعی می‌کند ضرر را در همه نمونه‌ها به صفر برساند و هرگز به آن‌جا نمی‌رسد و وزن‌های هر ویژگی نشانگر را به +بی‌نهایت یا -بی‌نهایت هدایت می‌کند. این می تواند در داده های با ابعاد بالا با تلاقی ویژگی ها اتفاق بیفتد، زمانی که توده عظیمی از تلاقی های کمیاب وجود دارد که فقط در یک نمونه اتفاق می افتد.

خوشبختانه استفاده از L 2 یا توقف زود هنگام از این مشکل جلوگیری می کند.