تابع ضرر برای رگرسیون لجستیک
تابع ضرر برای رگرسیون خطی مجذور ضرر است. تابع ضرر برای رگرسیون لجستیک Log Loss است که به صورت زیر تعریف می شود:
جایی که:
- \((x,y)\in D\) مجموعه داده ای است که شامل نمونه های برچسب گذاری شده زیادی است که جفت های \((x,y)\) هستند.
- \(y\) برچسب در یک مثال برچسبگذاری شده است. از آنجایی که این رگرسیون لجستیک است، هر مقدار \(y\) باید 0 یا 1 باشد.
- \(y'\) مقدار پیش بینی شده است (جایی بین 0 و 1)، با توجه به مجموعه ویژگی ها در \(x\).
منظم سازی در رگرسیون لجستیک
منظمسازی در مدلسازی رگرسیون لجستیک بسیار مهم است. بدون منظمسازی، ماهیت مجانبی رگرسیون لجستیک باعث افزایش تلفات به سمت صفر در ابعاد بالا میشود. در نتیجه، اکثر مدلهای رگرسیون لجستیک از یکی از دو استراتژی زیر برای کاهش پیچیدگی مدل استفاده میکنند:
- تنظیم L 2 .
- توقف زودهنگام، یعنی محدود کردن تعداد مراحل آموزشی یا میزان یادگیری.
(ما یک استراتژی سوم - تنظیم L 1 - را در ماژول بعدی مورد بحث قرار خواهیم داد.)
تصور کنید که به هر مثال یک شناسه منحصربفرد اختصاص میدهید و هر شناسه را به ویژگی خاص خود ترسیم میکنید. اگر تابع منظم سازی را مشخص نکنید، مدل کاملاً بیش از حد مناسب می شود. دلیلش این است که مدل سعی میکند ضرر را در همه نمونهها به صفر برساند و هرگز به آنجا نمیرسد و وزنهای هر ویژگی نشانگر را به +بینهایت یا -بینهایت هدایت میکند. این می تواند در داده های با ابعاد بالا با تلاقی ویژگی ها اتفاق بیفتد، زمانی که توده عظیمی از تلاقی های کمیاب وجود دارد که فقط در یک نمونه اتفاق می افتد.
خوشبختانه استفاده از L 2 یا توقف زود هنگام از این مشکل جلوگیری می کند.