این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.

رگرسیون لجستیک: از دست دادن و منظم شدن

مدل‌های رگرسیون لجستیک با استفاده از همان فرآیند مدل‌های رگرسیون خطی آموزش داده می‌شوند، با دو تفاوت کلیدی:

مدل‌های رگرسیون لجستیک به جای تابع زیان مربعی، از تابع زیان لگاریتمی (Log Loss) استفاده می‌کنند.
اعمال منظم‌سازی برای جلوگیری از بیش‌برازش بسیار مهم است.

بخش‌های بعدی این دو ملاحظه را با عمق بیشتری بررسی می‌کنند.

تلفات لگاریتمی

در ماژول رگرسیون خطی ، از تابع زیان مربع (که به آن زیان _L2 نیز گفته می‌شود) به عنوان تابع زیان استفاده کردید. زیان مربع برای یک مدل خطی که در آن نرخ تغییر مقادیر خروجی ثابت است، به خوبی کار می‌کند. برای مثال، با توجه به مدل خطی $y' = b + 3x_1$، هر بار که مقدار ورودی $x_1$ را ۱ واحد افزایش می‌دهید، مقدار خروجی $y'$ به اندازه ۳ واحد افزایش می‌یابد.

با این حال، نرخ تغییر یک مدل رگرسیون لجستیک ثابت نیست . همانطور که در محاسبه احتمال مشاهده کردید، منحنی سیگموئید به شکل s است نه خطی. وقتی مقدار لگاریتم-شانس ($z$) به 0 نزدیک‌تر باشد، افزایش‌های کوچک در $z$ منجر به تغییرات بسیار بزرگتری در $y$ نسبت به زمانی می‌شود که $z$ یک عدد مثبت یا منفی بزرگ باشد. جدول زیر خروجی تابع سیگموئید را برای مقادیر ورودی از 5 تا 10 و همچنین دقت مربوطه مورد نیاز برای ثبت تفاوت‌ها در نتایج نشان می‌دهد.

ورودی	خروجی لجستیک	ارقام دقیق مورد نیاز
۵	۰.۹۹۳	۳
۶	۰.۹۹۷	۳
۷	۰.۹۹۹	۳
۸	۰.۹۹۹۷	۴
۹	۰.۹۹۹۹	۴
۱۰	۰.۹۹۹۹۸	۵

اگر از مربعات زیان برای محاسبه خطاهای تابع سیگموئید استفاده می‌کردید، با نزدیک‌تر شدن خروجی به 0 و 1 ، به حافظه بیشتری برای حفظ دقت مورد نیاز برای ردیابی این مقادیر نیاز داشتید.

در عوض، تابع زیان برای رگرسیون لجستیک، لگاریتم زیان (Log Loss) است. معادله لگاریتم زیان، لگاریتم بزرگی تغییر را برمی‌گرداند، نه فقط فاصله بین داده‌ها و پیش‌بینی. لگاریتم زیان به صورت زیر محاسبه می‌شود:

$\text{لگاریتم زیان} = -\frac{1}{N}\sum_{i=1}^{N} [y_i\log(y_i') + (1 - y_i)\log(1 - y_i')]$

کجا:

$N$ تعداد نمونه‌های برچسب‌گذاری شده در مجموعه داده‌ها است
$i$ شاخص یک مثال در مجموعه داده‌ها است (مثلاً، $(x_3, y_3)$سومین مثال در مجموعه داده‌ها است)
$y_i$ برچسبی برای $i$مثال. از آنجایی که این رگرسیون لجستیک است، $y_i$ یا باید 0 باشه یا 1
$y_i'$ آیا پیش‌بینی مدل شما برای $i$مثال ام (جایی بین ۰ و ۱)، با توجه به مجموعه ویژگی‌های موجود در $x_i$.

برای کسب اطلاعات بیشتر در مورد تلفات ثبت وقایع، روی نماد کلیک کنید.

این شکل از تابع Log Loss، میانگین Log Loss را در تمام نقاط مجموعه داده محاسبه می‌کند. استفاده از mean Log Loss (برخلاف total Log Loss) در عمل مطلوب است، زیرا ما را قادر می‌سازد تا تنظیم اندازه دسته و نرخ یادگیری را از هم جدا کنیم.

منظم‌سازی در رگرسیون لجستیک

منظم‌سازی ، مکانیزمی برای جریمه کردن پیچیدگی مدل در طول آموزش، در مدل‌سازی رگرسیون لجستیک بسیار مهم است. بدون منظم‌سازی، ماهیت مجانبی رگرسیون لجستیک در مواردی که مدل تعداد زیادی ویژگی دارد، باعث می‌شود که مقدار خطا به سمت صفر میل کند. در نتیجه، اکثر مدل‌های رگرسیون لجستیک از یکی از دو استراتژی زیر برای کاهش پیچیدگی مدل استفاده می‌کنند:

منظم‌سازی _L2
توقف زودهنگام : محدود کردن تعداد مراحل آموزشی برای توقف آموزش در حالی که ریزش مو هنوز در حال کاهش است.

مرکز راهنما

قبلی

محاسبه یک احتمال (10 دقیقه)

بعدی

دانش خود را آزمایش کنید (10 دقیقه)

رگرسیون لجستیک: از دست دادن و منظم شدن با مجموعه‌ها، منظم بمانید ذخیره و طبقه‌بندی محتوا براساس اولویت‌های شما.

تلفات لگاریتمی

برای کسب اطلاعات بیشتر در مورد تلفات ثبت وقایع، روی نماد کلیک کنید.

منظم‌سازی در رگرسیون لجستیک

رگرسیون لجستیک: از دست دادن و منظم شدن