يتم تدريب نماذج **الانحدار اللوجستي** باستخدام العملية نفسها المستخدَمة لتدريب نماذج **الانحدار الخطي** ، مع تمييزَين رئيسيَّين:
- تستخدم نماذج الانحدار اللوجستي الخسارة اللوغاريتمية كدالة خسارة بدلاً من الخسارة التربيعية.
- إنّ تطبيق التنظيم أمر بالغ الأهمية لمنع التطابق الزائد.
تتناول الأقسام التالية هذين الاعتبارَين بمزيد من التفصيل.
الخسارة اللوغاريتمية
في وحدة الانحدار الخطي، استخدَمت الخسارة التربيعية (المعروفة أيضًا باسم خسارة L2) كـ دالة خسارة. تعمل الخسارة التربيعية بشكل جيد مع نموذج خطي يكون فيه معدّل تغيُّر قيم الناتج ثابتًا. على سبيل المثال، إذا كان لديك النموذج الخطي $y' = b + 3x_1$، في كل مرة تزيد فيها قيمة الإدخال $x_1$ بمقدار 1، تزيد قيمة الناتج $y'$ بمقدار 3.
ومع ذلك، فإنّ معدّل تغيُّر نموذج الانحدار اللوجستي ليس ثابتًا. كما رأيت في مقالة حساب الاحتمال، يكون sigmoid على شكل حرف S بدلاً من أن يكون خطيًا. عندما تكون قيمة لوغاريتم فرص الأفضلية ($z$) أقرب إلى 0، تؤدي الزيادات الصغيرة في $z$ إلى تغييرات أكبر بكثير في $y$ مقارنةً بالحالات التي تكون فيها $z$ عددًا كبيرًا موجبًا أو سالبًا. يوضّح الجدول التالي ناتج الدالة السينية لقيم الإدخال من 5 إلى 10، بالإضافة إلى الدقة المقابلة المطلوبة لرصد الاختلافات في النتائج.
| الإدخال | الناتج اللوجستي | أرقام الدقة المطلوبة |
|---|---|---|
| 5 | 0.993 | 3 |
| 6 | 0.997 | 3 |
| 7 | 0.999 | 3 |
| 8 | 0.9997 | 4 |
| 9 | 0.9999 | 4 |
| 10 | 0.99998 | 5 |
إذا استخدَمت الخسارة التربيعية لحساب الأخطاء في الدالة السينية، وكلما اقترب الناتج أكثر من 0 و1، ستحتاج إلى المزيد من الذاكرة للحفاظ على الدقة اللازمة لتتبُّع هذه القيم.
بدلاً من ذلك، تكون دالة الخسارة للانحدار اللوجستي هي الخسارة اللوغاريتمية. تعرض معادلة الخسارة اللوغاريتمية لوغاريتم حجم التغيير، بدلاً من مجرد المسافة من البيانات إلى التنبؤ. يتم حساب الخسارة اللوغاريتمية على النحو التالي:
$\text{Log Loss} = -\frac{1}{N}\sum_{i=1}^{N} [y_i\log(y_i') + (1 - y_i)\log(1 - y_i')]$
حيث:
- \(N\) هو عدد الأمثلة المصنّفة في مجموعة البيانات
- \(i\) هو فهرس مثال في مجموعة البيانات (على سبيل المثال، \((x_3, y_3)\) هو المثال الثالث في مجموعة البيانات)
- \(y_i\) هو تصنيف المثال رقم \(i\)في مجموعة البيانات. بما أنّ هذا انحدار لوجستي، يجب أن تكون قيمة إما 0 أو 1. \(y_i\)
- \(y_i'\) هو تنبؤ نموذجك للمثال رقم \(i\) (في مكان ما بين 0 و1)، بالنظر إلى مجموعة الميزات في \(x_i\).
التنظيم في الانحدار اللوجستي
إنّالتنظيم، وهو آلية لـ معاقبة تعقيد النموذج أثناء التدريب، مهم للغاية في نمذجة الانحدار اللوجستي. بدون التنظيم، فإنّ الطبيعة المقاربة للانحدار اللوجستي ستستمر في دفع الخسارة نحو 0 في الحالات التي يكون فيها النموذج يحتوي على عدد كبير من الميزات. نتيجةً لذلك، تستخدم معظم نماذج الانحدار اللوجستي إحدى الاستراتيجيتَين التاليتَين لتقليل تعقيد النموذج:
- التنظيم L2
- الإيقاف المبكر: تحديد عدد خطوات التدريب لإيقاف التدريب بينما لا تزال الخسارة في انخفاض.