الانحدار اللوجستي: الخسارة والتسوية

يتم تدريب نماذج الانحدار اللوجستي باستخدام العملية نفسها التي يتم بها تدريب نماذج الانحدار الخطي، مع اختلافين رئيسيين:

تتناول الأقسام التالية هذين الاعتبارين بمزيد من التفصيل.

الخسارة اللوغاريتمية

في وحدة الانحدار الخطي، استخدمت الخطأ التربيعي (يُعرف أيضًا باسم خطأ L2) كـ دالة الخطأ. يعمل الخطأ التربيعي بشكل جيد مع نموذج خطي يكون فيه معدل التغيير في قيم الإخراج ثابتًا. على سبيل المثال، في النموذج الخطي $y' = b + 3x_1$، في كل مرة تزيد فيها قيمة الإدخال $x_1$ بمقدار 1، تزيد قيمة الإخراج $y'$ بمقدار 3.

ومع ذلك، فإنّ معدّل التغيّر في نموذج الانحدار اللوجستي ليس ثابتًا. كما رأيت في حساب الاحتمالية، فإن منحنى sigmoid هو منحنى على شكل حرف S وليس خطيًا. عندما تكون قيمة نسبة الاحتمالات ($z$) أقرب إلى 0، تؤدي الزيادات الصغيرة في $z$ إلى تغييرات أكبر بكثير في $y$ مقارنةً بالحالات التي تكون فيها $z$ عددًا موجبًا أو سالبًا كبيرًا. يعرض الجدول التالي ناتج الدالة السينية لقيم الإدخال من 5 إلى 10، بالإضافة إلى الدقة المطلوبة لتسجيل الاختلافات في النتائج.

إدخال الناتج اللوجستي عدد الأرقام المطلوبة للدقة
5 0.993 3
6 0.997 3
7 0.999 3
8 0.9997 4
9 0.9999 4
10 0.99998 5

إذا استخدمت دالة الخطأ التربيعي لحساب الأخطاء في الدالة السينية، ستحتاج إلى المزيد من الذاكرة للحفاظ على الدقة اللازمة لتتبُّع هذه القيم، وذلك كلما اقترب الناتج من 0 و1.

بدلاً من ذلك، فإنّ دالة الخسارة للانحدار اللوجستي هي الخسارة اللوغارتمية. تعرض معادلة Log Loss اللوغاريتم الخاص بمقدار التغيير، وليس فقط المسافة من البيانات إلى التوقّع. يتم احتساب Log Loss على النحو التالي:

$\text{Log Loss} = -\frac{1}{N}\sum_{i=1}^{N} y_i\log(y_i') + (1 - y_i)\log(1 - y_i')$

where:

  • \(N\) هو عدد الأمثلة المصنَّفة في مجموعة البيانات
  • \(i\) هو فهرس مثال في مجموعة البيانات (مثل \((x_3, y_3)\) هو المثال الثالث في مجموعة البيانات)
  • \(y_i\) هو تصنيف المثال رقم \(i\). بما أنّ هذا هو الانحدار اللوجستي، يجب أن تكون قيمة \(y_i\) إما 0 أو 1.
  • \(y_i'\) هي القيمة التي يتوقّعها النموذج للمثال رقم \(i\) (تتراوح بين 0 و1)، وذلك بالنظر إلى مجموعة السمات في \(x_i\).

التسوية في الانحدار اللوجستي

التسوية، وهي آلية لمعاقبة تعقيد النموذج أثناء التدريب، مهمة للغاية في نمذجة الانحدار اللوجستي. بدون التسوية، ستستمر الطبيعة التقاربية للانحدار اللوجستي في دفع الخسارة نحو 0 في الحالات التي يحتوي فيها النموذج على عدد كبير من الميزات. نتيجةً لذلك، تستخدم معظم نماذج الانحدار اللوجستي إحدى الاستراتيجيتَين التاليتَين لتقليل تعقيد النموذج: