الانحدار اللوجستي: الخسارة والضبط

فقدان الوظيفة للانحدار اللوجستي

دالة الخسارة للانحدار الخطّي هي الخسارة التربيعية. دالة الخسارة للتراجع اللوجستي هي فقدان السجلّ، وهو كما يلي:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

المكان:

  • \((x,y)\in D\) هي مجموعة البيانات التي تحتوي على العديد من الأمثلة المصنّفة، وهي \((x,y)\) أزواج.
  • \(y\) هو التصنيف في مثال مصنّف. بما أنّ هذه القيمة هي انحدار لوجستي، يجب أن تكون كل قيمة \(y\) إما 0 أو 1.
  • \(y'\) هي القيمة المتوقّعة (بين 0 و1) مع وضع مجموعة الميزات في \(x\).

التنظيم في تراجع لوجستي

التنظيم مهم جدًا في عملية وضع نماذج التراجع اللوجستية. وبدون إجراء عملية ضبط، ستظل الطبيعة غير المتكلّفة الخاصة بالانحدار اللوجستي في الخسارة الناتجة عن الصفر. وبالتالي، تستخدم معظم نماذج التراجع اللوجستي إحدى الاستراتيجيات التالية للحدّ من تعقيدات النموذج:

  • تنظيم L2
  • وهذا يعني الحدّ من عدد الخطوات التدريبية أو معدّل التعلّم في وقت مبكر.

(سنناقش استراتيجية ثالثة، وهي تنظيم L1، في الوحدة الأخيرة.)

لنفترض أنّك حدّدت معرّفًا فريدًا لكل مثال، واربط كل معرّف بميزة خاصة به. وإذا لم تحدِّد دالة تسوية، سيصبح النموذج متوافقًا تمامًا. هذا هو السبب في أن النموذج سيحاول تحويل الخسارة إلى صفر في جميع الأمثلة وعدم الوصول إلى هناك مطلقًا، ما يزيد من أوزان كل ميزة في المؤشر إلى "بلا نهاية" أو "-ما لا نهاية". ويمكن أن يحدث ذلك في البيانات ذات الأبعاد العالية مع الصليب المميّز، عندما تكون هناك كمية كبيرة من الصليب النادرة التي تحدث في مثال واحد فقط.

وسيؤدي استخدام ميزة L2 أو الإيقاف المبكر إلى منع هذه المشكلة.