التصنيف: انحياز التوقّع

يجب أن تكون الانحيازات للانحدار اللوجستي غير متحيّزة. والمقصود:

"متوسط التنبؤ&;; ≈ "متوسط الملاحظات";

انحياز التوقع هو كمية تقيس مدى تباعد هذين المتوسطين. والمقصود:

$$\text{prediction bias} = \text{average of predictions} - \text{average of labels in data set}$$

يشير الانحياز الكبير للتوقعات غير الصفرية إلى وجود خطأ في مكان ما في نموذجك، لأنه يشير إلى أن النموذج غير صحيح بشأن عدد مرات حدوث التصنيفات الإيجابية.

على سبيل المثال، لنفترض أنّنا نعلم أنّ% 1 من جميع الرسائل الإلكترونية تكون غير مرغوب فيها. إذا لم نعرف أي شيء على الإطلاق بخصوص رسالة إلكترونية معينة، علينا أن نتوقع أن هذه الرسالة الإلكترونية من المحتمل أن تكون غير مرغوب فيها بنسبة% 1. بالمثل، يجب أن يتوقع نموذج جيد للمحتوى غير المرغوب فيه أن الرسائل الإلكترونية يُرجح أن تكون غير مرغوب فيها بنسبة 1%. (بعبارة أخرى، إذا كان متوسط الاحتمالات المتوقعة لكل رسالة إلكترونية فردية غير مرغوب فيها، يجب أن تكون النتيجة 1%). وبدلاً من ذلك، إذا كان متوسط التوقعات المتوقّعة بنسبة 20% هو المحتوى غير المرغوب فيه، يمكننا استنتاج أنه يعرض انحيازًا للتوقع.

الأسباب الجذرية المحتملة لانحياز التنبؤ هي:

  • مجموعة ميزات غير مكتملة
  • مجموعة بيانات مزعجة
  • مسار التعلّم الذي يتضمّن أخطاءً
  • عيّنة تدريب متحيّزة
  • تسوية قوية للغاية

قد يتم حثك على تصحيح انحياز التوقّع بعد معالجة النموذج الذي تم تعلّمه، أي من خلال إضافة طبقة معايرة تضبط مخرجات نموذجك للحدّ من انحياز التوقّع. على سبيل المثال، إذا كان انحياز نموذجك +3%، يمكنك إضافة طبقة معايرة تقلل من متوسط التوقع بنسبة 3%. ومع ذلك، تشكّل إضافة طبقة المعايرة فكرة سيئة للأسباب التالية:

  • أنت تعالج هذه المشكلة بدلاً من السبب.
  • لقد أنشأت نظامًا أكثر هدوءًا يجب تحديثه أولاً بأول.

تجنَّب طبقات المعايرة إذا أمكن. غالبًا ما تعتمد المشاريع التي تستخدم طبقات المعايرة عليها، من خلال استخدام طبقات المعايرة لإصلاح جميع أخطائها. وفي النهاية، قد يؤدي الحفاظ على طبقات المعايرة إلى كاثة.

انحياز الحزمة والتوقّع

تتوقّع الانحدار اللوجستي القيمة بين 0 و1. ومع ذلك، فإنّ جميع الأمثلة المصنّفة هي 0 (المعنى، مثلاً، "وليس محتوى غير مرغوب فيه") أو 1 بالضبط (بمعنى، "spam;quot;). ولذلك، عند فحص انحياز التوقّع، لا يمكنك تحديد انحياز التوقّع بدقة استنادًا إلى مثال واحد فقط، وعليك التحقّق من الانحياز في التوقّع من خلال تقديم أمثلة على الحِزم. وهذا يعني أن انحياز التوقع للانحدار اللوجستي لا يبدو منطقيًا إلا عند تجميع أمثلة كافية معًا لتتمكن من مقارنة قيمة متوقعة (على سبيل المثال، 0.392) بالقيم المرصودة (على سبيل المثال، 0.394).

يمكنك إنشاء مجموعات البيانات بالطرق التالية:

  • تقسيم التوقّعات المستهدَفة خطيًا.
  • تشكيل الكميات.

يمكنك الاطّلاع على مخطط المعايرة التالي من نموذج معيّن. تمثّل كل نقطة مجموعة تضم 1,000 قيمة. تحمل المحاور المعاني التالية:

  • ويمثّل المحور س متوسط القيم المتوقّعة في النموذج لهذه الحزمة.
  • يمثّل المحور "ص" المتوسط الفعلي للقيم في مجموعة البيانات لهذه الحزمة.

المحوران هما مقاييس لوغاريتمية.

المحور س هو التنبؤ، والمحور الصادي هو التصنيف. بالنسبة إلى القيم المتوسطة والعالية التي تتضمّن عبارات البحث المقترَحة، يكون انحياز التوقّع بسيطًا. للحصول على قيم منخفضة لتوقّعات البحث، يكون انحياز التوقّع مرتفعًا نسبيًا.

الشكل 8. منحنى الانحياز في التوقعات (المقاييس اللوغاريتمية)

لماذا تكون التوقعات سيئة جدًا بالنسبة إلى جزء من النموذج فقط؟ وإليك بعض الاحتمالات:

  • لا تمثل مجموعة التدريب على نحو كافٍ مجموعات فرعية معيّنة من مساحة البيانات.
  • تكون بعض المجموعات الفرعية من مجموعة البيانات أكثر إزعاجًا من غيرها.
  • النموذج مُنسَّق بشكلٍ مفرط (فكّر في تقليل قيمة lambda).