التصنيف: تحيز التنبؤ

يُعدّ احتساب تحيّز التوقّعات عملية تحقّق سريعة يمكنها رصد المشاكل في النموذج أو بيانات التدريب في وقت مبكر.

يشير انحياز التوقّعات إلى الفرق بين متوسّط التوقّعات التي يقدّمها النموذج ومتوسّط تصنيفات الحقيقة الأساسية في البيانات. يجب أن يتوقّع النموذج الذي تم تدريبه على مجموعة بيانات تتضمّن 5% من الرسائل الإلكترونية غير المرغوب فيها، في المتوسط، أنّ 5% من الرسائل الإلكترونية التي يصنّفها هي رسائل غير مرغوب فيها. بعبارة أخرى، يبلغ متوسط التصنيفات في مجموعة بيانات الحقيقة الأساسية 0.05، ويجب أن يبلغ متوسط توقّعات النموذج 0.05 أيضًا. في هذه الحالة، يكون النموذج غير متحيز في التوقّعات. بالطبع، قد يظل النموذج يعاني من مشاكل أخرى.

إذا كان النموذج يتوقّع أنّ الرسالة الإلكترونية غير مرغوب فيها بنسبة% 50 من الوقت، فهذا يعني أنّ هناك مشكلة في مجموعة بيانات التدريب أو مجموعة البيانات الجديدة التي يتم تطبيق النموذج عليها أو في النموذج نفسه. يشير أي فرق كبير بين المتوسطَين إلى أنّ النموذج يتضمّن بعض الانحياز في التوقّعات.

يمكن أن يحدث انحياز التوقّعات بسبب:

  • الانحيازات أو التشويش في البيانات، بما في ذلك أخذ العينات المتحيّزة لمجموعة التدريب
  • التسوية المفرطة، ما يعني أنّ النموذج تم تبسيطه بشكل مفرط وفقد بعض التعقيد اللازم
  • أخطاء في مسار تدريب النموذج
  • عدم كفاية مجموعة الميزات المقدَّمة للنموذج لأداء المهمة