التصنيف

تعرض هذه الوحدة كيف يمكن استخدام الانحدار اللوجستي لمهام التصنيف، وتستكشف كيفية تقييم مدى فعالية نماذج التصنيف.

التصنيف

  • في بعض الأحيان، نستخدم الانحدار اللوجستي لمخرجات الاحتمال، ويمكن أن نتراجع في (0، 1)
  • وفي حالات أخرى، سنحدّد قيمة التصنيف الثنائي المنفصل.
  • يُعدّ اختيار الحدّ الأدنى خيارًا مهمًا، ويمكن ضبطه.
  • كيف يتم تقييم نماذج التصنيف؟
  • كيف يتم تقييم نماذج التصنيف؟
  • أحد المقاييس الممكنة: الدقة
    • نسبة التوقعات التي حصلنا عليها
  • تُعدّ الدقة في كثير من الحالات مقياسًا سيئًا أو مضلّلاً
    • في أغلب الأحيان عندما تختلف أنواع الأخطاء
    • تشمل الحالة المعتادة عدم اتّساق الفئات عندما تكون حالات الإضافة الإيجابية أو السلبية نادرة جدًا.
  • بالنسبة إلى المشاكل غير المتوازنة بين الصفوف الدراسية، من المفيد فصل الأنواع المختلفة من الأخطاء.
الإيجابيات
لقد أطلقنا بشكل صحيح اسم الذئب.
لقد حفظنا البلدة.

الإيجابيات الخاطئة
الخطأ: اتصلنا بالذئب بشكل خاطئ.
جميعنا غاضب منّا.

النتائج السلبية
هناك ذئب، ولكننا لم نرصده. لقد تناولنا كل الدجاج.
صحيحة سلبية
بلا ذئب، ولا إنذار.
الجميع بخير.

  • الدقة: (صحيح إيجابي) / (جميع التوقعات المتوقعة)
    • عندما قال النموذج "إيجابية": هل كان ذلك صحيحًا؟
    • الحدس: هل يبكي النموذج "ذئبًا" كثيرًا؟
  • الدقة: (صحيح إيجابي) / (جميع التوقعات المتوقعة)
    • عندما قال النموذج "إيجابية": هل كان ذلك صحيحًا؟
    • الحدس: هل يبكي النموذج "ذئبًا" كثيرًا؟
  • الاسترداد: (صحيح إيجابيات) / (جميع الإيجابيات الفعلية)
    • من بين جميع الإيجابيات الممكنة، ما عدد النماذج التي تعرّف عليها النموذج بشكلٍ صحيح؟
    • حدس: هل فاتته أي ذئاب؟

يُرجى الاطّلاع على الخيارات أدناه.

جرِّب نموذج تصنيف يقسم البريد الإلكتروني إلى فئتين: "الرسائل غير المرغوب فيها" أو "الرسائل غير المرغوب فيها". إذا رفعت حدّ التصنيف، ماذا سيحدث للدقة؟
بالتأكيد.
عادةً ما يؤدي رفع حدّ التصنيف إلى زيادة الدقة، ولكن لا يمكن ضمان زيادة الدقة أحاديًا أثناء زيادة الحدّ.
على الأرجح أن تكون الزيادة.
وبشكل عام، تؤدي زيادة الحدّ الأدنى للتصنيف إلى تقليل النتائج الموجبة الخاطئة، ما يؤدي إلى زيادة الدقة.
من المحتمل أن ينخفض.
وبشكل عام، تؤدي زيادة الحدّ الأدنى للتصنيف إلى تقليل النتائج الموجبة الخاطئة، ما يؤدي إلى زيادة الدقة.
بالتأكيد.
وبشكل عام، تؤدي زيادة الحدّ الأدنى للتصنيف إلى تقليل النتائج الموجبة الخاطئة، ما يؤدي إلى زيادة الدقة.

تمثّل كل نقطة معدّل تنفيذ الإجراء (TP) وFP عند الحد الأدنى للقرار.

منحنى ROC يعرض معدل TP مقابل معدل FP عند حدود تصنيف مختلفة.
  • AUC: "المنطقة تحت منحنى ROC"
  • AUC: "المنطقة تحت منحنى ROC"
  • التفسير:
    • إذا اخترنا موجبًا عشوائيًا وسلبيًا، ما هي احتمالية أن يرتّبه نموذجي بالترتيب الصحيح؟
  • AUC: "المنطقة تحت منحنى ROC"
  • التفسير:
    • إذا اخترنا موجبًا عشوائيًا وسلبيًا، ما هي احتمالية أن يرتّبه نموذجي بالترتيب الصحيح؟
  • الحدس: يقدّم مقياسًا مجمّعًا للأداء على مستوى جميع حدود التصنيف الممكنة
  • يجب أن تكون التوقعات المتعلّقة بالانحدار اللوجستي غير متحيّزة.
    • متوسط التوقعات == متوسط الملاحظات
  • يجب أن تكون التوقعات المتعلّقة بالانحدار اللوجستي غير متحيّزة.
    • متوسط التوقعات == متوسط الملاحظات
  • الانحياز كاناري.
    • لا يعني الانحياز وحده أنّ كل شيء في نظامك مثالي.
    • مع ذلك، نحن نسعى إلى التحقّق من صحّتك.
  • إذا كان لديك انحياز، يعني ذلك أنّك تواجه مشكلة.
    • هل هذه الميزة غير مكتملة؟
    • مسار التعلّم الذي يتضمّن أخطاءً؟
    • عيّن نموذج التدريب المنازع؟
  • لا يمكنك إصلاح الانحياز باستخدام طبقة المعايرة، ثم إصلاحه في النموذج.
  • ابحث عن الانحياز في شرائح البيانات، حيث يمكن أن يؤدي ذلك إلى توجيه التحسينات.
مخطط المعايرة