التأطير: مصطلحات تعلُّم الآلة الرئيسية

ما هو تعلُّم الآلة (الخاضع للإشراف)؟ باختصار، ما يلي:

  • تعلّم أنظمة تعلّم الآلة كيفية دمج الإدخالات لإنشاء توقعات مفيدة حول البيانات التي لم يسبق لها مثيل.

لنتعرّف على مصطلحات تعلُّم الآلة الأساسية.

التصنيفات

التصنيف هو ما نتوقعه، وهو المتغير y في التراجع الخطي البسيط. يمكن أن يكون التصنيف هو سعر القمح في المستقبل، أو نوع الحيوان المعروض في صورة، أو معنى مقطع صوتي، أو أي شيء تقريبًا.

الميزات

الميزة هي متغيّر إدخال، هو المتغيّر x في التراجع الخطي البسيط. يمكن أن يستخدم مشروع بسيط لتعلُّم الآلة ميزة واحدة، أما المشروع الأكثر تطورًا لتعلُّم الآلة، فيمكنه استخدام ملايين الميزات، التي تم تحديدها على النحو التالي:

\[\\{x_1, x_2, ... x_N\\}\]

في مثال أداة الكشف عن المحتوى غير المرغوب فيه، يمكن أن تتضمّن الميزات ما يلي:

  • الكلمات في نص الرسالة الإلكترونية
  • عنوان المُرسِل
  • وقت إرسال الرسالة الإلكترونية
  • رسالة إلكترونية تحتوي على العبارة "خدعة واحدة غريبة"؛

أمثلة

المثال هو نسخة معيّنة من البيانات، x. (نضع x بخط غامق للإشارة إلى أنه متّجه). نقسّم الأمثلة إلى فئتين:

  • أمثلة مصنّفة
  • أمثلة غير مُصنَّفة

يشمل المثال المصنَّف كلاً من الميزات والتصنيف. والمقصود:

  labeled examples: {features, label}: (x, y)

استخدِم أمثلة مصنّفة لتدريب النموذج. في مثال أداة رصد الرسائل غير المرغوب فيها، ستكون الأمثلة المصنّفة عبارة عن رسائل إلكترونية فردية وضع المستخدمون علامة عليها صراحةً تشير إلى أنها "quot;رسائل غير مرغوب فيها" أو "ليست رسائل غير مرغوب فيها&".

على سبيل المثال، يعرض الجدول التالي 5 أمثلة مصنّفة من مجموعة بيانات تحتوي على معلومات حول أسعار الإقامة في كاليفورنيا:

السكك الحديدية MedianAge
(الميزة)
TotalRooms
(الميزة)
TotalBedrooms
(الميزة)
MedianHouseValue
(label)
15 5612 1283 66900
19 7650 1901 80100
17 720 174 85700
14 1501 337 73400
20 1454 326 65500

يحتوي مثال غير مُصنَّف على ميزات ولكنه لا يتضمّن التصنيف. والمقصود:

  unlabeled examples: {features, ?}: (x, ?)

في ما يلي 3 أمثلة غير مُصنَّفة من مجموعة بيانات المسكن نفسها، والتي تستبعد medianHouseValue:

السكك الحديدية MedianAge
(الميزة)
TotalRooms
(الميزة)
TotalBedrooms
(الميزة)
42 1686 361
34 1226 180
33 1077 271

وبعد أن نُدرِّب النموذج باستخدام أمثلة مصنّفة، نستخدم هذا النموذج لتوقّع التصنيف على أمثلة غير مصنّفة. في أداة رصد الرسائل غير المرغوب فيها، تُعدّ الأمثلة غير المصنَّفة رسائل إلكترونية جديدة لم يدرجها المستخدمون حتى الآن.

النماذج

ويحدّد النموذج العلاقة بين الميزات والتصنيف. على سبيل المثال، قد يربط نموذج رصد المحتوى غير المرغوب فيه ميزات معيّنة بشدّة مع "spam;quot;. لتسليط الضوء على مرحلتَين في حياة المستخدم:

  • تعني التدريب إنشاء النموذج أو تعلمه. وهذا يعني أنك تعرض أمثلة مصنّفة للنموذج وتفعّل النموذج في دراسة العلاقات بين الميزات والتصنيف تدريجيًا.

  • ويعني الاستنتاج تطبيق النموذج المدرّب على أمثلة غير مصنّفة. وهذا يعني أنك تستخدم النموذج المدرّب لإجراء توقعات مفيدة (y'). على سبيل المثال، يمكنك توقع medianHouseValue للأمثلة الجديدة غير المصنّفة أثناء الاستنتاج.

التراجع مقابل التصنيف

يتوقع نموذج التراجع القيم المستمرة. على سبيل المثال، تقدم نماذج التراجع توقعات تجيب عن أسئلة مثل ما يلي:

  • ما هي قيمة المنزل في كاليفورنيا؟

  • ما احتمالية نقر المستخدم على هذا الإعلان؟

يتوقع نموذج التصنيف قيمًا منفصلة. على سبيل المثال، تقدم نماذج التصنيف توقعات تجيب عن أسئلة مثل ما يلي:

  • هل رسالة إلكترونية معينة غير مرغوب فيها أو ليست رسائل غير مرغوب فيها؟

  • هل هذه صورة كلب أو قط أو هامستر؟