مسرد مصطلحات التعلم الآلي: غابات القرارات

تحتوي هذه الصفحة على مصطلحات مسرد مصطلحات غابات القرارات. للاطّلاع على جميع مصطلحات مسرد المصطلحات، انقر هنا.

جيم

تحليل عيّنات السمات

#df

أسلوب لتدريب مجموعة متنوعة من القرارات التي تأخذ فيها كل شجرة قرارات في الاعتبار مجموعة فرعية عشوائية فقط من الميزات عند معرفة الشرط. بشكل عام، يتم استخدام عيّنات من مجموعة فرعية مختلفة من الميزات لكل عقدة. في المقابل، عند تدريب شجرة قرارات بدون أخذ عينات من السمات، يتم أخذ جميع الخصائص الممكنة في كل جزء في الاعتبار.

شرط محاذاة المحور

#df

في شجرة القرارات، هي شرط تتضمّن ميزة واحدة فقط. على سبيل المثال، إذا كانت المنطقة ميزة، فإن ما يلي شرط محاذاة المحور:

area > 200

على عكس شرطة مائلة.

B

الأكياس

#df

يشير ذلك المصطلح إلى طريقة لتدريب مجموعة حيث يتم تدريب كل نموذج مكوّن على مجموعة فرعية عشوائية من أمثلة التدريب المأخوذة كعيّنات مع الاستبدال. على سبيل المثال، الغابة العشوائية هي مجموعة من أشجار القرارات المُدرَّبة باستخدام الأكياس.

يشير مصطلح packing إلى مصطلح bootstrap aggregating.

شرط ثنائي

#df

في شجرة القرار، يكون شرط له نتيجتان محتملتان فقط، تكون عادةً نعم أو لا. على سبيل المثال، الشرط التالي هو شرط ثنائي:

temperature >= 100

تباين مع شرط غير ثنائي.

C

الشرط

#df

في شجرة القرار، أي عقدة تقيّم تعبيرًا. على سبيل المثال، يحتوي الجزء التالي من شجرة القرار على شرطين:

شجرة قرارات تتألف من شرطَين: (x > 0) و(y > 0).

تسمى الحالة أيضًا بالتقسيم أو الاختبار.

شرط التباين مع ورقة الشجر.

انظر أيضًا:

D

غابة القرارات

#df

نموذج يتم إنشاؤه من أشجار قرارات متعددة. تتنبأ غابة القرارات من خلال تجميع تنبؤات أشجار القرارات. تشمل الأنواع الشائعة من غابات القرارات الغابات العشوائية والغابات المعزَّزة بالتدرج.

شجرة القرارات

#df

يشير ذلك المصطلح إلى نموذج تعلُّم خاضع للإشراف يتألّف من مجموعة من conditions وconditions التي يتم تنظيمها بشكل هرمي. على سبيل المثال، فيما يلي شجرة قرارات:

شجرة قرارات تتألف من أربعة شروط مرتّبة
          هرمية، تؤدي إلى خمس أوراق.

E

الإنتروبيا

#df

في نظرية المعلومات، هي وصف لمدى عدم توقّع أي توزيع للاحتمالية. وبدلاً من ذلك، يتم تعريف القصور أيضًا على أنه مقدار المعلومات التي يحتوي عليها كل مثال. يحتوي التوزيع على أعلى قصور ممكن عندما تكون جميع قيم المتغير العشوائي متساوية.

قصور أي مجموعة بقيمتين محتملتين "0" و "1" (على سبيل المثال، التصنيفات في مشكلة التصنيف الثنائي) له الصيغة التالية:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

المكان:

  • H هو القصور.
  • تمثّل القيمة p الكسر من مثال "1".
  • q هو الكسر من "0" مثال. لاحظ أن q = (1 - p)
  • log هو عادةً السجلّ 2. في هذه الحالة، تكون وحدة القصور بعض الشيء.

على سبيل المثال، لنفترض ما يلي:

  • 100 مثال تحتوي على القيمة "1"
  • 300 مثال تحتوي على القيمة "0"

وبالتالي، تكون قيمة القصور:

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 بت لكل مثال

فالمجموعة المتوازنة بشكل مثالي (على سبيل المثال، 200 "0" و200 "1") ستحتوي على قصور 1.0 بت لكل مثال. وكلما أصبحت المجموعة غير متوازنة، يتحرك قصورها نحو 0.0.

في أشجار القرارات، يساعد القصور في صياغة تحصيل المعلومات لمساعدة التقسيم في اختيار الشروط خلال نمو شجرة قرارات التصنيف.

مقارنة القصور مع:

وعادة ما يُطلق على القصور على قصور شانون.

F

أهمية الميزات

#df

مرادف للتغيّر ذي الأهمية المتغيّرة.

G

عُطل الجيني

#df

مقياس يشبه القصور. تستخدم المقسّمات قيمًا مشتقة من عتاب الجيني أو القصور لإنشاء شروط لتصنيف أشجار القرارات. يتم اشتقاق تحصيل المعلومات من القصور. لا يوجد مصطلح مكافئ مقبول عالميًا للمقياس المشتق من شوائب الجيني، ومع ذلك، فإن هذا المقياس غير المسمى لا يقل أهمية عن الحصول على المعلومات.

ويُطلق على عُطل الجيني أيضًا اسم مؤشر جيني، أو ببساطة جيني.

الأشجار المُحسّنة للتدرّج (GBT)

#df

نوع من مجموعة تداخلات القرارات التي:

تعزيز التدرّج

#df

يشير ذلك المصطلح إلى خوارزمية تدريب يتم فيها تدريب النماذج الضعيفة لتحسين جودة أي نموذج قوي بشكل متكرر. على سبيل المثال، يمكن أن يكون النموذج الضعيف نموذج شجرة قرارات خطي أو صغير. ويصبح النموذج القوي مجموع كل النماذج الضعيفة التي تم تدريبها سابقًا.

في أبسط أشكال تعزيز التدرج، في كل تكرار، يتم تدريب نموذج ضعيف للتنبؤ بالتدرج المفقود للنموذج القوي. بعد ذلك، يتم تعديل ناتج النموذج القوي من خلال طرح التدرج المتنبأ به، على غرار انحدار التدرج.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

المكان:

  • $F_{0}$ هو نموذج البداية القوي.
  • $F_{i+1}$ هو النموذج القوي التالي.
  • $F_{i}$ هو النموذج القوي الحالي.
  • $\xi$ هي قيمة بين 0.0 و1.0 تُسمّى shrinkage، وهي تشبه معدّل التعلّم في خوارزمية انحدار التدرج.
  • $f_{i}$ هو النموذج الضعيف الذي تم تدريبه على التنبؤ بتدرج الخسارة بقيمة $F_{i}$.

وتشمل الاختلافات الحديثة لتعزيز التدرج أيضًا المشتق الثاني (هسيان) لفقدان التدرج في حسابها.

تُستخدم أشجار القرار عادةً كنماذج ضعيفة في تعزيز التدرج. يمكنك الاطّلاع على مقالة الأشجار المحسَّنة (القرار).

I

مسار الاستنتاج

#df

في شجرة القرار، أثناء الاستنتاج، يقطع المسار مثال معيّن من الجذر إلى شروط أخرى، وينتهي بـ ورقة. على سبيل المثال، في شجرة القرار التالية، تُظهر الأسهم الأكثر سمكًا مسار الاستنتاج لمثال بقيم الميزة التالية:

  • × = 7
  • ص = 12
  • z = -3

ينتقل مسار الاستنتاج في الرسم التوضيحي التالي عبر ثلاثة شروط قبل الوصول إلى ورقة الشجر (Zeta).

شجرة قرارات تتألف من أربعة شروط وخمس أوراق.
          شرط الجذر هو (x > 0). بما أنّ الإجابة "نعم"، ينتقل مسار الاستنتاج من الجذر إلى الشرط التالي (y > 0).
          بما أنّ الإجابة "نعم"، ينتقل مسار الاستنتاج إلى الشرط التالي (z > 0). بما أنّ الإجابة هي لا، ينتقل مسار الاستنتاج
          إلى العقدة الطرفية، وهي الورقة (Zeta).

توضح الأسهم الثلاثة السميكة مسار الاستنتاج.

تحصيل المعلومات

#df

في غابات القرارات، الفرق بين القصور للعقدة والمجموع الترجيح (حسب عدد الأمثلة) للقصور في الأجزاء الثانوية. قصور أي جزء هو قصور الأمثلة في ذلك الجزء.

على سبيل المثال، ضع في الاعتبار قيم القصور التالية:

  • قصور الجزء الأصلي = 0.6
  • قصور لعقدة فرعية واحدة مع 16 مثالاً ذا صلة = 0.2
  • قصور لعقدة فرعية أخرى مع 24 مثالًا ذا صلة = 0.1

لذا، فإن 40٪ من الأمثلة موجودة في عقدة فرعية واحدة و60٪ في العقدة الفرعية الأخرى. لذلك:

  • مجموع القصور المُرجّح للعُقد الفرعية = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

إذًا، يكون تحصيل المعلومات كما يلي:

  • تحصيل المعلومات = قصور الجزء الأصلي - مجموع القصور المُرجّح للعُقد الفرعية
  • تحصيل المعلومات = 0.6 - 0.14 = 0.46

تسعى معظم التقسيمات إلى وضع شروط تزيد من تحصيل المعلومات إلى أقصى حدّ.

حالة محدّدة

#df

في شجرة القرار، يشير ذلك إلى شرط يختبر توفُّر عنصر واحد في مجموعة من العناصر. على سبيل المثال، في ما يلي شرط محدد:

  house-style in [tudor, colonial, cape]

أثناء الاستنتاج، إذا كانت قيمة feature نمط المنزل هي tudor أو colonial أو cape، يتم تقييم هذا الشرط إلى "نعم". إذا كانت قيمة ميزة نمط المنزل شيئًا آخر (على سبيل المثال، ranch)، فسيتم تقييم هذا الشرط إلى "لا".

تؤدي الشروط المضمّنة عادةً إلى أشجار قرارات أكثر كفاءة من الشروط التي تختبر ميزات ذات الترميز لمرة واحدة.

L

ورقة نبات

#df

أي نقطة نهاية في شجرة قرارات. على عكس الحالة، لا تُجري الورقة اختبارًا. بدلاً من ذلك، يعتبر شكل ورقة الشجر تنبؤًا محتملاً. الورقة هي أيضًا العقدة الطرفية لمسار الاستنتاج.

على سبيل المثال، تحتوي شجرة القرارات التالية على ثلاث أوراق:

شجرة قرار بشرطين يؤديان إلى ثلاث أوراق.

N

العقدة (شجرة القرار)

#df

في شجرة القرار، أي شرط أو ورقة.

شجرة قرار ذات شرطين وثلاث أوراق.

شرط غير ثنائي

#df

شرط يحتوي على أكثر من نتيجتين محتملتين. على سبيل المثال، يحتوي الشرط غير الثنائي التالي على ثلاث نتائج محتملة:

يشير ذلك المصطلح إلى شرط (number_of_legs = ?) يؤدي إلى ثلاث نتائج محتمَلة. تؤدي إحدى النتائج (number_of_legs = 8) إلى ورقة شجر تسمى العنكبوت. وتؤدي النتيجة الثانية (number_of_legs = 4) إلى ورقة شجر اسمها "كلب". وتؤدي النتيجة الثالثة (number_of_legs = 2) إلى ورقة شجر تُسمى "البطريق".

O

شرط مائل

#df

في شجرة القرار، يشير ذلك إلى شرط يتضمّن أكثر من ميزة واحدة. على سبيل المثال، إذا كان الارتفاع والعرض كلتا الميزتين، فإن ما يلي يعد شرطًا مائلاً:

  height > width

تباين مع شرط محاذاة المحور.

تقييم خارج الحقيبة (تقييم OOB)

#df

آلية لتقييم جودة غابات القرارات عن طريق اختبار كل شجرة قرارات بالاستناد إلى أمثلة لم يتم استخدامها أثناء التدريب المتعلق بشجرة القرار تلك على سبيل المثال، في المخطط التالي، لاحظ أن النظام يدرّب كل شجرة قرارات على حوالي ثلثي الأمثلة ثم يقيّمها مقابل ثلث الأمثلة المتبقية.

غابة قرارات مؤلفة من ثلاث أشجار قرار.
          تتدرب شجرة قرارات على ثلثي الأمثلة، ثم تستخدم الثلث المتبقي لتقييم OOB.
          يتم تدريب شجرة قرارات ثانية على ثلثَي أمثلة مختلفين عن شجرة القرار السابقة، ثم تستخدم ثلثًا مختلفًا لتقييم شجرة القرارت عن شجرة القرار السابقة.

إنّ التقييم الذي يتم خارج الحقيبة هو عبارة عن تقريب فعال ومحافظ من الناحية الحسابية لآلية التحقّق المتبادل. في عملية التحقق المتقاطع، يتم تدريب نموذج واحد لكل جولة تحقق متقاطع (على سبيل المثال، يتم تدريب 10 نماذج على التحقق المتقاطع من 10 طيات). ومن خلال تقييم OOB، يتم تدريب نموذج واحد. بما أنّ عملية التعبئة تحجب بعض البيانات من كل شجرة أثناء التدريب، يمكن لتقييم OOB استخدام هذه البيانات لتقدير عملية التحقّق من الصحة المتبادلة.

P

أهمية متغير التبديل

#df

يشير ذلك المصطلح إلى نوع من أهمية المتغيّر يقيّم الزيادة في خطأ توقّع نموذج معيّن بعد تبديل قيم الميزة. تُعد أهمية متغير التبديل مقياسًا لا يرتبط بالنموذج.

R

غابة عشوائية

#df

يشير ذلك المصطلح إلى مجموعة من أشجار القرارات التي يتم فيها تدريب كل شجرة قرارات باستخدام تشويش عشوائي محدّد، مثل الوصول.

تعد مجموعات الغابات العشوائية نوعًا من مجموعة غابات القرارات.

الجذر

#df

عقدة البداية (أول شرط) في شجرة قرارات. من خلال الاصطلاح، تضع الرسوم البيانية الجذر في الجزء العلوي من شجرة القرار. مثلاً:

شجرة قرار ذات شرطين وثلاث أوراق. شرط البدء (x > 2) هو الجذر.

S

أخذ العينات مع الاستبدال

#df

يشير ذلك المصطلح إلى طريقة لاختيار العناصر من بين مجموعة من العناصر المرشحة ويمكن فيها اختيار العنصر نفسه عدة مرات. تعني عبارة "مع الاستبدال" أنه بعد كل تحديد، يتم إرجاع العنصر المحدد إلى مجموعة العناصر المرشحة. تعني الطريقة العكسية، أخذ العينات بدون استبدال، أنه لا يمكن اختيار العنصر المرشح مرة واحدة فقط.

على سبيل المثال، ضع في الاعتبار مجموعة الفاكهة التالية:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

لنفترض أنّ النظام يختار fig عشوائيًا كأول عنصر. في حال استخدام أخذ العينات مع الاستبدال، يختار النظام العنصر الثاني من المجموعة التالية:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

نعم، هذه هي المجموعة نفسها كما في السابق، لذا من المحتمل أن يختار النظام fig مجددًا.

في حال استخدام أخذ العينات بدون استبدال، لا يمكن اختيار العيّنة مرة أخرى بعد اختيارها. على سبيل المثال، إذا اختار النظام fig كعيّنة الأولى بشكل عشوائي، لن تتمكّن من اختيار fig مجددًا. لذلك، يختار النظام العينة الثانية من المجموعة (المخفضة) التالية:

fruit = {kiwi, apple, pear, cherry, lime, mango}

الانكماش

#df

مَعلمة فائقة في تعزيز التدرّج تتحكّم في فرط التخصيص. ويشبه الانكماش في تعزيز التدرج معدّل التعلّم في خوارزمية انحدار التدرج. الانكماش هو قيمة عشرية بين 0.0 و1.0. تقلل قيمة الانكماش المنخفضة من فرط التوافق أكثر من قيمة انكماش أكبر.

split

#df

في شجرة القرارات، يكون اسم آخر لشرط آخر.

أداة التقسيم

#df

إنّ سلسلة الإجراءات (والخوارزمية) المسؤولة عن العثور على أفضل شرط لكل عقدة أثناء تدريب شجرة قرارات

T

اختبار

#df

في شجرة القرارات، يكون اسم آخر لشرط آخر.

الحد الأدنى (لأشجار القرارات)

#df

في شرط محاذاة المحور، القيمة التي تتم مقارنة ميزة بها. على سبيل المثال، 75 هي قيمة الحد في الشرط التالي:

grade >= 75

V

الأهمية المتغيرة

#df

مجموعة من التقييمات التي تشير إلى الأهمية النسبية لكل ميزة بالنسبة إلى النموذج.

على سبيل المثال، يمكنك استخدام شجرة قرارات تقدّر أسعار المنازل. افترض أن شجرة القرار هذه تستخدم ثلاث ميزات: الحجم والعمر والأسلوب. إذا تم حساب مجموعة من الأهمية المتغيرة للميزات الثلاث لتكون {size=5.8, age=2.5, style=4.7}، فإن الحجم يكون أكثر أهمية لشجرة القرار من العمر أو النمط.

هناك مقاييس مختلفة للأهمية المتغيرة، والتي يمكن أن تُعلم خبراء تعلّم الآلة بالجوانب المختلفة للنماذج.

واط

حكمة الجمهور

#df

فكرة أن متوسط آراء أو تقديرات مجموعة كبيرة من الأشخاص ("الجمهور") يؤدي غالبًا إلى نتائج جيدة بشكل مدهش. على سبيل المثال، ضع في اعتبارك لعبة يخمن فيها الأشخاص عدد حبوب الهلام المعبأة في وعاء كبير. على الرغم من أن معظم التخمينات الفردية ستكون غير دقيقة، إلا أن متوسط جميع التخمينات قد ثبت تجريبيًا أنه قريب بشكل مفاجئ من العدد الفعلي لحبوب الجيلي الموجودة في الوعاء.

الرموز هي نسخة برمجية تناظرية لحكمة الجمهور. حتى إذا كانت النماذج الفردية تقدم تنبؤات غير دقيقة إلى حد كبير، فإن متوسط تنبؤات العديد من النماذج غالبًا ما يؤدي إلى إنشاء تنبؤات جيدة بشكل مدهش. على سبيل المثال، على الرغم من أنّ شجرة قرارات فردية قد تتوقّع توقعات سيئة، غالبًا ما تقدّم مجموعة متنوعة من القرارات عبارات بحث جيدة.