مسرد مصطلحات تعلُم الآلة: غابات القرارات

تحتوي هذه الصفحة على عبارات مسرد المصطلحات المتعلقة بغابات القرار. للاطّلاع على كل عبارات مسرد المصطلحات، انقر هنا.

A

أخذ العينات من السمات

#df

هناك استراتيجية لتدريب غابة القرار التي تعتبر فيها شجرة القرارات مجموعة فرعية عشوائية من الميزات المحتملة عند التعرّف على الحالة. بشكل عام، تستند مجموعة فرعية مختلفة من الميزات إلى عيّنة من العقدة. وفي المقابل، عند تدريب شجرة القرارات بدون أخذ عينات من السمات، يتم أخذ جميع الميزات المحتملة في الاعتبار لكل عقدة.

شرط تمت محاذاته حول المحور

#df

في شجرة القرارات، الحالة التي تشمل ميزة واحدة فقط. على سبيل المثال، إذا كانت المنطقة ميزة، يكون الشرط التالي متوافقًا مع المحور:

area > 200

التباين مع شرط مائل.

مليار

حقائب

#df

طريقة لتدريب مجموعة يتم تدريب كل نموذج فيها على مجموعة فرعية عشوائية من الأمثلة التدريبية مع أخذ عيّنة من بديلة. على سبيل المثال، غابة عشوائية هي مجموعة من أشجار القرار المدرّبة على أرض الواقع.

المصطلح bagging هو اختصار لـ bootstrap aggreatting.

شرط ثنائي

#df

في شجرة القرارات، الحالة التي تحتوي على نتيجتين محتملتين فقط، عادةً نعم أو لا. على سبيل المثال، ينطبق الشرط الثنائي على النحو التالي:

temperature >= 100

التباين باستخدام شرط غير ثنائي.

C

الشرط

#df

في شجرة القرارات، أي عقدة تقيِّم تعبيرًا. على سبيل المثال، يحتوي الجزء التالي من شجرة القرار على شرطين:

شجرة القرارات تتكون من شرطين: (x > 0) و
          (y > 0).

يُسمى الشرط أيضًا التقسيم أو اختبار.

شرط التباين باستخدام ورقة.

انظر أيضًا:

D

مجموعة قرارات

#df

نموذج تم إنشاؤه من عدة شجرة قرارات. وتشكّل مجموعة قرارات القرار توقّعًا عن طريق تجميع التوقعات المتعلّقة بأشجار القرار. تشمل الأنواع الشائعة من غابات القرارات ما يلي: الغابات العشوائية والأشجار ذات العناصر المتدرّجة.

شجرة القرارات

#df

نموذج تعلُّم خاضع للإشراف يتألف من مجموعة من الشروط والمغادرة يتم ترتيبها بشكل هرمي. على سبيل المثال، في ما يلي شجرة القرارات:

شجرة قرارات تتكون من أربعة شروط مرتَّبة
          هرميًا تؤدي إلى خمس أوراق.

E

الإنتروبيا

#df

في نظرية المعلومات، وصف لكيفية توزيع غير محتمل للاحتمال، بدلاً من ذلك، يتم تعريف الإنتروبيا بكمية المعلومات التي يحتوي عليها كل مثال. يحصل التوزيع على أعلى قيمة ممكنة للترميز عندما تساوي جميع قيم المتغيّر العشوائي.

يتم إنشاء إنتروبيا المجموعة ذات القيمتين المحتملتين "0" و "1" (على سبيل المثال، التصنيفات في مشكلة التصنيف الثنائي) بالصيغة التالية:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

حيث:

  • الإنتروبيا H.
  • القيمة p هي جزء من أمثلة "1".
  • q هو جزء من الأمثلة على "0". لاحظ أن q = (1 - p)
  • log هو السجلّ بشكل عام2. في هذه الحالة، تكون وحدة إنتروبيا قليلاً.

على سبيل المثال، لنفترض ما يلي:

  • يحتوي 100 مثال على القيمة "1".
  • يحتوي 300 مثال على القيمة "0".

ولذلك، تكون قيمة الإنتروبيا هي:

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75) log2(0.75) = 0.81 بت

مجموعة متوازنة تمامًا (على سبيل المثال، 200 "0" و200 "1") ستحتوي على إنتروبيا بقيمة 1.0 بت لكل مثال. وعندما تصبح المجموعة أكثر توازنًا، ينتقل إنتروبيا إلى المستوى 0.0.

في أشجار القرار، تساعد إنتروبيا في صياغة الحصول على المعلومات لمساعدة الفلتر على اختيار الشروط أثناء نمو شجرة قرارات التصنيف.

مقارنة الإنتروبيا بما يلي:

غالبًا ما يُطلق على الإنتروبيا اسم إناء شانون.

F

أهم الميزات

#df

مرادف للأهمية المتغيّرة.

G

نوة غيني

#df

مقياس مشابه للإنتروبيا. المقسِّمون يستخدمان قيمًا مشتقة من غياب جيني أو إنتروبيا لإنشاء شروط لتصنيف أشجار القرار. مصدر المعلومات مشتق من الإنتروبيا. ما مِن عبارة مكافئة مقبولة عالميًا للمقياس المُستمدّ من مقياس جيني. ومع ذلك، فإنّ هذا المقياس بدون اسم لا يقل أهمية عن اكتساب المعلومات.

ويُسمى "محور جيني" أيضًا باسم فهرس gini أو ببساطة gini.

تعزيز التدرّج الهرمي

#df

خوارزمية تدريب يتم فيها تدريب النماذج الضعيفة على تحسين جودة نموذج قوي (مخفّضة من الخسارة) على سبيل المثال، قد يكون النموذج الضعيف نموذجًا خطيًا أو صغيرًا لشجرة القرارات. يصبح النموذج القوي مجموع جميع النماذج الضعيفة المدرَّبة سابقًا.

في أبسط أشكال تعزيز التدرّج، في كل تكرار، يتم تدريب نموذج ضعيف لتوقّع التدرّج الخاسر للنموذج القوي. بعد ذلك، يتم تعديل مخرجات النموذج الفعّال من خلال طرح التدرّج المتوقّع، الذي يشبه النزّل المتدرّج.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

حيث:

  • ويُعدّ $F_{0}$ نموذجًا قويًا للبدء.
  • $F_{i+1}$ هي النموذج الفعّال التالي.
  • $F_{i}$ هو النموذج الفعّال الحالي.
  • $\xi$ هي قيمة تتراوح بين 0.0 و1.0 تُعرف باسم Shrinkage، وهي قيمة تماثل معدّل التعلّم في نزول متدرّج.
  • $f_{i}$ هو النموذج الضعيف الذي يتم تدريبه لتوقّع تدرّج الخسائر بقيمة $F_{i}$.

تشمل الصيغ الحديثة في تعزيز التدرج أيضًا المشتق الثاني (الهسيان) من الخسارة في العمليات الحسابية.

شجرات القرار تُستخدم عادةً كنماذج ضعيفة في تعزيز التدرّج. يُرجى الاطّلاع على شجرة تعزيز (القرار التدريجي).

أشجار متدرجة (قرار) (GBT)

#df

نوع من غابة القرارات حيث:

I

مسار الاستنتاج

#df

في شجرة القرارات، خلال الاستنتاج، يتخذ المسار مثال معيّنًا من الجذر إلى شروط أخرى، مع إنهاء أوراق الشجر. على سبيل المثال، في شجرة القرار التالية، تعرض الأسهم السميكة مسار الاستنتاج لمثال مع قيم الميزات التالية:

  • x = 7
  • y = 12
  • z = -3

ينتقل مسار الاستنتاج في الرسم التوضيحي التالي عبر ثلاثة شروط قبل الوصول إلى ورقة الشجر (Zeta).

شجرة قرارات تتكون من أربعة شروط وخمس أوراق.
          الشرط الجذري هو (x > 0). بما أنّ الإجابة هي "نعم"، ينتقل مسار الاستنتاج من الجذر إلى الشرط التالي (y > 0).
          بما أنّ الإجابة هي "نعم"، ينتقل مسار الاستنتاج إلى الشرط التالي (z > 0). بما أنّ الإجابة هي "لا"، ينتقل مسار الاستنتاج إلى العقدة الطرفية الخاصة به، وهي رمز ورقة الشجر (Zeta).

تعرض الأسهم الثلاثة السلسة مسار الاستنتاج.

اكتساب المعلومات

#df

في غازات القرارات، الفرق بين إنتروبيا العُقدة والمجموع الترجيحي (حسب عدد الأمثلة) مجموع إنتروبيا العُقد الثانوية. إنتروبيا العقدة هي إنتروبيا الأمثلة على تلك العقدة.

على سبيل المثال، ضع في الاعتبار قيم الإنتروبيا التالية:

  • إنتروبيا العُقدة الرئيسية = 0.6
  • إنتروبيا لعقدة فرعية واحدة مع 16 مثالاً ذا صلة = 0.2
  • إنتروبيا عقدة فرعية أخرى مع 24 مثالاً ذا صلة = 0.1

لذلك، تكون 40% من الأمثلة في عقدة فرعية واحدة و60% في عقدة فرعية أخرى. لذلك:

  • مجموع الإنتروبي المُجمَّع للعُقد الثانوية = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

وبالتالي، فإنّ اكتساب المعلومات هو:

  • اكتساب المعلومات = إنتروبيا العُقدة الرئيسية - مجموع إنتروبيا المرجَّح
  • اكتساب المعلومات = 0.6 - 0.14 = 0.46

يسعى معظم أدوات التقسيم إلى إنشاء شروط تزيد من المعلومات.

شرط محدّد

#df

في شجرة القرارات، الحالة التي تختبر توفّر عنصر واحد في مجموعة من العناصر. على سبيل المثال، في ما يلي شرط محدّد:

  house-style in [tudor, colonial, cape]

أثناء الاستنتاج، إذا كانت قيمة ميزة النمط المنزلي هي tudor أو colonial أو cape، يتم تقييم هذا الشرط على "نعم". إذا كانت قيمة ميزة بنمط المنزل أمر آخر (مثل ranch)، يتم تقييم هذا الشرط على "لا".

وعادةً ما تؤدي الشروط المحدّدة إلى تحقيق أشجار قرارات أكثر كفاءة من الشروط التي تختبر ميزات ترميز واحد.

L

ورقة نبات

#df

أي نقطة نهاية في شجرة القرارات. على عكس الحالة، لا تُجري ورقة الشجر اختبارًا. إنّ ورقة الشجر هي التوقّع المحتمل. ورقة الشجر هي أيضًا الوحدة الطرفية للعقدة لمسار الاستنتاج.

على سبيل المثال، تحتوي شجرة القرارات التالية على ثلاث أوراق:

شجرة قرارات لها شرطان يؤديان إلى ثلاث أوراق.

N

عقدة (شجرة القرار)

#df

في شجرة القرارات، أي شرط أو ورقة شجر.

شجرة قرارات لها شرطان وثلاثة أوراق.

شرط غير ثنائي

#df

الحالة التي تحتوي على أكثر من نتيجتين محتملتين. على سبيل المثال، يتضمن الشرط غير الثنائي التالي ثلاثة مخرجات محتملة:

شرط (number_of_legs = ?) يؤدي إلى ثلاث نتائج محتملة. تؤدي نتيجة واحدة (number_of_legs = 8) إلى ورقة شجر
          تحمل اسم ورقة العنكبوت. النتيجة الثانية (number_of_legs = 4) تؤدي إلى
          ورقة شجر تحمل اسم كلب. تؤدي النتيجة الثالثة (number_of_legs = 2) إلى
          ورقة شجر تُسمّى بطريق.

O

شرطي مائل

#df

في شجرة القرارات، هي شرط يتضمّن أكثر من ميزة. على سبيل المثال، إذا كان الارتفاع والعرض كلاهما، في ما يلي شرط مائل:

  height > width

التباين مع شرط متوافق مع المحور

تقييم خارج الحقيبة (تقييم OOB)

#df

آلية لتقييم جودة غابة القرار عن طريق اختبار كل شجرة قرارات مقابل أمثلة غير مُستخدمة أثناء التدريب في شجرة القرارات هذه. فعلى سبيل المثال، في الرسم البياني التالي، لاحظ أن النظام يدرّب كل شجرة القرار على ما يقرب من ثلث الأمثلة، ثم يقيّمها مقابل الثلث المتبقي من الأمثلة.

مجموعة قرارات تتألف من ثلاث أشجار أشجار لاتخاذ قرار.
          ويتدرّب شجرة القرار الواحد على ثلثَي الأمثلة الواردة على سبيل المثال، ثم يستخدم الثلث المتبقي في تقييم OOB.
          يتم تدريب شجرة القرارات الثانية على ثلثَي الأمثلة المختلفة عن شجرة القرارات السابقة، ثم تستخدم ثلثًا مختلفًا لتقييم OOB مقارنةً بشجرة القرار السابقة.

يُعدّ التقييم خارج الحقيبة إجراءً تقريبيًا وفعّالاً من الناحية الحسابية لآلية التحقّق المتبادل. في عملية التحقق المتقاطع، يتم تدريب نموذج واحد لكل جولة من عمليات التحقّق المتبادل (على سبيل المثال، يتم تدريب 10 نماذج في عملية التحقّق المتقاطع المكوّن من 10 شرائح). باستخدام تقييم OOB، يتم تدريب نموذج واحد. نظرًا لأنّ وضع الحقائب يحجب بعض البيانات من كل شجرة أثناء التدريب، يمكن أن يستخدم تقييم OOB هذه البيانات للتحقّق من الصحة بشكل متقاطع تقريبًا.

P

أهميات متغيّرات التبديل

#df

يشير هذا المصطلح إلى نوع من الأهمية المتغيرة التي تقيّم الزيادة في خطأ التوقّع في نموذج بعد تبديل قيم الميزة. تُعدّ أهمية متغيّر التبديل مقياسًا حياتيًا للنموذج.

R

غابة عشوائية

#df

مجموعة من أشجار القرار التي يتم فيها تدريب كل شجرة قرار بضوضاء عشوائية محدّدة، مثل التنقّل

الغابات العشوائية هي نوع من غابة القرارات.

الجذر

#df

العقدة الأولية (الحالة الأولى) في شجرة القرار. بحسب المخطّطات، تضع الرسوم البيانية الجذر في أعلى شجرة القرارات. على سبيل المثال:

شجرة قرارات لها شرطان وثلاثة أوراق. شرط البدء (x > 2) هو الجذر.

S

أخذ العينات مع الاستبدال

#df

طريقة لاختيار العناصر من مجموعة من العناصر المرشحة التي يمكن اختيار العنصر نفسه عدة مرات. تعني عبارة "مع الاستبدال" أنه بعد كل اختيار، يتم إرجاع العنصر المحدد إلى مجموعة العناصر المرشحة. والطريقة المعكوسة لأخذ العينات بدون استبدال تعني أنّه يمكن اختيار عنصر المرشح مرة واحدة فقط.

على سبيل المثال، ضع في اعتبارك مجموعة الفاكهة التالية:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

لنفترض أن النظام يختار عشوائيًا fig كأول عنصر. إذا كنت تستخدم عيّنة من أجل أخذ عيّنة من المحتوى البديل، يختار النظام العنصر الثاني من المجموعة التالية:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

نعم، هذه هي المجموعة نفسها التي سبقت استخدامها، لذلك من المحتمل أن يختار النظام fig مرة أخرى.

في حال استخدام العينات بدون استبدال، لا يمكن اختيار عيّنة مرة أخرى بعد اختيارها. على سبيل المثال، إذا اختار النظام fig كعينة أولية بشكل عشوائي، لا يمكن اختيار fig مرة أخرى. وبالتالي، يختار النظام النموذج الثاني من المجموعة التالية (تقليلة):

fruit = {kiwi, apple, pear, cherry, lime, mango}

تقليص

#df

متغيّر زائد في زيادة في التدرّج تتحكّم في الزيادة. إنّ التقليص في تعزيز التدرج هو أمر متشابه مع معدّل التعلُّم في النزول التدريجي. التقليص هو قيمة عشرية بين 0.0 و1.0. تقلل قيمة الانكماش الأقل من الزيادة الأكبر من قيمة الانكماش الأكبر.

split

#df

في شجرة القرارات، اسم آخر للشرط.

مقسِّم

#df

أثناء تدريب شجرة القرارات، سلسلة الإجراءات (والخوارزمية) المسؤولة عن العثور على أفضل شرط في كل عقدة.

T

اختبار

#df

في شجرة القرارات، اسم آخر للشرط.

الحدّ الأدنى (لشجرة القرارات)

#df

في الحالة المتوافقة مع المحور، يتم مقارنة القيمة التي ميزة بها. على سبيل المثال، 75 هي قيمة الحد الأدنى في الشرط التالي:

grade >= 75

V

أهميات المتغيّرات

#df

مجموعة من النتائج تشير إلى الأهمية النسبية لكل ميزة في النموذج.

على سبيل المثال، يمكنك استخدام شجرة القرارات التي تقدّر أسعار المنازل. لنفترض أنّ شجرة القرارات تستخدم ثلاث ميزات: الحجم والعمر والأسلوب. إذا تم احتساب مجموعة من الأهمية للمتغيّرات للميزات الثلاث على النحو التالي: {size=5.8, Age=2.5, style=4.7}، تكون الحجم أكثر أهمية لشجرة القرار بدلاً من العمر أو النمط.

وتتوفّر مقاييس مختلفة لأهمية المتغيّر، ما يمكن أن يُعلِم خبراء تعلُّم الآلة عن جوانب مختلفة من النماذج.

واط

رحلة الحكمة

#df

فكرة أن متوسط آراء أو تقديرات مجموعة كبيرة من الأشخاص ("الحشد") غالبًا ما يؤدي إلى نتائج مذهلة. على سبيل المثال، لنفترض أنّ إحدى الألعاب تخمّن المستخدمين عدد حبوب الجيلي المعبأة في وعاء كبير. وعلى الرغم من أن معظم التخمينات غير دقيقة، فقد تبيّن أنّ متوسط جميع التخمينات قريب بشكل مذهل من العدد الفعلي للحبوب الهلامية في الإناء.

Enembles هي عبارة عن تناظر حكمة من الحشود. حتى إذا كانت النماذج الفردية توفر توقعات غير دقيقة إلى حد كبير، يؤدي متوسط عبارات البحث المقترحة لعدّة نماذج إلى إنشاء توقعات جيدة بشكل مدهش. على سبيل المثال، على الرغم من أنّ شجرة القرار الفردية قد تقدّم توقعات رديئة، فإنّ غابة القرار غالبًا ما تقدّم توقعات جيدة جدًا.