تمت ترجمة هذه الصفحة بواسطة Cloud Translation API‏.

مسرد مصطلحات التعلم الآلي: غابات القرارات

تحتوي هذه الصفحة على مصطلحات مسرد مصطلحات غابات القرارات. للاطّلاع على جميع مصطلحات مسرد المصطلحات، انقر هنا.

جيم

تحليل عيّنات السمات

#df

يشير هذا المصطلح إلى أسلوب لتدريب مجموعة من حلول القرارات لا تأخذ فيها كل شجرة قرارات سوى مجموعة فرعية عشوائية من الميزات المحتمَلة عند التعرّف على الشرط. بشكل عام، يتم أخذ عينات من مجموعة فرعية مختلفة من الميزات لكل عقدة. في المقابل، عند تدريب شجرة قرارات بدون تحليل عيّنات السمات، يتم أخذ جميع الميزات الممكنة في الاعتبار لكل جزء.

شرط محاذاة المحور

#df

في شجرة القرار، هي شرط يتضمن ميزة واحدة فقط. على سبيل المثال، إذا كانت المنطقة ميزة، فإن ما يلي هو شرط يتوافق مع المحور:

area > 200

قارِنها مع شرط مائل.

B

وضع الأكياس

#df

يشير ذلك المصطلح إلى طريقة لتدريب مجموعة موحدة يتم فيها تدريب كل نموذج مكوّن على مجموعة فرعية عشوائية من أمثلة التدريب المستنِدة إلى عيّنات مع الاستبدال. على سبيل المثال، الغابة العشوائية هي مجموعة من أشجار القرارات المُدرَّبة باستخدام الأكياس.

مصطلح bagging يشير إلى bootstrap aggregating.

شرط ثنائي

#df

في شجرة القرار، تمثّل شرطًا نتيجتَين محتمَلتَين فقط، عادةً ما تكون نعم أو لا. على سبيل المثال، يمثّل ما يلي شرطًا ثنائيًا:

temperature >= 100

تباين مع الشرط غير الثنائي.

C

الشرط

#df

في شجرة القرار، أي عقدة تقيّم تعبيرًا. على سبيل المثال، يحتوي الجزء التالي من شجرة القرار على شرطين:

شجرة قرارات تتألف من شرطَين: (x > 0) و(y > 0).

يسمى الشرط أيضًا الانقسام أو الاختبار.

شرط التباين مع ورقة.

انظر أيضًا:

شرط ثنائي
شرط غير ثنائي.
سطر المحاذاة المحورية
حالة مائل

D

غابة قرارات

#df

يشير ذلك المصطلح إلى نموذج يتم إنشاؤه من عدة أشجار قرارات. تقوم غابة القرارات بالتنبؤ من خلال تجميع تنبؤات أشجار القرارات. تشمل الأنواع الشائعة من غابات القرار الغابات العشوائية والغابات المحسّنة المتدرجة.

شجرة القرارات

#df

هو نموذج تعلُّم خاضع للإشراف يتألّف من مجموعة من conditions وconditions المنظّمة بشكل هرمي. على سبيل المثال، فيما يلي شجرة قرارات:

شجرة قرار تتألّف من أربعة شروط مرتبة في تسلسل هرمي يؤدي إلى خمس أوراق.

E

الإنتروبيا

#df

في نظرية المعلومات، هي وصف لعدم توقّع أي توزيع للاحتمالية. بدلاً من ذلك، يتم تعريف القصور أيضًا على أنه مقدار المعلومات التي يحتوي عليها كل مثال. يحتوي التوزيع على أعلى قصور ممكن عندما تكون جميع قيم أي متغير عشوائي متساوية.

قصور مجموعة ذات قيمتين محتملتين "0" و "1" (على سبيل المثال، التصنيفات في مسألة التصنيف الثنائي) لها الصيغة التالية:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

المكان:

H هو القصور.
p هي الكسر من أمثلة "1".
q هو الكسر من أمثلة "0". لاحظ أن q = (1 - p)
عادةً ما يكون log هو السجلّ₂. في هذه الحالة، تكون وحدة القصور قليلاً.

على سبيل المثال، لنفترض ما يلي:

100 مثال يحتوي على القيمة "1"
300 مثال يحتوي على القيمة "0"

وبالتالي، تكون قيمة القصور على النحو التالي:

p = 0.25
ربع = 0.75
H = (-0.25)log₂(0.25) - (0.75)log₂(0.75) = 0.81 بت لكل مثال

فالمجموعة المتوازنة بشكل مثالي (على سبيل المثال، 200 "0" و200 "1") ستحتوي على قصور 1.0 بت لكل مثال. وكلما أصبحت إحدى المجموعات غير متوازنة، يتحرك قصورها نحو 0.0.

في أشجار القرارات، يساعد القصور في صياغة تحصيل المعلومات لمساعدة التقسيم في تحديد الشروط أثناء نمو شجرة قرارات التصنيف.

مقارنة القصور بـ:

سابل جيني
دالة الخسارة الإنتروبيا

غالبًا ما يُطلق على القصور في اسم قصور شانون.

F

أهمية الميزات

#df

مرادف للأهمية المتغيّرة

G

عائق الجيني

#df

مقياس مشابه لـ القصور. تستخدم المقسّمة قيمًا مشتقة من عسر جيني أو القصور لإنشاء شروط لتصنيف أشجار القرارات. يتم اشتقاق الحصول على المعلومات من القصور. لا يوجد مصطلح مكافئ مقبول عالميًا للمقياس المشتق من نجاة جيني، ومع ذلك، فإن هذا المقياس غير المُسمّى لا يقل أهمية عن تحصيل المعلومات.

ويُطلق على عُطلة جيني أيضًا اسم مؤشر جيني، أو ببساطة جيني.

انقر فوق رمز التفاصيل الرياضية حول عائق جيني.

اعتلال جيني هو احتمال حدوث خطأ في تصنيف جزء جديد من البيانات المأخوذة من نفس التوزيع. يتم حساب اعتلال جيني لمجموعة ذات قيمتين محتملتين "0" و "1" (على سبيل المثال، التصنيفات في مسألة التصنيف الثنائي) من خلال المعادلة التالية:

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

المكان:

I هو عائق الجيني.
p هي الكسر من أمثلة "1".
q هو الكسر من أمثلة "0". يُرجى العِلم أنّ q = 1-p

على سبيل المثال، ضع في الاعتبار مجموعة البيانات التالية:

100 تصنيف (0.25 من مجموعة البيانات) يحتوي على القيمة "1"
300 تصنيف (0.75 من مجموعة البيانات) يحتوي على القيمة "0"

لذلك، فإن عائق الجيني هو:

p = 0.25
ربع = 0.75
I = 1 - (0.25² + 0.75²) = 0.375

وبالتالي، سيكون هناك فرصة بنسبة 37.5% للتصنيف العشوائي من نفس مجموعة البيانات، وفرصة التصنيف الصحيح بنسبة 62.5%.

التصنيف المتوازن تمامًا (على سبيل المثال، 200 "0" و200 "1") سيكون له عاطل جيني 0.5. سيكون للتصنيف غير المتوازن بدرجة كبيرة عسر جيني قريب من 0.0.

الأشجار المحسّنة (القرار) (GBT)

#df

يشير هذا المصطلح إلى نوع من غابة قرارات:

تعتمد التدريب على تعزيز التدرّج.
النموذج الضعيف هو شجرة قرارات.

تعزيز التدرّج

#df

يشير ذلك المصطلح إلى خوارزمية تدريب يتم فيها تدريب النماذج الضعيفة على تحسين جودة أي نموذج قوي بشكل متكرر. على سبيل المثال، يمكن أن يكون النموذج الضعيف نموذجًا خطيًا أو صغيرًا لشجرة قرارات. ويصبح النموذج القوي مجموع كل النماذج الضعيفة التي تم تدريبها سابقًا.

في أبسط أشكال تقوية التدرج، يتم عند كل تكرار تطبيق نموذج ضعيف للتنبؤ بتدرج الخسارة للنموذج القوي. بعد ذلك، يتم تعديل ناتج النموذج القوي من خلال طرح التدرج المتنبأ به، على غرار انحدار التدرج.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

المكان:

$F_{0}$ هو النموذج القوي في البداية.
$F_{i+1}$ هو النموذج القوي التالي.
$F_{i}$ هو النموذج القوي الحالي.
$\xi$ هي قيمة بين 0.0 و1.0 تُعرف باسم shrinkage، وهي تشبه معدّل التعلّم في خوارزمية انحدار التدرج.
$f_{i}$ هو النموذج الضعيف والمدرَّب على توقُّع تدرج الخسارة بقيمة $F_{i}$.

وتشمل الاختلافات الحديثة في تعزيز التدرج أيضًا المشتق الثاني (هسيان) للخسارة في العمليات الحسابية.

تُستخدم أشجار القرار عادةً كنماذج ضعيفة في تعزيز التدرج. يمكنك الاطّلاع على مقالة الأشجار المُحسنة بتدرج (القرار).

I

مسار الاستنتاج

#df

في شجرة القرار، أثناء الاستنتاج، يسلك المسار مثال معيّنًا من الجذر إلى شروط أخرى، وينتهي بـ ورقة شجر. على سبيل المثال، في شجرة القرار التالية، تُظهر الأسهم السميكة مسار الاستنتاج لمثال مع قيم الخصائص التالية:

س = 7
ص = 12
ع = -3

ينتقل مسار الاستنتاج في الرسم التوضيحي التالي عبر ثلاثة شروط قبل الوصول إلى الورقة (Zeta).

شجرة قرار تتكون من أربعة شروط وخمس أوراق.
شرط الجذر هو (x > 0). وبما أنّ الإجابة "نعم"،
ينتقل مسار الاستنتاج من الجذر إلى الشرط التالي (y > 0).
بما أنّ الإجابة "نعم"، ينتقل مسار الاستنتاج إلى الشرط التالي (z > 0). بما أنّ الإجابة "لا"، ينتقل مسار الاستنتاج إلى العقدة الطرفية، وهي الورقة (زيتا).

توضح الأسهم الثلاثة السميكة مسار الاستنتاج.

تحصيل المعلومات

#df

في غابات القرارات، يشير ذلك إلى الفرق بين القصور للعقدة والمجموع المُرجّح (حسب عدد الأمثلة) للقصور في العُقد الثانوية. قصور الجزء هو قصور الأمثلة في هذا الجزء.

على سبيل المثال، ضع في الاعتبار قيم القصور التالية:

قصور الجزء الأصلي = 0.6
قصور الجزء الفرعي الواحد مع 16 مثالاً ذي صلة = 0.2
قصور جزء فرعي آخر مع 24 مثالاً ذي صلة = 0.1

إذًا، 40% من الأمثلة في عقدة فرعية واحدة و60% في العقدة الفرعية الأخرى. لذلك:

مجموع القصور المُرجّح للعُقد الفرعية = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

إذًا، يكون تحصيل المعلومات على النحو التالي:

تحصيل المعلومات = قصور الجزء الأصلي - مجموع القصور المُرجّح للعُقد الفرعية
تحصيل المعلومات = 0.6 - 0.14 = 0.46

يسعى معظم المقسّمين إلى إنشاء شروط تساعد في زيادة تحصيل المعلومات إلى أقصى حدّ.

حالة محدّدة

#df

يشير ذلك المصطلح إلى شرط يختبر توفّر عنصر في مجموعة من العناصر في شجرة القرار. على سبيل المثال، ما يلي هو شرط محدد:

  house-style in [tudor, colonial, cape]

أثناء الاستنتاج، إذا كانت قيمة feature نمط المنزل هي tudor أو colonial أو cape، يتم تقييم هذا الشرط إلى "نعم". إذا كانت قيمة ميزة نمط المنزل شيئًا آخر (على سبيل المثال، ranch)، فيتم تقييم هذا الشرط على "لا".

تؤدي الشروط المضمّنة عادةً إلى أشجار قرارات أكثر كفاءة من الشروط التي تختبر ميزات ذات ترميز واحد فعال.

L

ورقة نبات

#df

تمثّل هذه السمة أي نقطة نهاية في شجرة القرار. على عكس الحالة، لا يتم إجراء اختبار للورقة. بدلاً من ذلك، فإن ورقة الشجر هي تنبؤ محتمل. الورقة هي أيضًا العقدة الطرفية في مسار الاستنتاج.

على سبيل المثال، تحتوي شجرة القرار التالية على ثلاث أوراق:

شجرة قرار لها شرطان يؤديان إلى ثلاث أوراق.

N

العقدة (شجرة القرار)

#df

في شجرة القرار، أي شرط أو ورقة شجر

شجرة قرار مكونة من شرطين وثلاث أوراق.

شرط غير ثنائي

#df

شرط يحتوي على أكثر من نتيجتَين محتملتَين. على سبيل المثال، يحتوي الشرط غير الثنائي التالي على ثلاثة نتائج محتملة:

شرط (number_of_legs = ?) يؤدي إلى ثلاث نتائج محتملة. تؤدي إحدى النتائج (number_of_legs = 8) إلى ورقة شجر تسمى العنكبوت. وتؤدي النتيجة الثانية (number_of_legs = 4) إلى ورقة شجر اسمها "كلب". وتؤدي النتيجة الثالثة (number_of_legs = 2) إلى ورقة شجر تسمى penguin.

O

شرط مائل

#df

في شجرة القرار، هي شرط يتضمن أكثر من ميزة واحدة. على سبيل المثال، إذا كان الارتفاع والعرض كلتا الميزتين، فإن ما يلي شرط مائل:

  height > width

تباين مع شرط محاذاة المحور.

تقييم خارج الحقيبة (تقييم OOB)

#df

آلية لتقييم جودة غابة قرارات من خلال اختبار كل شجرة قرارات استنادًا إلى أمثلة غير مُستخدَمة أثناء التدريب المتعلّق بشجرة القرارات تلك. على سبيل المثال، في المخطط التالي، لاحظ أن النظام يدرّب كل شجرة قرارات على حوالي ثلثي الأمثلة ثم يتم تقييمه بناءً على الثلث المتبقي من الأمثلة.

يشير ذلك المصطلح إلى غابة قرارات تتألّف من ثلاث أشجار القرارات.
وتتدرب شجرة قرارات واحدة على ثلثي الأمثلة، ثم تستخدم الثلث المتبقي لتقييم OOB.
وتعتمد شجرة القرار الثانية على ثلثَي أمثلة مختلفَين مقارنةً بشجرة القرار السابقة، ثم تستخدم ثلثًا مختلفًا لتقييم OOB عن شجرة القرارات السابقة.

يُعدّ التقييم خارج الحقيبة تقديرًا تقريبيًا فعالاً ومحافظًا من الناحية الحسابية لآلية التحقق المتبادل. في عملية التحقّق المتقاطع، يتم تدريب نموذج واحد على كل جولة تحقُّق متقاطعة (على سبيل المثال، يتم تدريب 10 نماذج على التحقّق المتقاطع الذي يبلغ 10 نماذج). من خلال تقييم OOB، يتم تدريب نموذج واحد. بما أنّ وضع البيانات يحجب بعض البيانات من كل شجرة أثناء التدريب، يمكن لتقييم OOB استخدام هذه البيانات لتقريب التحقّق المتبادل من صحة البيانات.

P

أهمية متغير التبديل

#df

يشير ذلك المصطلح إلى نوع من الأهمية المتغيّرة يقيّم الزيادة في خطأ التوقّع لنموذج ما بعد تعديل قيم العنصر. أهمية متغير التبديل هي مقياس مستقل عن النموذج.

R

غابة عشوائية

#df

مجموعة من أشجار القرارات التي يتم فيها تدريب كل شجرة قرارات بضجيج عشوائي محدّد، مثل تعبئة البيانات.

الغابات العشوائية هي نوع من غابة القرارات.

الجذر

#df

عقدة البداية (أول شرط) في شجرة القرارات. حسب الاصطلاح، تضع المخططات البيانية الجذر في الجزء العلوي من شجرة القرار. مثال:

شجرة قرار مكونة من شرطين وثلاث أوراق. شرط البدء (x > 2) هو الجذر.

S

أخذ العينات مع الاستبدال

#df

يشير ذلك المصطلح إلى طريقة لاختيار العناصر من مجموعة من العناصر المرشحة والتي يمكن فيها اختيار العنصر نفسه عدة مرات. تعني عبارة "مع الاستبدال" أنه بعد كل تحديد، يتم إرجاع العنصر المحدد إلى مجموعة العناصر المرشحة. تعني الطريقة العكسية، أخذ العيّنات بدون استبدال، أنّه لا يمكن اختيار العنصر المرشح سوى مرة واحدة.

فعلى سبيل المثال، ضع في الاعتبار مجموعة الفاكهة التالية:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

لنفرض أنّ النظام يختار fig عشوائيًا كأول عنصر. في حال استخدام أخذ العينات مع الاستبدال، يختار النظام العنصر الثاني من المجموعة التالية:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

نعم، هذه هي المجموعة نفسها كما في السابق، لذا بإمكان النظام اختيار fig مرة أخرى.

في حال استخدام أخذ العينات بدون استبدال، لا يمكن اختيار العيّنة مجددًا بعد اختيارها. على سبيل المثال، إذا اختار النظام fig بشكل عشوائي كعيّنة الأولى، لن تتمكّن من اختيار fig مرة أخرى. لذلك، يختار النظام العينة الثانية من المجموعة (المصغرة) التالية:

fruit = {kiwi, apple, pear, cherry, lime, mango}

انقر على الرمز للاطّلاع على ملاحظات إضافية.

إنّ كلمة استبدال في عبارة أخذ العيّنات مع الاستبدال تُربك الكثير من الأشخاص. في اللغة الإنجليزية، تعني كلمة replacement "استبدال". في المقابل، إنّ أخذ العيّنات مع الاستبدال يستخدم في الواقع التعريف الفرنسي للاستبدال، ما يعني "إعادة تقديم المنتج".

تتم ترجمة الكلمة الإنجليزية replacement باعتبارها الكلمة الفارسية remplacement.

الانكماش

#df

مَعلمة فائقة في تعزيز التدرّج تتحكّم في فرط التخصيص. يشابه الانكماش في تعزيز التدرج مع معدّل التعلّم في خوارزمية انحدار التدرج. الانكماش قيمة عشرية بين 0.0 و1.0. تقلل قيمة الانكماش الأقل من فرط التخصيص وتقل قيمة الانكماش الأكبر.

split

#df

في شجرة القرار، اسم آخر لشرط.

مقسِّم

#df

أثناء تدريب شجرة قرارات، يتم تحديد سلسلة الإجراءات (والخوارزمية) المسؤولة عن العثور على أفضل شرط في كل عقدة.

T

الاختبار

#df

في شجرة القرار، اسم آخر لشرط.

حد (في أشجار القرارات)

#df

في شرط محاذاة المحور، القيمة التي تتمّ مقارنة ميزة بها. على سبيل المثال، 75 هي قيمة الحد في الشرط التالي:

grade >= 75

V

الأهمية المتغيّرة

#df

مجموعة من النتائج التي تشير إلى الأهمية النسبية لكل ميزة للنموذج.

على سبيل المثال، انظر إلى شجرة القرار التي تقدِّر أسعار المنازل. افترض أن شجرة القرار هذه تستخدم ثلاث ميزات: الحجم والعمر والأسلوب. إذا تم حساب مجموعة من الأهمية المتغيرة للميزات الثلاث على أنها {size=5.8, age=2.5, style=4.7}, فإن الحجم أكثر أهمية لشجرة القرار من العمر أو النمط.

توجد مقاييس أهمية متغيرة مختلفة، والتي يمكن أن تُعلم خبراء التعلم بالجوانب المختلفة للنماذج.

واط

حكمة الجمهور

#df

فكرة أن متوسط آراء أو تقديرات مجموعة كبيرة من الأشخاص ("الجمهور") غالبًا ما ينتج عنها نتائج جيدة بشكل مدهش. على سبيل المثال، فكّر في لعبة يخمن فيها الأشخاص عدد حبوب البن المعبأة في وعاء كبير. على الرغم من أن معظم التخمينات الفردية ستكون غير دقيقة، إلا أن متوسط جميع التخمينات قد ثبت تجريبيًا أنه قريب بشكل مفاجئ من العدد الفعلي لحبوب الجيلي في الوعاء.

المجموعات هي تناظرية برمجية لحكمة الجمهور. حتى إذا قدمت النماذج الفردية تنبؤات غير دقيقة إلى حد كبير، فإن متوسط تنبؤات العديد من النماذج غالبًا ما ينتج عنه توقعات جيدة بشكل مدهش. على سبيل المثال، على الرغم من أنّ شجرة القرارات الفردية قد تتوقّع توقّعات سيئة، إلا أنّ مجموعة القرارات المتبّعة غالبًا ما تتوقّع نتائج جيدة جدًا.