مسرد مصطلحات تعلُم الآلة

يحدد هذا المسرد مصطلحات التعلم الآلي العامة، بالإضافة إلى المصطلحات الخاصة بـ TensorFlow.

جيم

اجتذاب

يشير ذلك المصطلح إلى أسلوب لتقييم أهمية ميزة أو مكوّن عن طريق إزالتها مؤقتًا من نموذج. يمكنك بعد ذلك إعادة تدريب النموذج بدون تلك الميزة أو المكون، وإذا كان أداء النموذج المُعاد تدريبه أسوأ بكثير، فمن المحتمل أن تكون الميزة أو المكون الذي تمت إزالته مهمًا.

على سبيل المثال، لنفترض أنّك درّبت نموذج تصنيف على 10 ميزات وحققت دقة% 88 في مجموعة الاختبار. للتحقق من أهمية الميزة الأولى، يمكنك إعادة تدريب النموذج باستخدام الميزات التسع الأخرى فقط. إذا كان أداء النموذج المُعاد تدريبه أسوأ بكثير (على سبيل المثال، دقة بنسبة% 55)، فمن المحتمل أن تكون الميزة التي تمت إزالتها مهمة. وعلى العكس، إذا كان النموذج المُعاد تدريبه يعمل جيدًا بشكل متساوٍ، فمن المحتمل أن هذه الميزة لم تكن مهمة للغاية.

يمكن أن يساعد الاستئصال أيضًا في تحديد أهمية ما يلي:

  • المكوّنات الأكبر حجمًا، مثل نظام فرعي كامل لنظام تعلُّم الآلة الأكبر
  • العمليات أو الأساليب، مثل خطوة المعالجة المسبقة للبيانات

في كلتا الحالتين، ستلاحظ مدى تغيُّر أداء النظام (أو عدم تغيُّره) بعد إزالة المكوِّن.

اختبار A/B

طريقة إحصائية للمقارنة بين أسلوبَين (أو أكثر): أ وب. ويكون عادةً الرمز A أسلوبًا حاليًا، والحرف B هو أسلوب جديد. لا يحدد اختبار A/B التقنية التي تحقّق أداءً أفضل فحسب، ولكن أيضًا ما إذا كان الفرق ذا دلالة إحصائية أم لا.

يقارن اختبار A/B عادةً مقياس واحد باستخدام أسلوبين، على سبيل المثال، ما الفرق بين الدقة للنموذج وطريقتين؟ مع ذلك، يمكن لاختبار A/B أيضًا مقارنة أي عدد محدود من المقاييس.

شريحة مسرِّعة

#GoogleCloud

يشير ذلك المصطلح إلى فئة من مكونات الأجهزة المتخصّصة المصمّمة لإجراء العمليات الحسابية الرئيسية اللازمة لخوارزميات التعليم المعمّق.

يمكن لشرائح مسرِّعة الأعمال (أو المسرّعات فقط باختصار) زيادة سرعة وكفاءة مهام التدريب والاستنتاج مقارنةً بوحدة المعالجة المركزية (CPU) للأغراض العامة. فهي مثالية لتدريب الشبكات العصبية والمهام الحاسوبية المماثلة.

تشمل أمثلة شرائح مسرِّعة الأعمال ما يلي:

  • وحدات معالجة Tensor من Google (TPU) مع أجهزة مخصّصة للتعلّم المعمّق.
  • على الرغم من أن وحدات معالجة الرسومات التابعة لـ NVIDIA مصممة في البداية لمعالجة الرسومات، تم تصميمها لتمكين المعالجة المتوازية، ما قد يؤدي إلى زيادة سرعة المعالجة بشكلٍ كبير.

الدقة

#fundamentals

يشير ذلك المصطلح إلى عدد التوقّعات للتصنيف الصحيحة مقسومًا على إجمالي عدد التوقّعات. والمقصود:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

على سبيل المثال، أي نموذج يقدم 40 توقعًا صحيحًا و10 تنبؤات غير صحيحة سيكون له دقة على:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

يوفر التصنيف الثنائي أسماء محددة للفئات المختلفة من التوقعات الصحيحة والتوقعات غير الصحيحة. إذًا، معادلة دقة التصنيف الثنائي تكون على النحو التالي:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

المكان:

تحديد أوجه الاختلاف والتشابه بين الدقة بالدقة والتذكّر

إجراء

#rl

في التعلُّم التعززي، الآلية التي من خلالها يتنقّل الوكيل بين حالات البيئة. يختار الوكيل الإجراء باستخدام سياسة.

دالّة التفعيل

#fundamentals

يشير ذلك المصطلح إلى دالة تتيح للشبكات العصبية تعلُّم العلاقات غير الخطية (المعقدة) بين السمات والتصنيف.

تشمل وظائف التفعيل الشائعة ما يلي:

لا تكون مخططات دوال التنشيط أبدًا خطوطًا مستقيمة مفردة. على سبيل المثال، يتكون مخطط دالة تنشيط ReLU من خطين مستقيمين:

مخطط الديكارتي من سطرين. للسطر الأول قيمة ص ثابتة تساوي 0، ويمتد على المحور x من -لانهاية,0 إلى 0,-0.
          ويبدأ السطر الثاني من 0,0. هذا الخط له انحدار +1، ولذلك
          يتراوح من 0,0 إلى +لانهاية،+لانهاية.

يظهر مخطط دالة التفعيل السيني على النحو التالي:

رسم بياني منحنٍ ثنائي الأبعاد يحتوي على قيم x تمتد من النطاق - من لانهائي إلى + إيجابي، بينما تمتد قيم y إلى النطاق من 0 إلى 1 تقريبًا. عندما تكون x تساوي 0، تكون y تساوي 0.5. يكون انحدار المنحنى
 موجبًا دائمًا، مع ازدياد أعلى انحدار عند 0,0.5 وانخفاضًا تدريجيًّا مع زيادة القيمة المطلقة لـ x.

التعلّم النشط

هو نهج تدريب يتم من خلاله اختيار بعض البيانات التي يتعلم منها الخوارزمية. يكون للتعلُّم النشط قيمة خاصة عندما تكون الأمثلة المصنَّفة قليلة أو مكلفًا. وبدلاً من السعي وراء مجموعة متنوعة من الأمثلة المصنفة، تبحث خوارزمية التعلم النشط بشكل انتقائي عن نطاق معين من الأمثلة التي تحتاجها للتعلم.

AdaGrad

يشير ذلك المصطلح إلى خوارزمية معقّدة لخوارزمية انحدار التدرج تُعيد ضبط تدرّجات كل مَعلمة، ما يمنح كل مَعلمة معدّل تعلُّم مستقل مستقلاً. للحصول على شرح كامل، يُرجى الاطّلاع على هذه المقالة البحثية عن AdaGrad.

وكيل

#rl

في التعلُّم المعزّز، يشير هذا المصطلح إلى الكيان الذي يستخدم سياسة لزيادة العائد المتوقّع الذي يتم الحصول عليه من الانتقال بين حالات البيئة.

بشكل أكثر عمومية، يكون الوكيل برنامجًا يخطط وينفذ بشكل مستقل سلسلة من الإجراءات سعيًا إلى تحقيق هدف ما، مع القدرة على التكيّف مع التغييرات في البيئة المحيطة. على سبيل المثال، قد يستخدم موظّفو الدعم النموذج اللغوي الكبير النموذج اللغوي الكبير لإنشاء خطة بدلاً من تطبيق سياسة التعلّم المعزّز.

التجميع من الأسفل إلى الأعلى

#clustering

راجِع التجميع الهرمي.

رصد القيمة الشاذة

يشير ذلك المصطلح إلى عملية تحديد القيم الشاذّة. على سبيل المثال، إذا كان متوسط ميزة معيّنة هو 100 وانحراف معياري يبلغ 10، من المفترض أن تضع ميزة "رصد القيم الشاذة" علامة على القيمة 200 باعتبارها 200 مريبة.

الأرجنتين

اختصار الواقع المعزّز.

المساحة تحت منحنى العلاقات العامة

يمكنك الاطّلاع على مقالة PR AUC (المنطقة تحت منحنى PR).

المساحة تحت منحنى خاصية تشغيل جهاز الاستقبال

راجِع AUC (المنطقة تحت منحنى ROC).

الذكاء الاصطناعي العام

آلية غير بشرية توضح مجموعة واسعة من حلول المشاكل والإبداع والقدرة على التكيّف. على سبيل المثال، بإمكان برنامج يوضّح الذكاء الاصطناعي العام ترجمة النصوص وتأليف سيمفونيات والتميّز في الألعاب التي لم تبتكر بعد.

الذكاء الاصطناعي

#fundamentals

هو برنامج أو model غير بشري يمكنه حلّ المهام المعقّدة. على سبيل المثال، برنامج أو نموذج يترجم نصًا أو برنامجًا أو نموذجًا لتحديد الأمراض من الصور الإشعاعية يعرض كلاً من الذكاء الاصطناعي.

يُعدّ التعلّم الآلي رسميًا مجالاً فرعيًا للذكاء الاصطناعي. مع ذلك، بدأت بعض المؤسسات في استخدام عبارتَي الذكاء الاصطناعي وتعلُّم الآلة بالتبادل بينهما في السنوات الأخيرة.

تنبيه

#language

يشير ذلك المصطلح إلى آلية مستخدَمة في شبكة عصبية للإشارة إلى أهمية كلمة معيّنة أو جزء معيّن من كلمة. الانتباه يضغط كمية المعلومات التي يحتاجها النموذج للتنبؤ بالرمز المميز/الكلمة التالية. قد تتألف آلية الانتباه النموذجية من مجموع مرجّح على مجموعة من الإدخالات، حيث يتم حساب الوزن لكل إدخال من خلال جزء آخر من الشبكة العصبونية.

يجب أيضًا الإشارة إلى الانتباه الذاتي والانتباه الذاتي إلى أشخاص متعددين، وهما اللبنتان الأساسيتان في المحولات.

تحديد مصدر

#fairness

مرادف feature.

في الإنصاف في التعلم الآلي، غالبًا ما تشير السمات إلى الخصائص المتعلقة بالأفراد.

تحليل عيّنات السمات

#df

يشير هذا المصطلح إلى أسلوب لتدريب مجموعة من حلول القرارات لا تأخذ فيها كل شجرة قرارات سوى مجموعة فرعية عشوائية من الميزات المحتمَلة عند التعرّف على الشرط. بشكل عام، يتم أخذ عينات من مجموعة فرعية مختلفة من الميزات لكل عقدة. في المقابل، عند تدريب شجرة قرارات بدون تحليل عيّنات السمات، يتم أخذ جميع الميزات الممكنة في الاعتبار لكل جزء.

AUC (المساحة تحت منحنى خاصية تشغيل جهاز الاستقبال)

#fundamentals

رقم بين 0.0 و1.0 يمثّل قدرة نموذج التصنيف الثنائي على فصل الفئات الإيجابية عن الفئات السلبية. كلما اقتربت AUC من 1.0، زادت قدرة النموذج على فصل الفئات عن بعضها البعض.

على سبيل المثال، يوضح الرسم التوضيحي التالي نموذج مصنِّف يفصل بين الفئات الإيجابية (الأشكال البيضاوية الخضراء) والفئات السالبة (المستطيلات الأرجوانية) تمامًا. يحتوي هذا النموذج المثالي غير الواقعي على 1.0 AUC:

سطر أرقام يضم 8 أمثلة إيجابية على جانب واحد و9 أمثلة سلبية على الجانب الآخر.

وفي المقابل، يوضح الرسم التوضيحي التالي نتائج نموذج المصنِّف الذي أنشأ نتائج عشوائية. وهذا النموذج حاصل على شوائب AUC بقيمة 0.5:

سطر أرقام يضم 6 أمثلة إيجابية و6 أمثلة سلبية.
          تسلسل الأمثلة هو إيجابي، سالب،
          إيجابي، سالب، إيجابي، سالب، إيجابي، سالب، إيجابي،
          إيجابي، سالب.

نعم، يحتوي النموذج السابق على قيمة AUC لـ 0.5، وليس 0.0.

توجد معظم النماذج في مكان ما بين الطرفين. على سبيل المثال، يفصل النموذج التالي الإيجابيات عن السلبيات إلى حدٍ ما، وبالتالي يحتوي على AUC في مكان ما بين 0.5 و1.0:

سطر أرقام يضم 6 أمثلة إيجابية و6 أمثلة سلبية.
          تسلسل الأمثلة هو سالب، سالب، سالب، سالب، إيجابي، سالب، إيجابي، إيجابي، سلبي، إيجابي، إيجابي، إيجابي.

تتجاهل AUC أي قيمة تضبطها لحد التصنيف. وبدلاً من ذلك، تراعي AUC جميع حدود التصنيف المحتملة.

الواقع المعزّز

#image

يشير ذلك المصطلح إلى تكنولوجيا تتراكب مع صورة يتم إنشاؤها باستخدام الكمبيوتر من خلال رؤية المستخدم للعالم الواقعي، وتوفّر بالتالي عرضًا مركّبًا.

برنامج الترميز التلقائي

#language
#image

نظام يتعلم استخراج أهم المعلومات من المدخلات. تجمع برامج الترميز التلقائية بين برنامج ترميز وبرنامج فك الترميز. تعتمد برامج الترميز التلقائي على العملية التالية المكونة من خطوتَين:

  1. يعيّن برنامج الترميز المدخلات (عادةً) بتنسيق منخفض الأبعاد (متوسط) مع فقدان البيانات.
  2. ينشئ برنامج فك الترميز نسخة مفقودة من المدخل الأصلي عن طريق ربط التنسيق المنخفض الأبعاد بتنسيق الإدخال الأصلي ذات الأبعاد الأعلى.

يتم تدريب برامج الترميز التلقائية بشكل تام من خلال محاولة برنامج فك الترميز لإعادة إنشاء المدخل الأصلي من التنسيق المتوسط لبرنامج الترميز بأقرب شكل ممكن. بما أنّ التنسيق المتوسط أصغر (أقل أبعادًا) من التنسيق الأصلي، يصبح برنامج الترميز التلقائي مضطرًا إلى التعرّف على المعلومات الضرورية الواردة في المدخل، ولن يكون المُخرج مطابقًا تمامًا للمُدخل.

مثال:

  • إذا كانت بيانات الإدخال رسمًا، فإن النسخة غير الدقيقة ستكون مشابهة للرسم الأصلي، ولكن تم تعديلها إلى حد ما. ربما تزيل النسخة غير الدقيقة التشويش من الرسم الأصلي أو تملأ بعض وحدات البكسل المفقودة.
  • إذا كانت بيانات الإدخال نصية، فسينشئ برنامج الترميز التلقائي نصًا جديدًا يحاكي النص الأصلي (ولكنه ليس مطابقًا له).

راجِع أيضًا برامج الترميز التلقائية المختلفة.

الانحياز في التشغيل الآلي

#fairness

عندما يفضّل صانع القرار البشري الاقتراحات التي يقدّمها نظام آلي لاتخاذ القرارات على المعلومات التي يتم تقديمها بدون التشغيل الآلي، حتى عندما يرتكب نظام اتخاذ القرارات الآلي أخطاءً.

AutoML

أي عملية مبرمَجة لإنشاء نماذج تعلُّم الآلة يمكن لميزة AutoML تنفيذ مهام تلقائيًا، مثل ما يلي:

تعد ميزة AutoML مفيدة لعلماء البيانات لأنها يمكن أن توفّر لهم الوقت والجهد في تطوير مسارات التعلّم الآلي وتحسّن دقة التنبؤات. كما أنه مفيد لغير الخبراء، من خلال جعل مهام التعلم الآلي المعقدة أكثر سهولة بالنسبة لهم.

نموذج الانحدار التلقائي

#language
#image
#generativeAI

model يستنتج توقعًا بناءً على تنبؤاته السابقة. على سبيل المثال، تتوقّع نماذج اللغة الانحدارية التلقائي الرمز المميّز التالي استنادًا إلى الرموز المميّزة التي كان توقّعها سابقًا. وتعتمد جميع نماذج المحول على النماذج اللغوية الكبيرة المستندة إلى الانحدار التلقائي.

وفي المقابل، لا تتبع نماذج الصور المستندة إلى GAN انحدارًا تلقائيًا لأنها تنشئ صورة في تمريرة أمامية واحدة وليس تكرارًا على خطوات. مع ذلك، تتراجعبعض نماذج إنشاء الصور تلقائيًا لأنّها تنشئ صورًا بخطوات.

فقدان مساعد

دالة للخسارة: يتم استخدامها مع الوظيفة الرئيسية للفقدان لشبكة عصبية تساعد في تسريع التدريب أثناء التكرارات المبكرة عندما تتم تهيئة الأوزان بشكل عشوائي.

تعمل دوال الخسارة الإضافية على نقل التدرجات الفعّالة إلى الطبقات السابقة. يؤدي ذلك إلى تسهيل التقارب أثناء التدريب من خلال مواجهة مشكلة اختفاء التدرج.

متوسط الدقة

مقياس لتلخيص أداء تسلسل نتائج مرتب. ويتم احتساب متوسط الدقة من خلال أخذ متوسط قيم الدقة لكل نتيجة ذات صلة (كل نتيجة ضمن قائمة الترتيب التي يزيد فيها التذكر مقارنةً بالنتيجة السابقة).

يمكنك الاطّلاع أيضًا على المساحة ضمن منحنى العلاقات العامة.

شرط محاذاة المحور

#df

في شجرة القرار، هي شرط يتضمن ميزة واحدة فقط. على سبيل المثال، إذا كانت المنطقة ميزة، فإن ما يلي هو شرط يتوافق مع المحور:

area > 200

قارِنها مع شرط مائل.

B

الانتشار العكسي

#fundamentals

الخوارزمية التي تنفِّذ انحدار التدرج في الشبكات العصبونية.

يتضمن تدريب الشبكة العصبية العديد من التكرارات للدورة ذات الممرين التالية:

  1. أثناء البداية والنهاية المبكرة، يعالج النظام مجموعة من الأمثلة لعرض عبارات البحث المقترحة. يقارن النظام كل توقع بكل قيمة في label. الفرق بين التوقع وقيمة التسمية هو loss لهذا المثال. يجمع النظام الخسائر لجميع الأمثلة لحساب الخسارة الإجمالية للدفعة الحالية.
  2. خلال الانتشار العكسي (الانتشار العكسي)، يقلل النظام من فقدان كل الخلايا العصبية في كل الطبقات المخفية.

غالبًا ما تحتوي الشبكات العصبونية على العديد من الخلايا العصبية عبر العديد من الطبقات الخفية. وتساهم كل واحدة من هذه الخلايا العصبية في الخسارة الكلية بطرق مختلفة. يحدد الانتشار العكسي ما إذا كان يجب زيادة أو خفض الأوزان المطبقة على خلايا عصبية معينة.

معدّل التعلّم هو مُضاعِف يتحكّم في درجة زيادة أو خفض كل وزن مع كل تمريرة خلفية. سيؤدي معدل التعلم الكبير إلى زيادة أو خفض كل وزن أكثر من معدل التعلم الصغير.

من حيث التفاضل والتكامل، ينفِّذ الانتشار العكسي قاعدة السلسلة من حساب التفاضل والتكامل. وهذا يعني أنّ عملية الانتشار العكسي تحتسب المشتق الجزئي للخطأ مع مراعاة كل مَعلمة.

منذ سنوات، كان على ممارسي تعلُّم الآلة كتابة تعليمات برمجية لتنفيذ الانتشار العكسي. تستخدم واجهات برمجة التطبيقات الحديثة لتعلُّم الآلة، مثل TensorFlow، ميزة "الانتشار العكسي" نيابةً عنك. أخيرًا!

وضع الأكياس

#df

يشير ذلك المصطلح إلى طريقة لتدريب مجموعة موحدة يتم فيها تدريب كل نموذج مكوّن على مجموعة فرعية عشوائية من أمثلة التدريب المستنِدة إلى عيّنات مع الاستبدال. على سبيل المثال، الغابة العشوائية هي مجموعة من أشجار القرارات المُدرَّبة باستخدام الأكياس.

مصطلح bagging يشير إلى bootstrap aggregating.

مجموعة كلمات

#language

تمثيل للكلمات في عبارة أو فقرة، بغض النظر عن الترتيب. على سبيل المثال، تمثل حقيبة الكلمات العبارات الثلاث التالية بشكل متماثل:

  • الكلب يقفز
  • يقفز الكلب
  • كلب يقفز

يتم ربط كل كلمة بفهرس في متّجه متفرق، حيث يحتوي الخط المتجه على فهرس لكل كلمة في المفردات. على سبيل المثال، يتم ربط العبارة كلب قفز في متجه الميزة بقيم غير صفرية في الفهارس الثلاثة المقابلة للكلمات the والكلب والقفز. يمكن أن تكون القيمة غير الصفرية أيًا مما يلي:

  • الرقم 1 للإشارة إلى وجود كلمة.
  • عدد مرات ظهور كلمة في الحقيبة. على سبيل المثال، إذا كانت العبارة هي كلب كستنائي هو كلب ذو فرو كستنائي، سيتم تمثيل كل من كستنائي وكلب بالرمز 2، بينما يتم تمثيل الكلمات الأخرى بالرقم 1.
  • قيمة أخرى، مثل لوغاريتم عدد مرات ظهور كلمة في الحقيبة.

المتوقع

model يُستخدم كنقطة مرجعية لمقارنة مدى جودة أداء نموذج آخر (عادةً ما يكون أكثر تعقيدًا). على سبيل المثال، قد يكون نموذج الانحدار اللوجستي بمثابة أساس جيد لنموذج عميق.

بالنسبة لمشكلة معيّنة، يساعد الخط القاعدي مطوري النماذج على تحديد الحد الأدنى من الأداء المتوقع الذي يجب أن يحققه النموذج الجديد حتى يكون النموذج الجديد مفيدًا.

مُجمَّع

#fundamentals

مجموعة الأمثلة المستخدمة في تكرار تدريب واحد. يحدّد حجم الدفعة عدد الأمثلة في الدفعة.

يمكنك الاطّلاع على الحقبة للحصول على شرح حول كيفية ارتباط الدُفعة بالحقبة.

استنتاج مجمّع

#TensorFlow
#GoogleCloud

يشير ذلك المصطلح إلى عملية استنتاج التوقعات على عدة أمثلة غير مصنَّفة إلى مجموعات فرعية أصغر ("مجموعات").

يمكن أن يستفيد الاستنتاج المجمَّع من ميزات التوازي لشرائح التسريع. ويعني ذلك أن المسرِّعات الإعلانية المتعددة يمكنها استنتاج توقّعات على مجموعات مختلفة من الأمثلة غير المصنّفة في الوقت نفسه، ما يزيد بشكل كبير عدد الاستنتاجات في الثانية.

تسوية الدفعة

تسوية المدخلات أو المخرجات لدوال التفعيل في طبقة مخفية: يمكن أن توفر تسوية الدفعات الفوائد التالية:

حجم الدفعة

#fundamentals

عدد الأمثلة في مجموعة على سبيل المثال، إذا كان حجم الدفعة 100، فإن النموذج يعالج 100 مثال لكل تكرار.

في ما يلي استراتيجيات شائعة لحجم المجموعة:

  • الانحدار العشوائي للتدرج (SGD)، حيث يكون حجم الدفعة 1.
  • المجموعة الكاملة، التي يكون فيها حجم المجموعة هو عدد الأمثلة في مجموعة التدريب بالكامل. على سبيل المثال، إذا كانت مجموعة التدريب تحتوي على مليون مثال، فسيكون حجم الدفعة مليون مثال. عادةً ما تكون الدفعة الكاملة استراتيجية غير فعّالة.
  • دفعة صغيرة يتراوح حجم الدفعة فيها عادةً بين 10 و1,000 مرة. عادةً ما تكون الدفعة الصغيرة هي الإستراتيجية الأكثر فعالية.

الشبكة العصبية البايزية

يشير ذلك المصطلح إلى شبكة عصبية احتمالية تراعي عدم اليقين في المؤشرات والمخرجات. عادةً ما يتوقّع نموذج الانحدار القياسي للشبكة العصبية قيمة عددية، فعلى سبيل المثال، يتنبأ النموذج العادي بسعر المنزل إلى 853,000. في المقابل، تتنبأ الشبكة العصبية البايزية بتوزيع القيم؛ فعلى سبيل المثال، يتنبأ نموذج بايز بسعر المنزل بمقدار 853,000 مع انحراف معياري يبلغ 67,200.

تعتمد الشبكة العصبية البيزية على نظرية بايز لحساب أوجه عدم التأكّد في الأوزان والتوقّعات. يمكن أن تكون الشبكة العصبية البايزي مفيدة عندما يكون من المهم قياس عدم اليقين، كما هو الحال في النماذج المتعلقة بالمستحضرات الصيدلانية. يمكن أن تساعد الشبكات العصبية النظرية أيضًا في منع فرط التخصيص.

تحسين بايز

يشير ذلك المصطلح إلى أسلوب لنموذج الانحدار الاحتمالي لتحسين دوال الهدف المكلفة من الناحية الحسابية عن طريق تحسين قيمة بديلة تحدّد عدم اليقين باستخدام أسلوب تعلُّم بايز. وبما أنّ تحسين بايز مكلف جدًا، يتم استخدامه عادةً لتحسين المهام المكلفة للتقييم التي تحتوي على عدد صغير من المعلَمات، مثل اختيار معلَمات فائقة.

معادلة بيلمان

#rl

في مجال التعلّم المعزّز، يتم استيفاء الهوية التالية من خلال الدالة Q المثلى:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

تطبق خوارزميات التعلُّم المعزَّز هذه الهوية لإنشاء تعلُّم الآلة من خلال قاعدة التعديل التالية:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

بالإضافة إلى التعلّم المعزّز، توفّر معادلة "بيلمان" تطبيقات على البرمجة الديناميكية. راجِع إدخال ويكيبيديا لمعادلة بيلمان.

نموذج ترميز ثنائي الاتجاه من المحوّلات

#language

بنية نموذج لتمثيل النص. قد يكون نموذج BERT المُدرَّب جزءًا من نموذج أكبر لتصنيف النص أو مهام تعلُّم الآلة الأخرى.

تتميّز نماذج BERT بالخصائص التالية:

تشمل صيغ BERT ما يلي:

  • ALBERT، وهو اختصار للاختصار A Light BERT
  • LaBSE:

يمكنك الاطّلاع على مقالة برامج BERT المفتوحة المصدر: تدريب مسبق متطوّرة لمعالجة اللغات الطبيعية للحصول على نظرة عامة حول نماذج BERT.

التحيز (الأخلاق/الإنصاف)

#fairness
#fundamentals

1- الصور النمطية أو التحيز أو المحسوبية تجاه بعض الأشياء أو الأشخاص أو المجموعات على الآخرين. يمكن أن تؤثر هذه التحيزات على جمع وتفسير البيانات، وتصميم النظام، وكيفية تفاعل المستخدمين مع النظام. تشمل أشكال هذا النوع من التحيز ما يلي:

2. يشير ذلك المصطلح إلى خطأ تنظيمي ناتج عن أحد إجراءات أخذ العينات أو الإبلاغ. تشمل أشكال هذا النوع من التحيز ما يلي:

يجب عدم الخلط بينه وبين مصطلح التحيز في نماذج تعلُّم الآلة أو انحياز التوقّعات.

تحيز (رياضيات) أو مصطلح تحيز

#fundamentals

تمثّل هذه السمة تقاطع أو إزاحة من مصدر. التحيز هو مَعلمة في نماذج التعلم الآلي، والذي يرمز إليه بأي مما يلي:

  • b
  • 0

على سبيل المثال، الانحياز هو حرف b في الصيغة التالية:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

في خط بسيط ثنائي الأبعاد، يعني التحيز "تقاطع ص". على سبيل المثال، تحيز الخط في الرسم التوضيحي التالي هو 2.

يشير ذلك المصطلح إلى رسم خط مستقيم مع انحدار مقداره 0.5 وانحياز (تقاطع ص) بقيمة 2.

يتوفّر الانحياز لأنّه لا تبدأ بعض النماذج من المصدر (0,0). على سبيل المثال، لنفترض أن تكلفة دخول مدينة الملاهي هي 2 يورو ومبلغ 0.5 يورو إضافي عن كل ساعة يقيم فيها العميل. وبالتالي، فإن النموذج الذي يحدد التكلفة الإجمالية له تحيز بمقدار 2 لأن أقل تكلفة هي 2 يورو.

لا يجب الخلط بين التحيز والتحيز في الأخلاقيات والإنصاف أو تحيز التنبؤ.

ثنائي الاتجاه

#language

يشير ذلك المصطلح إلى مصطلح يُستخدم لوصف نظام يقيّم النص الذي يسبق ويتبع القسم المستهدَف من النص. في المقابل، لا يقيّم النظام أحادي الاتجاه سوى النص الذي يسبق القسم المستهدَف من النص.

على سبيل المثال، ضع في اعتبارك نموذج لغة محجوب يجب أن يحدد احتمالات الكلمة أو الكلمات التي تمثل التسطير في السؤال التالي:

ما هو _____ معك؟

سيتعين أن يبني النموذج اللغوي أحادي الاتجاه احتمالاته فقط على السياق المقدم من خلال الكلمات "ماذا" و"هو" و "ال". في المقابل، يمكن أن يحصل النموذج اللغوي ثنائي الاتجاه أيضًا على سياق من "مع" و "أنت"، مما قد يساعد النموذج على إنشاء تنبؤات أفضل.

نموذج لغوي ثنائي الاتجاه

#language

نموذج لغوي يحدّد احتمالية توفّر رمز مميّز معيّن في موقع جغرافي معيّن في مقتطف من نص استنادًا إلى النص السابق والتالي

بيغرام

#seq
#language

N-gram حيث N=2.

التصنيف الثنائي

#fundamentals

نوع من مهام التصنيف يتنبأ بإحدى الفئتين الحصريتين المتبادلتين:

على سبيل المثال، يُنفِّذ نموذجا التعلم الآلي التاليان تصنيفًا ثنائيًا لكل منهما:

  • نموذج يحدِّد ما إذا كانت الرسائل الإلكترونية هي رسائل غير مرغوب فيها (الفئة الموجبة) أو ليست رسائل غير مرغوب فيها (الفئة السالبة).
  • يشير ذلك المصطلح إلى نموذج يقيّم الأعراض الطبية لتحديد ما إذا كان الشخص يعاني من مرض معيّن (الفئة الموجبة) أو غير مصاب بهذا المرض (الفئة السالبة).

تباين مع التصنيف متعدد الفئات.

يمكنك أيضًا الاطّلاع على الانحدار اللوجستي والحدّ الأدنى للتصنيف.

شرط ثنائي

#df

في شجرة القرار، تمثّل شرطًا نتيجتَين محتمَلتَين فقط، عادةً ما تكون نعم أو لا. على سبيل المثال، يمثّل ما يلي شرطًا ثنائيًا:

temperature >= 100

تباين مع الشرط غير الثنائي.

الربط

مرادف bucketing.

BLEU (دراسة تقييم ثنائي اللغة)

#language

نتيجة تتراوح من 0.0 إلى 1.0، بما يشير إلى جودة الترجمة بين لغتين بشرية (على سبيل المثال، بين الإنجليزية والروسية). تشير درجة BLEU 1.0 إلى ترجمة مثالية، بينما تشير درجة BLEU 0.0 إلى ترجمة سيئة للغاية.

التعزيز

يشير ذلك المصطلح إلى أسلوب لتعلُّم الآلة يدمج بشكل متكرر مجموعة من المصنِّفات البسيطة وغير الدقيقة جدًا (يُشار إليها باسم المصنِّفات "الضعيفة") ضمن مصنِّف عالي الدقة (مصنِّف "قوي") من خلال زيادة قيمة الأمثلة التي يخطئ النموذج في تصنيفها حاليًا.

مربّع الحدود

#image

في إحدى الصور، الإحداثيات (x وy) لمستطيل حول منطقة اهتمام، مثل الكلب في الصورة أدناه.

صورة كلب يجلس على أريكة. يحيط مربع إحاطة أخضر
          يحتوي على إحداثيات في أعلى اليسار للرمز (275، 1271) وإحداثيات أسفل يمين (2954، 2761) بجسم الكلب

بثّ

توسيع شكل معامل في عملية رياضية على شكل مصفوفة إلى أبعاد متوافقة مع تلك العملية على سبيل المثال، يتطلب الجبر الخطي أن يكون للمعاملين في عملية إضافة المصفوفة نفس الأبعاد. وبالتالي، لا يمكنك إضافة مصفوفة شكل (m، n) إلى متجه الطول n. يمكّن البث هذه العملية عن طريق توسيع الخط المتجه للطول ن إلى مصفوفة شكل (م، ن) افتراضيًا من خلال تكرار القيم نفسها أسفل كل عمود.

على سبيل المثال، في التعريفات التالية، يحظر الجبر الخطي A+B لأنّ "أ" و"ب" لهما أبعاد مختلفة:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

ومع ذلك، يعمل البث على تفعيل العملية A+B من خلال توسيع النطاق B افتراضيًا إلى:

 [[2, 2, 2],
  [2, 2, 2]]

وبالتالي، أصبحت A+B الآن عملية صالحة:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

يمكنك الاطّلاع على الوصف التالي للبث في NumPy لمعرفة مزيد من التفاصيل.

تجميع البيانات

#fundamentals

تحويل ميزة واحدة إلى عدة ميزات ثنائية تُسمّى الحزم أو سلال، استنادًا إلى نطاق القيمة عادةً. عادةً ما تكون ميزة التقطيع ميزة مستمرة.

على سبيل المثال، بدلاً من تمثيل درجة الحرارة كميزة واحدة للنقطة العائمة المستمرة، يمكنك تقسيم نطاقات درجات الحرارة إلى مجموعات منفصلة، مثل:

  • ستكون درجة الحرارة "الباردة" أقل من 10 درجات مئوية.
  • يجب أن تكون درجة الحرارة "المعتدلة" هي 11 - 24 درجة مئوية.
  • >= 25 درجة مئوية سيكون الدلو "دافئ".

سيتعامل النموذج مع كل قيمة في المجموعة نفسها على نحو متماثل. على سبيل المثال، تمّ إدراج القيمتَين 13 و22 في مجموعة البيانات المعتدلة، وبالتالي يعامل النموذج القيمتَين بشكل متماثل.

C

طبقة المعايرة

تعديل ما بعد التوقع، عادةً ما يكون لمراعاة تحيز التوقع. يجب أن تتطابق التوقعات والاحتمالات المعدَّلة مع توزيع مجموعة التسميات المرصودة.

إنشاء مرشح

#recsystems

هي المجموعة الأولية من الاقتراحات التي يختارها نظام اقتراحات. على سبيل المثال، ضع في اعتبارك مكتبة كتب تقدم 100000 كتاب. تنشئ مرحلة إنشاء المرشح قائمة أصغر بكثير من الكتب المناسبة لمستخدم معين، لنفترض 500. ولكن حتى 500 كتاب هي الكثير جدًا بحيث لا يمكن توصية المستخدم بمشاهدتها. وتكون المراحل اللاحقة والأكثر تكلفة من نظام الاقتراح (مثل تحديد النتائج وإعادة الترتيب) تؤدّي إلى تقليل هذه المراحل الـ 500 إلى مجموعة اقتراحات أصغر وأكثر فائدة.

تحليل العيّنات المرشحة

يشير ذلك المصطلح إلى تحسين وقت التدريب من أجل احتساب الاحتمالية لجميع التصنيفات الإيجابية، مثل استخدام softmax، ولكن لعيّنة عشوائية من التصنيفات السلبية فقط. على سبيل المثال، في مثال بيغل وكلب، تحسب أخذ العينات المرشحة الاحتمالات المتوقعة وعبارات الخسارة المقابلة لكل من:

  • بيغل
  • كلب
  • مجموعة فرعية عشوائية من الفئات السلبية المتبقية (مثل cat وlollipop وfence).

الفكرة هي أنّ الفئات السلبية يمكن أن تتعلّم من التعزيز السلبي الأقل تكرارًا ما دامت الفئات الإيجابية تحصل دائمًا على تعزيز إيجابي مناسب، وقد تمت ملاحظة ذلك على نحو تجريبي.

يُعتبر أخذ العينات المرشحة أكثر كفاءة من الناحية الحسابية من تدريب الخوارزميات التي تحتسب التوقّعات لجميع الفئات السلبية، لا سيما عندما يكون عدد الفئات السلبية كبيرًا جدًا.

بيانات فئوية

#fundamentals

الميزات التي لها مجموعة معيّنة من القيم المحتملة. على سبيل المثال، ضع في اعتبارك ميزة فئوية تُسمى traffic-light-state، والتي يمكن أن تتضمن واحدة فقط من القيم الثلاث التالية المحتملة:

  • red
  • yellow
  • green

ومن خلال تمثيل traffic-light-state كميزة فئوية، يمكن للنموذج معرفة التأثيرات المختلفة لـ red وgreen وyellow في سلوك السائق.

تسمى الميزات الفئوية أحيانًا ميزات منفصلة.

قارِنها مع البيانات الرقمية.

نموذج لغوي سببي

#language

مرادف نموذج لغوي أحادي الاتجاه.

اطّلِع على نموذج لغوي ثنائي الاتجاه للتباين بين مناهج الاتجاهات المختلفة في النمذجة اللغوية.

النقطة المركزية

#clustering

مركز مجموعة كما يتم تحديده بواسطة الخوارزمية التصنيفية أو المتوسط التصنيفي. على سبيل المثال، إذا كانت قيمة k تساوي 3، فإن الخوارزمية التصنيفية أو الخوارزمية التصنيفية تعثر على 3 نقاط مركزية.

التجميع العنقودي القائم على النقطة المركزية

#clustering

يشير ذلك المصطلح إلى فئة من خوارزميات التجميع العنقودي التي تنظّم البيانات في مجموعات غير هرمية، مثل الخوارزمية التصنيفية الأكثر استخدامًا على نطاق واسع.

على عكس خوارزميات التجميع الهرمي.

الحث على سلسلة التفكير

#language
#generativeAI

يشير ذلك المصطلح إلى أسلوب هندسة الطلبات الذي يشجّع النموذج اللغوي الكبير (LLM) على شرح أسبابه بالتفصيل. على سبيل المثال، ضع في اعتبارك المطالبة التالية، مع إيلاء اهتمام خاص للجملة الثانية:

كم عدد القوة الغرامية التي يختبرها السائق في سيارة تنتقل من 0 إلى 60 ميلاً في الساعة في 7 ثوانٍ؟ في الإجابة، أظهر جميع العمليات الحسابية ذات الصلة.

ومن المرجّح أن يأتي ردّ النموذج اللغوي الكبير على النحو التالي:

  • اعرض سلسلة من المعادلات الفيزيائية مع إدخال القيم 0 و60 و7 في الأماكن المناسبة.
  • اشرح سبب اختيار هذه المعادلات وما تعنيه المتغيرات المختلفة.

تعتمد سلسلة الأفكار على إجبار النموذج اللغوي الكبير على إجراء جميع العمليات الحسابية، ما قد يؤدي إلى إجابة أكثر دقةً. بالإضافة إلى ذلك، يتيح توجيه سلسلة الأفكار للمستخدم فحص خطوات النموذج اللغوي الكبير لتحديد ما إذا كانت الإجابة منطقية أم لا.

محادثة

#language
#generativeAI

محتوى الحوار المتبادل مع نظام تعلُّم الآلة، ويكون عادةً نموذجًا لغويًا كبيرًا يصبح التفاعل السابق في محادثة (ما كتبته وردود النموذج اللغوي الكبير) سياقًا للأجزاء اللاحقة من المحادثة.

برنامج الدردشة المبرمَجة هو تطبيق من نموذج لغوي كبير.

نقطة تفتيش

هي البيانات التي تسجِّل حالة مَعلمات النموذج بتكرار تدريبي خاص. تتيح نقاط التحقق تصدير بيانات النموذج الوزن أو تنفيذ التدريب على جلسات متعددة. تتيح نقاط التفتيش أيضًا التدريب لمواصلة الأخطاء السابقة (على سبيل المثال، استلام الوظيفة).

عند تحسين الأداء، ستكون نقطة البداية للتدريب على النموذج الجديد نقطة مرجعية محددة في النموذج المدرَّب مسبقًا.

صنف

#fundamentals

الفئة التي يمكن أن ينتمي إليها التصنيف. مثال:

  • في نموذج التصنيف الثنائي الذي يرصد المحتوى غير المرغوب فيه، قد تكون الفئتان محتوى غير مرغوب فيه وليس محتوى غير مرغوب فيه.
  • في نموذج التصنيف متعدد الفئات الذي يحدد سلالات الكلاب، قد تكون الفئات كلاب بودل وبيغل وكلاب وما إلى ذلك.

يتنبأ نموذج التصنيف بالفئة. في المقابل، يتوقّع نموذج الانحدار رقمًا وليس فئة.

نموذج التصنيف

#fundamentals

model يكون توقّعه model. على سبيل المثال، في ما يلي جميع نماذج التصنيف:

  • نموذج للتنبؤ بلغة جملة الإدخال (الفرنسية؟ الإسبانية؟ الإيطالية؟).
  • يشير ذلك المصطلح إلى نموذج يتنبأ بأنواع الأشجار (القيقب؟ Oak? باوباب؟).
  • يشير ذلك المصطلح إلى نموذج يتنبأ بالفئة الموجبة أو السالبة لحالة طبية معيّنة.

على النقيض، تتنبأ نماذج الانحدار بالأرقام بدلاً من الفئات.

هناك نوعان شائعان من نماذج التصنيف:

الحد الأدنى للتصنيف

#fundamentals

في التصنيف الثنائي، هو رقم يتراوح بين 0 و1 يحوّل المخرجات الأولية لنموذج الانحدار اللوجستي إلى توقّع للفئة الموجبة أو الفئة السالبة. يُرجى العلم بأنّ عتبة التصنيف هي قيمة يختارها الإنسان، وليست قيمة يختارها تدريب النموذج.

ينتج عن نموذج الانحدار اللوجستي قيمة أولية بين 0 و1. بعد ذلك:

  • إذا كانت هذه القيمة الأولية أكبر من حد التصنيف، يتم التنبؤ بالفئة الموجبة.
  • إذا كانت هذه القيمة الأولية أقل من حد التصنيف، يتم التنبؤ بالفئة السالبة.

لنفترض، على سبيل المثال، أن عتبة التصنيف هي 0.8. إذا كانت القيمة الأولية 0.9، فسيتنبأ النموذج بالفئة الموجبة. إذا كانت القيمة الأولية 0.7، فسيتنبأ النموذج بالفئة السالبة.

ويؤثر اختيار الحدّ الأدنى للتصنيف بشكل كبير في عدد النتائج الموجبة الخاطئة والحالات السالبة الخاطئة.

مجموعة بيانات غير متوازنة الفئة

#fundamentals

مجموعة بيانات لمشكلة تصنيف يختلف فيها إجمالي عدد التصنيفات لكل فئة بشكل كبير. على سبيل المثال، ضع في الاعتبار مجموعة بيانات التصنيف الثنائي التي يتم تقسيم تسميتها على النحو التالي:

  • 1,000,000 تصنيف سلبي
  • 10 تصنيفات إيجابية

نسبة التصنيفات السالبة إلى الموجبة هي 100000 إلى 1، لذا فإن هذه مجموعة بيانات غير متوازنة الفئة.

في المقابل، ليست مجموعة البيانات التالية غير متوازنة الفئات لأن نسبة التصنيفات السالبة إلى التصنيفات الإيجابية تقترب نسبيًا من 1:

  • 517 تصنيفًا سلبيًا
  • 483 تصنيفًا إيجابيًا

يمكن أيضًا أن تكون مجموعات البيانات متعددة الفئات غير متوازنة الفئات. على سبيل المثال، تعد مجموعة بيانات التصنيف متعدد الفئات التالية غير متوازنة الفئة أيضًا لأن إحدى التصنيفات تحتوي على أمثلة أكثر بكثير من الاثنتين الأخريين:

  • 1,000,000 تصنيف بفئة "أخضر"
  • 200 تصنيف بفئة "أرجواني"
  • 350 تصنيفًا بالفئة "برتقالي"

ويمكنك أيضًا الاطّلاع على القصور وفئة الأغلبية وفئة الأقلية.

اقتصاص

#fundamentals

يشير ذلك المصطلح إلى أسلوب للتعامل مع القيم الشاذّة من خلال تنفيذ أحد الإجراءَين التاليَين أو كليهما:

  • تخفيض قيم الميزة التي تزيد عن الحدّ الأقصى المسموح به لهذا الحدّ
  • زيادة قيم الميزات التي تقلّ عن الحدّ الأدنى وصولاً إلى الحدّ الأدنى

على سبيل المثال، افترض أن أقل من 0.5٪ من قيم ميزة معينة تقع خارج النطاق 40-60. وفي هذه الحالة، يمكنك إجراء ما يلي:

  • قم باقتصاص جميع القيم التي تزيد عن 60 (الحد الأقصى) لتكون 60 بالضبط.
  • قم باقتصاص جميع القيم التي تقل عن 40 (الحد الأدنى) لتكون 40 بالضبط.

يمكن أن تتسبب القيم الاستثنائية في إتلاف النماذج، ما قد يتسبب أحيانًا في فائض الأوزان أثناء التدريب. ويمكن أن تؤدي بعض القيم الاستثنائية أيضًا إلى إفساد المقاييس مثل الدقة بشكل كبير. يُعد الاقتصاص أسلوب شائع للحد من الضرر.

يفرض الاقتصاص المتدرج قيم التدرج ضمن نطاق محدد أثناء التطبيق.

Cloud TPU

#TensorFlow
#GoogleCloud

هو مسرِّع أعمال متخصص ومصمّم لتسريع أعباء عمل تعلُّم الآلة على Google Cloud.

تجميع

#clustering

تجميع الأمثلة ذات الصلة، لا سيّما أثناء التعلّم غير الخاضع للإشراف. بمجرد تجميع كل الأمثلة، يمكن للإنسان تقديم معنى لكل مجموعة عنقودية بشكل اختياري.

هناك العديد من خوارزميات التجميع العنقودي. على سبيل المثال، تجمّع أمثلة الخوارزمية التصنيفية الخوارزمية التصنيفية استنادًا إلى قُربها من النقطة المركزية، كما هو موضّح في الرسم البياني التالي:

هو رسم بياني ثنائي الأبعاد يتم فيه تسمية المحور "س" باسم "عرض الشجرة" والمحور
          "ص" إلى "ارتفاع الشجرة". ويتضمّن الرسم البياني نقطتَين مركزيتَين وعشرات من نقاط البيانات. يتم تصنيف نقاط البيانات
          حسب قربها. وهذا يعني أنّ نقاط البيانات الأقرب إلى نقطة مركزية يتم تصنيفها ضمن المجموعة 1، في حين يتم تصنيف النقاط الأقرب إلى النقطة المركزية الأخرى ضمن المجموعة 2.

يمكن لباحث بشري بعد ذلك مراجعة المجموعات العنقودية، وعلى سبيل المثال، تصنيف المجموعة 1 على أنها "أشجار قزمة" والمجموعة 2 على أنها "أشجار بالحجم الكامل".

وكمثال آخر، يمكن استخدام خوارزمية التجميع العنقودي القائم على المسافة في المثال من النقطة المركزية، كما هو موضح على النحو التالي:

يتم ترتيب العشرات من نقاط البيانات في دوائر متحدة المركز، مثل الثقوب حول وسط لوحة رمي السهام. ويتم تصنيف الحلقة الأعمق لنقاط البيانات ضمن المجموعة 1 والحلقة الوسطى من المجموعة 2 والحلقة الخارجية على أنها المجموعة 3.

التكيّف المشترَك

عندما تتنبأ الخلايا العصبية بأنماط في بيانات التطبيق من خلال الاعتماد بشكل حصري تقريبًا على مخرجات خلايا عصبية أخرى معينة بدلاً من الاعتماد على سلوك الشبكة ككل. عندما تكون الأنماط التي تسبب التكيف المشترك غير موجودة في بيانات التحقق من الصحة، فإن التكيف المشترك يسبب فرط التخصيص. يحدّ تنظيم التسرّب من التكيّف المشترَك لأنّ التسرُّب يضمن عدم تمكّن الخلايا العصبية من الاعتماد فقط على خلايا عصبية أخرى معيّنة.

الفلترة حسب الاهتمامات الجماعية

#recsystems

تقديم توقّعات حول اهتمامات أحد المستخدمين استنادًا إلى اهتمامات العديد من المستخدمين الآخرين غالبًا ما يتم استخدام التصفية التعاونية في أنظمة التوصية.

تغيُّر المفهوم

يشير ذلك المصطلح إلى تحول في العلاقة بين الميزات والتسمية. وبمرور الوقت، يؤدي تغيُّر المفاهيم إلى تقليل جودة النموذج.

أثناء التدريب، يتعلم النموذج العلاقة بين الميزات وتسمياتها في مجموعة التدريب. إذا كانت التصنيفات الموجودة في مجموعة التدريب عبارة عن خوادم وكيل جيدة للعالم الحقيقي، فإن النموذج من المفترض أن يقدم تنبؤات جيدة للعالم الحقيقي. ومع ذلك، وبسبب تغيُّر المفهوم، تميل توقّعات النموذج إلى التدهور بمرور الوقت.

على سبيل المثال، ضع في اعتبارك نموذج التصنيف الثنائي الذي يتنبأ بما إذا كان طراز معيّن من السيارات "موفرًا للوقود" أم لا. وهذا يعني أن هذه الميزات يمكن أن تكون:

  • وزن السيارة
  • ضغط المحرّك
  • نوع الإرسال

في حين أن التصنيف هو إما:

  • موفّر للوقود
  • غير موفّر للوقود

ومع ذلك، فإن مفهوم "السيارة الموفرة للوقود" يتغير باستمرار. في عام 2024، من المؤكد أنّ أحد طرازات السيارات التي صنّفت عام 1994 على أنّها أقل استهلاكًا للوقود سيتم تصنيفها على أنّها غير موفّرة للوقود. يميل النموذج الذي يعاني من تغيُّر المفهوم إلى تقديم تنبؤات أقل وأقل فائدة بمرور الوقت.

حدِّد أوجه التشابه والاختلاف مع عدم إيقاف المحتوى.

الشرط

#df

في شجرة القرار، أي عقدة تقيّم تعبيرًا. على سبيل المثال، يحتوي الجزء التالي من شجرة القرار على شرطين:

شجرة قرارات تتألف من شرطَين: (x > 0) و(y > 0).

يسمى الشرط أيضًا الانقسام أو الاختبار.

شرط التباين مع ورقة.

انظر أيضًا:

الثغرة

#language

مرادف الحلقية.

ربما يكون مصطلح التعابير أكثر دقة من الناحية الفنية من الهلوسة. ومع ذلك، أصبحت الهلوسة شائعة في البداية.

الإعدادات

يشير ذلك المصطلح إلى عملية تحديد القيم الأولية للخصائص المستخدَمة لتطبيق نموذج، بما في ذلك:

في مشاريع تعلُّم الآلة، يمكن إجراء الإعدادات من خلال ملف إعداد خاص أو باستخدام مكتبات إعدادات مثل ما يلي:

الانحياز التأكيدي

#fairness

الميل للبحث عن المعلومات وتفسيرها وتفضيلها وتذكرها بطريقة تؤكد صحة المعتقدات أو فرضيات الشخص الموجودة مسبقًا. قد يجمع مطورو التعلم الآلي البيانات أو يصنفونها بدون قصد بطرق تؤثر على نتيجة تدعم معتقداتهم الحالية. الانحياز التأكيدي هو شكل من أشكال الانحياز الضمني.

انحياز المجرّب هو شكل من أشكال الانحياز التأكيدي الذي يستمر فيه المُجرّب في تدريب النماذج حتى يتم تأكيد فرضية موجودة مسبقًا.

مصفوفة التشويش

#fundamentals

جدول NxN يلخّص عدد التوقعات الصحيحة وغير الصحيحة التي صدر عنها نموذج تصنيف على سبيل المثال، ضع في الاعتبار مصفوفة الالتباس التالية لنموذج التصنيف الثنائي:

ورم (متوقّع) غير ورم (متوقع)
ورم (حقيقة واقعية) 18 (TP) 1 (FN)
غير الورم (حقيقة واقعية) 6 (FP) 452 (تينيسي)

توضِّح مصفوفة الالتباس السابقة ما يلي:

  • من بين 19 تنبؤًا كانت الحقيقة الأساسية فيها هي Tumor، صنّف النموذج بشكل صحيح 18 وصنَّف 1 بشكل غير صحيح.
  • من بين 458 تنبؤًا كانت الحقيقة الفعلية فيها غير ورم، وصنف النموذج بشكل صحيح 452 وصنف 6 بشكل غير صحيح.

يمكن أن تساعدك مصفوفة التشويش لمشكلة التصنيف متعدد الفئات في تحديد أنماط الأخطاء. على سبيل المثال، بالنظر إلى مصفوفة التشويش التالية لنموذج تصنيف متعدد الفئات مكون من 3 فئات يصنف ثلاثة أنواع مختلفة من قزحية الألوان (فيرجينيكا وفرسيلون وسيتوزا). عندما كانت الحقيقة الأساسية هي فيرجيكا، تُظهر مصفوفة الارتباك أن النموذج كان أكثر احتمالاً أن يتوقع عن طريق الخطأ Versicolor بدلاً من سيتوسا:

  سيتوسا (متوقع) ألوان متعددة (متوقع) فيرجينيا (متوقّعة)
سيتوزا (حقيقة واقعية) 88 12 0
ألوان متعددة (حقيقة واقعية) 6 141 7
فيرجينيا (حقيقة واقعية) 2 27 109

كمثال آخر، يمكن أن تكشف مصفوفة الالتباس أن النموذج الذي تم تدريبه على التعرف على الأرقام المكتوبة بخط اليد يميل إلى التنبؤ عن طريق الخطأ برقم 9 بدلاً من 4، أو التنبؤ عن طريق الخطأ بـ 1 بدلاً من 7.

تحتوي مصفوفة من التشويش على معلومات كافية لحساب مجموعة متنوعة من مقاييس الأداء، بما في ذلك الدقة والاستدعاء.

تحليل الناخبين

#language

قسمة الجملة إلى بُنى نحوية أصغر ("المكوّنات"). ويمكن لجزء لاحق من نظام تعلُّم الآلة، مثل نموذج فهم اللغة الطبيعية، تحليل العناصر بسهولة أكبر من الجملة الأصلية. على سبيل المثال، ضع في اعتبارك الجملة التالية:

تبنى صديقي قطتين.

يمكن للمحلل اللغوي تقسيم هذه الجملة إلى المكونين التاليين:

  • صديقي هي عبارة اسمية.
  • التبني قطتان هي عبارة فعل.

ويمكن تقسيم هذه المكونات إلى أجزاء أصغر. فعلى سبيل المثال، يمكن أن تؤدي عبارة الفعل

تبنى قطتين

إلى:

  • التبني هو فعل.
  • قطتان هي عبارة اسمية أخرى.

تضمين اللغة السياقية

#language
#generativeAI

يشير ذلك المصطلح إلى التضمين الذي يقترب من فهم الكلمات والعبارات بطرق يمكن للمتحدّثين الأصليين تنفيذها في هذا المجال. ويمكن أن تفهم عمليات تضمين اللغة التي توفّر سياقًا البنية المركّبة والدلالات والسياق.

على سبيل المثال، ننصحك بتضمين كلمة بقرة باللغة الإنجليزية. يمكن أن تمثّل عمليات التضمين القديمة، مثل word2vec، الكلمات الإنجليزية، على نحو مماثل للمسافة في مساحة التضمين من البقرة إلى الثور مع المسافة من Ewe (أنثى خروف) إلى كام (ذكور خروف) أو من أنثى إلى ذكر. يمكن أن تتطوّر عمليات التضمين اللغوية السياقية خطوة أبعد من خلال إدراك أنّ المتحدثين باللغة الإنجليزية يستخدمون أحيانًا كلمة بقرة بشكل غير رسمي للإشارة إلى "بقرة" أو "ثور".

نافذة السياق

#language
#generativeAI

عدد الرموز المميّزة التي يمكن للنموذج معالجتها في طلب معيّن. كلما كانت نافذة السياق أكبر، زادت المعلومات التي يمكن أن يستخدمها النموذج لتقديم ردود متماسكة ومتسقة للمطالبة.

خاصية مستمرة

#fundamentals

ميزة نقطة عائمة تضم نطاقًا غير محدود من القيم المحتمَلة، مثل درجة الحرارة أو الوزن.

قارِنها مع الميزة المنفصلة.

عينة عشوائية

استخدام مجموعة بيانات لم يتم جمعها علميًا لإجراء تجارب سريعة. في وقت لاحق، من الضروري التبديل إلى مجموعة بيانات تم جمعها علميًا.

التقارب

#fundamentals

حالة يتم الوصول إليها عندما تتغير قيم الخسارة بشكل ضئيل جدًا أو لا تتغير على الإطلاق مع كل تكرار. على سبيل المثال، يشير منحنى الخسارة التالي إلى التقارب عند حوالي 700 تكرار:

المخطط الديكارتي. المحور س هو الخسارة. والمحور Y هو عدد التكرارات للتدريب. تكون نسبة الخسارة مرتفعة جدًا خلال التكرارات القليلة الأولى، ولكنّها
          تنخفض بشكل كبير. بعد حوالي 100 تكرار، تظل الخسارة
          تنازليًا ولكنها أكثر تدريجًا. بعد حوالي 700 تكرار، تظل الخسارة ثابتة.

يتقارب النموذج عندما لا يحسّن التدريب الإضافي النموذج.

في التعلُّم المعمّق، تظل القيم المفقودة أحيانًا ثابتة أو تقريبًا بالنسبة إلى العديد من التكرارات قبل الهبوط في النهاية. خلال فترة طويلة من قيم الخسارة الثابتة، قد تحصل مؤقتًا على إحساس خاطئ بالتقارب.

يمكنك أيضًا الاطّلاع على الإيقاف المبكر.

دالة محدّبة

دالة تكون فيها المنطقة الواقعة فوق الرسم البياني للدالة مجموعة محدبة. ويكون شكل الدالة المحدبة النموذجية الأولية على شكل شيء مثل الحرف U. على سبيل المثال، ما يلي جميع الدوال المحدبة:

منحنيات على شكل حرف U، لكل منها نقطة حد أدنى واحدة.

في المقابل، الدالة التالية ليست محدبة. لاحظ كيف أن المنطقة فوق الرسم البياني ليست مجموعة محدبة:

منحنى على شكل حرف W يشتمل على نقطتين محليتين مختلفتين.

تحتوي الدالة المحدبة بشدة على نقطة محلية واحدة دنيا، وهي أيضًا الحدّ الأدنى العام. الدوال الكلاسيكية على شكل حرف U عبارة عن دوال محدبة تمامًا. ومع ذلك، فإن بعض الدوال المحدبة (على سبيل المثال، الخطوط المستقيمة) لا تكون على شكل حرف U.

تحسين الدالّة المحدّبة

يشير ذلك المصطلح إلى استخدام الأساليب الرياضية، مثل خوارزمية انحدار التدرج لإيجاد الحد الأدنى للدالة المحدَّبة. ركّزت أبحاث كثيرة في مجال تعلُّم الآلة على صياغة العديد من المشاكل كمشاكل تحسين محدّبة وعلى حلّها بفعالية أكبر.

للحصول على التفاصيل الكاملة، راجع بويد وفاندنبرغ، تحسين الحدود المحدَّبة.

مجموعة محدّبة

مجموعة فرعية من المسافة الإقليدية بحيث يظل الخط المرسوم بين أي نقطتين في المجموعة الفرعية داخل المجموعة الفرعية تمامًا. على سبيل المثال، الشكلان التاليان عبارة عن مجموعات محدبة:

صورة توضيحية واحدة لمستطيل رسم توضيحي آخر لشكل بيضاوي.

في المقابل، لا يمثل الشكلان التاليان مجموعات محدبة:

صورة توضيحية واحدة لمخطط دائري مع شريحة مفقودة.
          رسم توضيحي آخر لمضلّع غير منتظم إلى حدٍ كبير

التفاف

#image

في الرياضيات، يرمز إلى مزيج من دالّتين. في التعلّم الآلي، يمزج الالتفاف بين الفلتر الالتفافي ومصفوفة الإدخال من أجل تدريب القيم المرجحة.

غالبًا ما يكون مصطلح "الالتفاف" في التعلّم الآلي طريقة مختصرة للإشارة إلى العملية الالتفافية أو الطبقة الالتفافية.

بدون الالتفاف، سيتعين على خوارزمية التعلم الآلي تعلُّم وزن منفصل لكل خلية في م نطاق كبير. على سبيل المثال، ستضطر خوارزمية التعلم الآلي التي تتدرب على صور بدقة 2K x 2K إلى إيجاد ترجيحات منفصلة بحجم 4 أمتار. وبفضل الالتفافات، تحتاج خوارزمية التعلّم الآلي فقط إلى إيجاد القيم التقديرية لكل خلية في الفلتر الالتفافي، ما يقلّل بشكل كبير من الذاكرة اللازمة لتدريب النموذج. عند تطبيق عامل التصفية الالتفافي، يتم نسخه ببساطة عبر الخلايا بحيث يتم ضرب كل منها في عامل التصفية.

فلتر التفافي

#image

أحد الممثلين في عملية التفافية. (الممثل الآخر هو شريحة من مصفوفة الإدخال.) الفلتر الالتفافي هو مصفوفة لها الترتيب نفسه في مصفوفة الإدخال، ولكنها شكل أصغر. على سبيل المثال، وفقًا لمصفوفة إدخال 28x28، يمكن أن يكون الفلتر أي مصفوفة ثنائية الأبعاد أصغر من 28x28.

في المعالجة الفوتوغرافية، يتم عادةً ضبط جميع الخلايا في عامل تصفية التفافي على نمط ثابت يتكون من الآحاد والأصفار. في التعلّم الآلي، عادةً ما تظهر الفلاتر الالتفافية بأرقام عشوائية ثم القيم المثالية على تدريب الشبكة.

طبقة التفافية

#image

طبقة من الشبكة العصبية العميقة يتم فيها تمرير فلتر التفافي على مصفوفة الإدخال. على سبيل المثال، ضع في الاعتبار الفلتر الالتفافي 3×3 التالي:

مصفوفة 3×3 تتضمّن القيم التالية: [[0,1,0]، [1,0,1]، [0,1,0]]

تُظهر الصورة المتحركة التالية طبقة التفافية تتكون من 9 عمليات التفافية تشمل مصفوفة إدخال 5×5. لاحظ أن كل عملية التفافية تعمل على شريحة 3×3 مختلفة من مصفوفة الإدخال. وتتكون مصفوفة 3×3 الناتجة (على اليمين) من نتائج العمليات الالتفافية التسع:

صورة متحركة تعرض مصفوفتين. المصفوفة الأولى هي المصفوفة 5×5: [[128,97,53,201,198], [35,22,25,200,195],
 [37,24,28,197,182], [33,28,92,195,101,9], [.
          والمصفوفة الثانية هي مصفوفة 3×3:
          [[181,303,618]، [115,338,605]، [169,351,560]].
          يتم احتساب المصفوفة الثانية من خلال تطبيق الفلتر الالتفافي [[0، 1، 0]، [1، 0، 1]، [0، 1، 0]] على
 المجموعات الفرعية المختلفة 3×3 في مصفوفة 5×5.

شبكة عصبية التفافية

#image

شبكة عصبية تكون فيها طبقة واحدة على الأقل طبقة التفافية. تتكون الشبكة العصبية الالتفافية النموذجية من مجموعة من الطبقات التالية:

حققت الشبكات العصبية الالتفافية نجاحًا كبيرًا في أنواع معيّنة من المشاكل، مثل التعرّف على الصور.

عملية التفافية

#image

العملية الرياضية التالية المكونة من خطوتين:

  1. يشير ذلك إلى ضرب الفلتر الالتفافي وشريحة من مصفوفة الإدخال. (لشريحة مصفوفة الإدخال نفس الترتيب والحجم مثل الفلتر الالتفافي).
  2. مجموع كل القيم في مصفوفة المنتج الناتجة.

على سبيل المثال، ضع في الاعتبار مصفوفة إدخال 5×5 التالية:

مصفوفة 5×5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [21,910]

تخيل الآن عامل التصفية الالتفافي 2×2 التالي:

مصفوفة 2×2: [[1، 0]، [0، 1]]

وتضم كل عملية التفافية شريحة واحدة 2×2 من مصفوفة الإدخال. على سبيل المثال، لنفترض أننا نستخدم شريحة 2×2 في الجزء العلوي الأيسر من مصفوفة الإدخال. إذن، تبدو عملية الالتفاف في هذه الشريحة على النحو التالي:

تطبيق الفلتر الالتفافي [[1, 0] و[0, 1]] على القسم 2×2 أعلى اليسار من مصفوفة الإدخال، وهو [[128,97]، [35,22]].
          يترك الفلتر الالتفافي العمودين 128 و22 بدون تغيير، لكنّه ينتج عنه أصفار
 و97 و35. وبالتالي، يكون لعملية الالتفاف القيمة 150 (128+22).

تتكون الطبقة الالتفافية من سلسلة من العمليات الالتفافية، وتعمل كل منها على شريحة مختلفة من مصفوفة الإدخال.

التكلفة

مرادف loss.

التدريب المشترك

يكون منهج التعلم شبه الخاضع للإشراف مفيدًا بشكل خاص عندما تنطبق جميع الشروط التالية:

يعمل التدريب المشترك على تضخيم الإشارات المستقلة بشكل أساسي إلى إشارة أقوى. على سبيل المثال، انظر إلى نموذج تصنيف يصنّف السيارات الفردية المستعمَلة على أنّها جيدة أو سيئة. قد تركز مجموعة من الميزات التنبؤية على الخصائص المجمّعة مثل سنة وماركة السيارة وطرازها؛ وقد تركز مجموعة أخرى من الميزات التنبؤية على سجل قيادة المالك السابق وسجل صيانة السيارة.

ورقة المبدأ الأساسي حول التدريب المشترك هي الجمع بين البيانات المصنفة وغير المصنفة مع التدريب المشترك من إعداد Blum وMitchell.

العدالة المغايرة

#fairness

مقياس الإنصاف الذي يتحقّق مما إذا كان المصنِّف سينتج عن شخص واحد النتيجة نفسها التي ينتج عنها شخص آخر مطابق للأول، باستثناء ما يتعلّق بواحدة أو أكثر من السمات الحسّاسة. يعد تقييم المصنف من أجل الإنصاف المغاير إحدى طرق إظهار مصادر التحيز المحتملة في النموذج.

يمكنك الاطّلاع على صفحة " When Worlds Collide: Integating Differentivesمقابلات ضِمن الإنصاف" للاطّلاع على مناقشة أكثر تفصيلاً حول مبدأ الإنصاف المغاير.

انحياز في التغطية

#fairness

يُرجى الاطّلاع على الانحياز في الاختيار.

وردي فاتح

#language

جملة أو عبارة ذات معنى غامض. تمثل أزهار الأزهار مشكلة كبيرة في فهم اللغة الطبيعية. على سبيل المثال، يعد العنوان Red Tape Holds Up Skyscraper حطامًا لأن نموذج NLU يمكن أن يفسر العنوان الرئيسي حرفيًا أو مجازيًا.

ناقد

#rl

مرادف Deep Q-Network

الإنتروبيا العابرة

تعميم فقدان السجل إلى مشكلات التصنيف متعدد الفئات. يحدد القصور المتداخل الفرق بين توزيعي الاحتمالات. راجع أيضًا مستوى التعقيد.

التحقّق المتقاطع

يشير ذلك المصطلح إلى آلية لتقدير مدى جودة تعميم model على البيانات الجديدة عن طريق اختبار النموذج على مجموعة فرعية واحدة أو أكثر من البيانات غير المتداخلة مع حجبها من model.

دالة التوزيع التراكمي (CDF)

يشير ذلك المصطلح إلى دالة تحدِّد معدّل تكرار العينات الأقل من القيمة المستهدَفة أو مساوية لها. فعلى سبيل المثال، ضع في الاعتبار التوزيع الطبيعي للقيم المستمرة. يخبرك CDF أن ما يقرب من 50% من العينات يجب أن تكون أقل من المتوسط أو مساوية له وأن ما يقرب من 84% من العينات يجب أن تكون أقل من أو يساوي انحراف معياري واحد فوق المتوسط.

D

تحليل البيانات

الحصول على فهم للبيانات من خلال النظر في العينات والقياس والتصور. يمكن أن يكون تحليل البيانات مفيدًا بشكل خاص عند استلام مجموعة بيانات لأول مرة، قبل أن ينشئ أحدها model الأول. من الأهمية بمكان أيضًا فهم التجارب وتصحيح المشكلات في النظام.

زيادة البيانات

#image

تعزيز نطاق أمثلة التدريب بشكل مصطنع عن طريق تحويل الأمثلة الحالية لإنشاء أمثلة إضافية على سبيل المثال، افترض أنّ الصور هي إحدى الميزات، لكن مجموعة البيانات لا تحتوي على أمثلة كافية عن الصور للنموذج من أجل معرفة الارتباطات المفيدة. يُنصح بإضافة عدد كافٍ من الصور المصنَّفة إلى مجموعة البيانات للسماح بتدريب نموذجك بشكل صحيح. وإذا لم يكن ذلك ممكنًا، يمكن لميزة زيادة البيانات تدوير كل صورة وتوسيعها وعكسها لإنشاء العديد من المتغيرات للصورة الأصلية، ما قد ينتج عنه بيانات مصنفة كافية لتوفير تدريب ممتاز.

DataFrame

#fundamentals

يشير ذلك المصطلح إلى نوع شائع من بيانات pandas لتمثيل مجموعات البيانات في الذاكرة.

يُعد إطار البيانات مماثلاً للجدول أو جدول البيانات. لكل عمود في DataFrame اسم (عنوان)، ويتم تحديد كل صف برقم فريد.

تتم هيكلة كل عمود في DataFrame كصفيف ثنائي الأبعاد، باستثناء أنه يمكن تعيين نوع بيانات خاص لكل عمود.

يمكنك الاطّلاع أيضًا على الصفحة المرجعية pandas.DataFrame الرسمية.

موازاة البيانات

طريقة لتوسيع نطاق التدريب أو الاستنتاج التي تعمل على تكرار نموذج بأكمله على أجهزة متعددة ثم تمرير مجموعة فرعية من بيانات الإدخال إلى كل جهاز يمكن للتوازي مع البيانات أن يتيح التدريب واستنتاج أحجام مجموعات كبيرة جدًا، ومع ذلك، يتطلّب التوازي في البيانات أن يكون النموذج صغيرًا بما يكفي ليناسب جميع الأجهزة.

يؤدي التوازي مع البيانات عادةً إلى تسريع التطبيق والاستنتاج.

راجِع أيضًا التوازي للنموذج.

مجموعة بيانات أو مجموعة بيانات

#fundamentals

مجموعة من البيانات الأولية، عادةً (وليست حصريًا) منظّمة بأحد التنسيقات التالية:

  • جدول بيانات
  • ملف بتنسيق CSV (قيم مفصولة بفواصل)

Dataset API (tf.data)

#TensorFlow

واجهة برمجة تطبيقات TensorFlow عالية المستوى لقراءة البيانات وتحويلها إلى نموذج تتطلّبه خوارزمية تعلُّم الآلة. يمثّل الكائن tf.data.Dataset سلسلة من العناصر يحتوي فيها كل عنصر على أدوات استشعار واحدة أو أكثر. يوفّر الكائن tf.data.Iterator إمكانية الوصول إلى عناصر Dataset.

للحصول على تفاصيل حول Dataset API، يُرجى الاطّلاع على مقالة tf.data: إنشاء مسارات إدخال TensorFlow في دليل TensorFlow Programmer.

حدود القرار

يشير ذلك المصطلح إلى الفاصل بين الفئات التي تم تعلُّمها باستخدام نموذج في فئة ثنائية أو مسائل التصنيف المتعدّد الفئات. على سبيل المثال، في الصورة التالية التي تمثل مشكلة التصنيف الثنائي، تكون حدود القرار هي الحدود بين الفئة البرتقالية والفئة الزرقاء:

يشير ذلك المصطلح إلى حدود واضحة وواضحة بين فئة وأخرى.

غابة قرارات

#df

يشير ذلك المصطلح إلى نموذج يتم إنشاؤه من عدة أشجار قرارات. تقوم غابة القرارات بالتنبؤ من خلال تجميع تنبؤات أشجار القرارات. تشمل الأنواع الشائعة من غابات القرار الغابات العشوائية والغابات المحسّنة المتدرجة.

حد القرار

مرادف الحدّ الأدنى للتصنيف

شجرة القرارات

#df

هو نموذج تعلُّم خاضع للإشراف يتألّف من مجموعة من conditions وconditions المنظّمة بشكل هرمي. على سبيل المثال، فيما يلي شجرة قرارات:

شجرة قرار تتألّف من أربعة شروط مرتبة في تسلسل هرمي يؤدي إلى خمس أوراق.

برنامج فك الترميز

#language

وبشكل عام، أي نظام تعلُّم الآلة يتحوّل من تمثيل داخلي أو معالَج أو كثافة إلى تمثيل خارجي أكثر أو أقل كثافة.

غالبًا ما تكون برامج فك الترميز جزءًا من طراز أكبر، حيث يتم إقرانها غالبًا ببرنامج ترميز.

في المهام ذات التسلسل إلى التسلسل، يبدأ برنامج فك الترميز بالحالة الداخلية التي أنشأها برنامج الترميز لتوقّع النتيجة التالية.

راجِع المحوِّل للاطّلاع على تعريف برنامج فك الترميز ضمن بنية المحوِّل.

نموذج عميق

#fundamentals

شبكة عصبية تحتوي على أكثر من طبقة مخفية.

يُعرف النموذج العميق أيضًا باسم الشبكة العصبية العميقة.

تباين مع النموذج العريض.

شبكة عصبية عميقة

مرادف نموذج عميق.

شبكة Q-Network (DQN)

#rl

في برنامج Q-learning، وهو شبكة عصبية عميقة تتنبأ فيها بالدوال Q.

Critic هو مرادف لـ Deep Q-Network.

التكافؤ الديموغرافي

#fairness

مقياس إنصاف يتم استيفاؤه إذا كانت نتائج تصنيف النموذج غير معتمدة على سمة حساسة محدّدة.

على سبيل المثال، إذا تقدّم كلّ من الليلبوتيين والبروبادنغناجيين بطلب الالتحاق بجامعة غلوبدوبدريب، يتم تحقيق التكافؤ الديموغرافي إذا كانت نسبة الليلبوتيين المقبولين هي نفسها النسبة المئوية للبروبديناجينا، بغض النظر عما إذا كانت إحدى المجموعتين في المتوسط أكثر تأهلاً من الأخرى.

تتباين مع الاحتمالات المتساوية ومساواة الفرص، التي تسمح للتصنيف الناتج بالاعتماد بشكل عام بالاعتماد على السمات الحساسة، ولكنه لا يسمح لنتائج التصنيف بتصنيفات معيّنة محدّدة من تصنيفات الحقيقة الأساسية والتي تعتمد على السمات الحساسة. راجِع القسم "الهجمات على التمييز باستخدام تعلُّم الآلة الأكثر ذكاءً" للاطّلاع على عرض مرئي يستكشف المفاضلات عند التحسين من أجل تحقيق التكافؤ الديموغرافي.

إزالة الضوضاء

#language

أحد الأساليب الشائعة المرتبطة بالتعلم الذاتي والذي:

  1. تتمّ إضافة الضوضاء بشكل مصطنع إلى مجموعة البيانات.
  2. تحاول model إزالة التشويش.

تتيح إزالة التشويش التعلُّم من الأمثلة غير المصنَّفة. تعمل مجموعة البيانات الأصلية كهدف أو label والبيانات الصاخبة كإدخال.

تستخدم بعض النماذج اللغوية المقنَّعة إزالة الضوضاء على النحو التالي:

  1. تتم إضافة الضوضاء بشكل مصطنع إلى جملة غير مصنّفة عن طريق إخفاء بعض الرموز المميّزة.
  2. ويحاول النموذج التنبؤ بالرموز المميزة الأصلية.

خاصية كثيفة

#fundamentals

ميزة تكون فيها معظم أو كل القيم غير صفرية، وهي عادةً Tensor لقيم النقاط العائمة. على سبيل المثال، يكون Tensor التالي المكون من 10 عناصر كثيفًا لأن 9 من قيمه غير صفرية:

8 3 7 5 2 4 0 4 9 6

قارِنها مع ميزة متفرقة.

طبقة كثيفة

مرادف الطبقة المتصلة بالكامل.

العمق

#fundamentals

مجموع ما يلي في شبكة عصبية:

على سبيل المثال، الشبكة العصبية تضم خمس طبقات مخفية وطبقة إخراج واحدة يبلغ عمقها 6 طبقات.

لاحظ أن طبقة الإدخال لا تؤثر في العمق.

الشبكة العصبية الالتفافية القابلة للفصل بشكل عمق (sepCNN)

#image

يشير هذا المصطلح إلى بنية الشبكة العصبونية الالتفافية استنادًا إلى Inception، ولكن يتم فيها استبدال وحدات Inception بلفّات يمكن الفصل بينها بعمق. وتُعرف أيضًا باسم Xception.

يعمل اللفائف القابلة للفصل بعمق مضاعفة (ويُختصر أيضًا على أنه التفاف قابل للفصل) في إنشاء عمليتَي التفاف منفصلتين أكثر كفاءة من الناحية الحسابية: أولًا، التفاف حكيم بعمق 1 (ن مضاعفة مضاعفة مرة)، ثم ثانية، التفاف طولي 1 (وعرض نقطة 1)

للمزيد من المعلومات، يمكنك الاطّلاع على مقالة Xception: Deep Learning with Depthwise Separable Convolutions.

تصنيف مشتق

مرادف تصنيف الخادم الوكيل

الجهاز

#TensorFlow
#GoogleCloud

عبارة محملة زائدة مع التعريفين المحتملين التاليين:

  1. هي فئة من الأجهزة التي يمكنها تشغيل جلسة TensorFlow، بما في ذلك وحدات المعالجة المركزية (CPU) ووحدات معالجة الرسومات، ووحدات معالجة الموتّرات.
  2. عند تدريب نموذج تعلُّم الآلة على شرائح المسرّع (وحدات معالجة الرسومات أو وحدات معالجة الموتّرات)، وهي جزء النظام الذي يتلاعب فعليًا بوحدات الشدّة وعمليات التضمين. يعمل الجهاز على شرائح مسرِّعة أعمال. في المقابل، يعمل المضيف عادةً على وحدة المعالجة المركزية (CPU).

الخصوصية التفاضلية

في تعلُّم الآلة، يشير هذا المصطلح إلى أسلوب إخفاء الهوية لحماية أي بيانات حسّاسة (مثل المعلومات الشخصية للفرد) المضمّنة في مجموعة التدريب الخاصة بالنموذج. يضمن هذا النهج أنّ model لا يتعلّم أو يتذكّر الكثير عن فرد محدّد. ويمكن تحقيق ذلك من خلال أخذ العينات وإضافة التشويش أثناء تدريب النموذج لإخفاء نقاط البيانات الفردية، ما يقلل من مخاطر الكشف عن بيانات التدريب الحساسة.

وتُستخدم الخصوصية التفاضلية أيضًا خارج نطاق تعلُّم الآلة. على سبيل المثال، يستخدم علماء البيانات أحيانًا الخصوصية التفاضلية لحماية الخصوصية الفردية عند حساب إحصاءات استخدام المنتج لخصائص ديمغرافية مختلفة.

تقليل الأبعاد

تقليل عدد الأبعاد المستخدمة لتمثيل ميزة معيّنة في الخط المتّجه للميزة، عن طريق التحويل عادةً إلى متجه تضمين

الأبعاد

مصطلح مثقل بحمل زائد له أي من التعريفات التالية:

  • عدد مستويات الإحداثيات في Tensor على سبيل المثال:

    • للمقياس العددي أبعاد صفرية، على سبيل المثال، ["Hello"].
    • للخط المتجه بُعد واحد، على سبيل المثال [3, 5, 7, 11].
    • والمصفوفة لها سمتان، على سبيل المثال [[2, 4, 18], [5, 7, 14]].

    يمكنك تحديد خلية معينة بشكل فريد في متجه أحادي البعد بإحداثي واحد؛ تحتاج إلى إحداثيتين لتحديد خلية معينة بشكل فريد في مصفوفة ثنائية الأبعاد.

  • عدد الإدخالات في متجه الميزة.

  • عدد العناصر في طبقة التضمين.

طلب مباشر

#language
#generativeAI

مرادف لعبارة طلب عدم توفّر لقطة شاشة.

خاصية المنفصلة

#fundamentals

ميزة تتضمّن مجموعة محدودة من القيم المحتمَلة. على سبيل المثال، تُعد الميزة التي قد تكون قيمها حيوان أو نبات أو معدن فقط، وهي ميزة منفصلة (أو فئوية).

يتباين مع الميزة المستمرة.

نموذج تمييزي

model يتنبأ model من مجموعة من model واحدة أو أكثر. وتحدّد النماذج التمييزية بشكل أكثر رسمية الاحتمالية المشروطة لمخرج معيَّن وفقًا للسمات والقيم التقديرية، أي:

p(output | features, weights)

على سبيل المثال، النموذج الذي يتنبأ بما إذا كانت رسالة البريد الإلكتروني هي بريد إلكتروني غير مرغوب فيه من الميزات والأوزان هو نموذج تمييزي.

تعد الغالبية العظمى من نماذج التعلم المُوجّه، بما في ذلك نماذج التصنيف والانحدار، نماذج تمييزية.

قارِنها مع النموذج التوليدي.

مُميِّز

هو نظام يحدّد ما إذا كانت الأمثلة حقيقية أم مزيفة.

بدلاً من ذلك، يعتمد النظام الفرعي ضمن شبكة المحتوى المخادعة التوليدية على ما إذا كانت الأمثلة التي أنشأها أداة الإنشاء حقيقية أم مزيفة.

تأثير متباين

#fairness

اتخاذ قرارات بشأن الأشخاص الذين يؤثرون في مجموعات فرعية مختلفة بشكل غير متناسب. يشير هذا عادةً إلى المواقف التي تضر فيها عملية اتخاذ القرار الخوارزمية بعض المجموعات الفرعية أو تستفيد منها أكثر من غيرها.

على سبيل المثال، لنفترض أن الخوارزمية التي تحدد أهلية الأشخاص في "ليليبوت" للحصول على قرض منزلي مصغر، من المرجح أن تصنفه على أنه "غير مؤهل" إذا كان عنوانه البريدي يحتوي على رمز بريدي معين. إذا كان من المرجح أن يكون لدى Big-Endian Lilliputians عناوين بريدية بهذا الرمز البريدي أكثر من Little-Endian Lilliputians، قد تؤدي هذه الخوارزمية إلى تأثير متباين.

على عكس العلاج المتباين الذي يركز على الفروقات التي تنتج عندما تكون خصائص المجموعة الفرعية مدخلات صريحة لعملية اتخاذ القرار الخوارزمية.

العلاج المنفصل

#fairness

تحليل السمات الحساسة للموضوعات في عملية اتخاذ قرار خوارزمية بحيث يتم التعامل مع المجموعات الفرعية المختلفة من الأشخاص بشكل مختلف.

على سبيل المثال، ضع في اعتبارك خوارزمية تحدد أهلية Lilliputians للحصول على قرض منزل مصغّر بناءً على البيانات التي يقدمونها في طلب القروض. إذا استخدمت الخوارزمية ارتباطًا ليليبوتي باعتباره Big-Endian أو Little-Endian كمدخل، فإنها تطبق معاملة متباينة على هذا البعد.

على عكس التأثير المتباين الذي يركز على الفروق في التأثيرات المجتمعية للقرارات الخوارزمية على المجموعات الفرعية، بغض النظر عما إذا كانت هذه المجموعات الفرعية مدخلات للنموذج.

الاستخلاص

#generativeAI

عملية تصغير حجم model واحد (يُعرف باسم model) إلى نموذج أصغر (يُعرف باسم model) يحاكي توقعات النموذج الأصلي بأكبر قدر ممكن من الأمان. يُعد التقطير مفيدًا لأن النموذج الأصغر له فائدتان رئيسيتان على النموذج الأكبر (المعلم):

  • وقت استنتاج أسرع
  • انخفاض استخدام الذاكرة والطاقة

ومع ذلك، فإن تنبؤات الطالب ليست جيدة عادةً مثل تنبؤات المعلم.

يعمل استخلاص المعلومات على تدريب نموذج الطالب لتقليل دالة الخسارة بناءً على الفرق بين مخرجات توقّعات نموذج الطالب والمعلّم.

قارِن بين الاستنتاجات والمصطلحات التالية:

distribution

معدل تكرار ونطاق القيم المختلفة لميزة أو تصنيف معيّنين. يشير التوزيع إلى مدى احتمالية ظهور قيمة معيّنة.

توضح الصورة التالية مدرجات تكرارية لتوزيعين مختلفين:

  • على اليسار، توزيع قانون القوة للثروة مقابل عدد الأشخاص الذين يمتلكون هذه الثروة.
  • على اليمين، التوزيع الطبيعي للارتفاع مقابل عدد الأشخاص الذين يمتلكون هذا الطول.

مدرجان تكراريان. يوضّح أحد المدرّجات التكرارية توزيع قانون القوة مع
          الثروة على المحور x وعدد الأشخاص الذين يمتلكون هذه الثروة على
          المحور y. يمتلك معظم الأشخاص ثروة قليلة جدًا، بينما يمتلك عدد قليل منهم الكثير من الثروة. ويوضّح المدرج التكراري الآخر توزيعًا طبيعيًا بارتفاع على المحور س وعدد الأشخاص الذين لديهم هذا الارتفاع على المحور ص. يتم تجميع معظم الأشخاص في مكان ما بالقرب من المتوسط.

يمكن أن يساعدك فهم كل ميزة وتصنيف تصنيف في تحديد كيفية تسوية القيم ورصد القيم الشاذّة.

تشير عبارة خارج التوزيع إلى قيمة لا تظهر في مجموعة البيانات أو هي قيمة نادرة جدًا. على سبيل المثال، سيتم اعتبار صورة لكوكب زحل خارج التوزيع لمجموعة بيانات تتكون من صور قطط.

التجميع العنقودي التقسيمي

#clustering

راجِع التجميع الهرمي.

تصغير نطاق العيّنات

#image

مصطلح محمَّل فوق الحد الأقصى يمكن أن يعني أيًا مما يلي:

  • تقليل كم المعلومات في ميزة من أجل تدريب نموذج أكثر كفاءة. على سبيل المثال، قبل التدريب على نموذج التعرف على الصور، قم بتقليل عيّنات الصور العالية الدقة إلى تنسيق أقل دقة.
  • التدريب على نسبة منخفضة غير متناسبة من أمثلة الصفوف ذات التمثيل الزائد لتحسين تدريب النموذج على الفئات محدودة التمثيل. على سبيل المثال، في مجموعة البيانات غير المتوازنة، تميل النماذج إلى تعلّم الكثير عن فئة الأغلبية ولا تعرِف معلومات كافية عن فئة الأقليات. يساعد تضييق نطاق العينات في تحقيق التوازن بين مقدار التدريب على فصول الأغلبية والأقليات.

رقم DQN

#rl

اختصار Deep Q-Network

تسوية الإسقاط

يشير هذا المصطلح إلى شكل من أشكال التنظيم المفيد في تدريب الشبكات العصبونية. تؤدي تسوية القائمة المنسدلة إلى إزالة الاختيار العشوائي لعدد ثابت من الوحدات في طبقة الشبكة لخطوة تدرج واحدة. كلما ازداد عدد الوحدات التي تم انسحابها، كان التنظيم أقوى. ويتماثل ذلك مع تدريب الشبكة على محاكاة مجموعة كبيرة للغاية من الشبكات الأصغر حجمًا. للحصول على التفاصيل الكاملة، راجع الانسحاب: طريقة بسيطة لمنع فرط التخصيص في الشبكات العصبونية.

ديناميكي

#fundamentals

شيء ما يتم بشكل متكرر أو مستمر. المصطلحان ديناميكي وعلى الإنترنت مرادفان في تقنية تعلُّم الآلة. في ما يلي الاستخدامات الشائعة للديناميكي وعلى الإنترنت في تعلُّم الآلة:

  • النموذج الديناميكي (أو النموذج على الإنترنت) هو نموذج تتم إعادة تدريبه بشكل متكرر أو مستمر.
  • التدريب الديناميكي (أو التدريب على الإنترنت) هو عملية التدريب بشكل متكرّر أو مستمر.
  • الاستنتاج الديناميكي (أو الاستنتاج على الإنترنت) هو عملية إنشاء عبارات بحث مقترحة عند الطلب.

نموذج ديناميكي

#fundamentals

model الذي تتم إعادة تدريبه بشكل متكرر (ربما حتى بشكل مستمر). النموذج الديناميكي هو "المتعلم مدى الحياة" الذي يتكيف باستمرار مع البيانات المتطورة. يُعرف النموذج الديناميكي أيضًا باسم النموذج على الإنترنت.

تباين مع النموذج الثابت.

E

الإعدام الحماسي

#TensorFlow

بيئة برمجة TensorFlow يتم فيها تشغيل operations بشكل فوري. في المقابل، لا يتم تنفيذ العمليات المستندة إلى تنفيذ الرسم البياني إلى أن يتم تقييمها بشكلٍ صريح. التنفيذ السريع هو واجهة أساسية تشبه إلى حدّ كبير الرمز البرمجي في معظم لغات البرمجة. عادةً ما تكون برامج التنفيذ السريعة أسهل بكثير في تصحيح الأخطاء من برامج تنفيذ الرسم البياني.

إيقاف مبكر

#fundamentals

يشير ذلك المصطلح إلى طريقة لتنظيم البيانات تتضمّن إنهاء التدريب قبل انخفاض معدّل فقدان التدريب. عند الإيقاف المبكر، تتوقف عن تدريب النموذج عندما يبدأ معدل فقدان مجموعة بيانات التحقق في الزيادة، أي عندما يتفاقم أداء التعميم.

مسافة محرك الأرض (EMD)

يشير ذلك المصطلح إلى مقياس التشابه النسبي لعمليتَي توزيع. وكلما انخفضت مسافة دافع الأرض، كانت التوزيعات أكثر تشابهًا.

تعديل المسافة

#language

يشير ذلك المصطلح إلى قياس لمدى تشابه سلسلتَين نصيتَين مع بعضهما. في تعلُّم الآلة، تعديل المسافة يكون مفيدًا لأنّها سهلة الحساب، وهي طريقة فعّالة لمقارنة سلسلتَين معروفتَين بأنّهما متشابهتان أو للعثور على سلاسل مشابهة لسلسلة معيَّنة.

هناك العديد من التعريفات لمسافة التعديل، يستخدم كل منها عمليات سلسلة مختلفة. على سبيل المثال، تعتبر مسافة Levenshtein أقل عدد من عمليات الحذف والإدراج والاستبدال.

على سبيل المثال، مسافة Levenshtein بين الكلمتين "قلب" و "سهام" هي 3 لأن التعديلات الثلاثة التالية هي أقل التغييرات لتحويل كلمة إلى أخرى:

  1. قلب ← deart (استبدل "h" بـ "d")
  2. deart ← dart (حذف "e")
  3. لعبة dart ← لعبة dart (إدراج "s")

تدوين Einsum

يشير ذلك المصطلح إلى رمز فعال لوصف كيفية دمج معدّلَين. يتم دمج الموتر من خلال ضرب عناصر أحد الموترين في عناصر المتردد الآخر ثم جمع حاصل الضرب. يستخدم تدوين Einsum الرموز لتحديد محاور كل متوتر، وتتم إعادة ترتيب هذه الرموز نفسها لتحديد شكل المتوتر الجديد الناتج.

توفر NumPy عملية تنفيذ Einsum شائعة.

طبقة التضمين

#language
#fundamentals

هي طبقة مخفية خاصة تدرَّب على ميزة فئوية عالية الأبعاد تتعلّم تدريجيًا متجه تضمين بُعد أقل. وتعمل طبقة التضمين على تمكين الشبكة العصبية من التدرّب بكفاءة أكبر من التدريب على ميزة التصنيف ذات الأبعاد العالية فقط.

على سبيل المثال، يدعم Earth حاليًا حوالي 73,000 نوع من الأشجار. لنفترض أنّ أنواع الأشجار هي ميزة في النموذج، لذا فإن طبقة إدخال نموذجك تتضمن متجهًا واحدًا ساخنًا يبلغ طوله 73,000 عنصر. على سبيل المثال، قد يتم تمثيل baobab على النحو التالي:

مصفوفة مكونة من 73000 عنصر. ويحتوي أول 6,232 عنصرًا على القيمة 0. يحتوي العنصر التالي على القيمة 1. وتحتوي العناصر الـ 66,767 النهائية على القيمة صفر.

الصفيف الذي يضم 73000 عنصر طويل جدًا. إذا لم تقم بإضافة طبقة تضمين إلى النموذج، فسيستغرق التدريب وقتًا طويلاً بسبب ضرب 72999 صفراً. ربما تختار طبقة التضمين لتكون من 12 بُعدًا. وبالتالي، ستتعلم طبقة التضمين تدريجيًا متّجه تضمين جديدًا لكل نوع من أنواع الأشجار.

في بعض الحالات، يكون التجزئة بديلاً معقولاً لطبقة التضمين.

مساحة التضمين

#language

المساحة المتجهة ذات الأبعاد الثلاثية التي تظهر من مساحة متجهة ذات أبعاد أعلى. من الناحية المثالية، تحتوي مساحة التضمين على بنية ينتج عنها نتائج رياضية ذات مغزى؛ على سبيل المثال، في مساحة تضمين مثالية، يمكن أن تؤدي إضافة وطرح التضمينات إلى حل مهام تشبيه الكلمات.

يُعد المنتج النقطي لتضمينين تضمين مقياسًا للتشابه بينهما.

متّجه تضمين

#language

بشكل عام، مصفوفة من أرقام النقاط العائمة المأخوذة من أي طبقة مخفية تصف المدخلات إلى تلك الطبقة المخفية. غالبًا ما يكون متجه التضمين هو صفيف أرقام النقاط العائمة المدرَّبة على طبقة تضمين. على سبيل المثال، لنفترض أن طبقة التضمين يجب أن تتعلم متجهًا للتضمين لكل نوع من أنواع الأشجار التي يبلغ عددها 73000 على الأرض. ربما الصفيفة التالية هي متجه التضمين لشجرة الباوباب:

مصفوفة من 12 عنصرًا، يحتوي كل منها على رقم نقطة عائمة بين 0.0 و1.0.

متجه التضمين ليس مجموعة من الأرقام العشوائية. وتحدد طبقة التضمين هذه القيم من خلال التطبيق، على غرار الطريقة التي تتعلم بها الشبكة العصبونية الأوزان الأخرى أثناء التدريب. كل عنصر من عناصر الصفيف هو تقييم إلى جانب بعض خصائص أنواع الأشجار. ما العنصر الذي يمثل خاصية أنواع الأشجار؟ يصعب جدًا على البشر تحديده.

الجزء الرائع رياضيًا من متجه التضمين هو أن العناصر المتشابهة تحتوي على مجموعات متشابهة من أرقام النقاط العائمة. على سبيل المثال، تحتوي أنواع الأشجار المتشابهة على مجموعة متشابهة من أرقام النقاط العائمة أكثر من أنواع الأشجار غير المتشابهة. الخشب الأحمر والسيكويا من أنواع الأشجار ذات الصلة، لذا سيكون لديها مجموعة أكثر تماثلاً من الأرقام التي تشير إلى العائمة من أشجار الخشب الأحمر ونخيل جوز الهند. ستتغير الأرقام في متجه التضمين في كل مرة تعيد فيها ضبط النموذج، حتى إذا أعدت تدريب النموذج بمدخلات متطابقة.

دالة التوزيع التراكمية التجريبية (eCDF أو EDF)

دالة توزيع تراكمي تعتمد على قياسات تجريبية من مجموعة بيانات حقيقية. قيمة الدالة عند أي نقطة على طول المحور س هي جزء القيم المرصودة في مجموعة البيانات التي تقل عن القيمة المحددة أو تساويها.

تخفيض المخاطر التجريبية (ERM)

اختيار الدالة التي تقلل من الخسارة في مجموعة التدريب. على عكس الحدّ من المخاطر الهيكلية

برنامج تشفير

#language

وبشكل عام، أي نظام تعلُّم الآلة يتحوّل من تمثيل أولي أو متناثر أو خارجي إلى تمثيل داخلي أكثر معالجة أو كثافة أو أعلى.

تكون برامج الترميز غالبًا مكوّنًا من نموذج أكبر، حيث يتم إقرانها بشكل متكرر ببرنامج فك الترميز. وتعمل بعض المحوّلات على إقران برامج الترميز ببرامج فك الترميز، إلا أنّ المحولات الأخرى تستخدم برنامج الترميز فقط أو برنامج فك الترميز فقط.

تستخدم بعض الأنظمة مخرجات برنامج الترميز كمدخل إلى شبكة تصنيف أو انحدار.

في مهام التسلسل إلى التسلسل، يأخذ برنامج الترميز تسلسل إدخال ويعرض حالة داخلية (متجه). بعد ذلك، يستخدم برنامج فك الترميز تلك الحالة الداخلية لتوقُّع التسلسل التالي.

يُرجى الرجوع إلى المحول للاطّلاع على تعريف برنامج الترميز في بنية المحوّل.

مجموعة موحدة

يشير ذلك المصطلح إلى مجموعة من النماذج التي تم تدريبها بشكل مستقل ويتم حساب متوسط توقّعاتها أو تجميعها. في كثير من الحالات، تنتج المجموعة الواحدة تنبؤات أفضل من نموذج واحد. على سبيل المثال، الغابة العشوائية هي مجموعة موحدة من عدة أشجار قرارات. يُرجى العلم بأنّه ليست كل غابات القرارات مجموعات مترابطة.

الإنتروبيا

#df

في نظرية المعلومات، هي وصف لعدم توقّع أي توزيع للاحتمالية. بدلاً من ذلك، يتم تعريف القصور أيضًا على أنه مقدار المعلومات التي يحتوي عليها كل مثال. يحتوي التوزيع على أعلى قصور ممكن عندما تكون جميع قيم أي متغير عشوائي متساوية.

قصور مجموعة ذات قيمتين محتملتين "0" و "1" (على سبيل المثال، التصنيفات في مسألة التصنيف الثنائي) لها الصيغة التالية:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

المكان:

  • H هو القصور.
  • p هي الكسر من أمثلة "1".
  • q هو الكسر من أمثلة "0". لاحظ أن q = (1 - p)
  • عادةً ما يكون log هو السجلّ2. في هذه الحالة، تكون وحدة القصور قليلاً.

على سبيل المثال، لنفترض ما يلي:

  • 100 مثال يحتوي على القيمة "1"
  • 300 مثال يحتوي على القيمة "0"

وبالتالي، تكون قيمة القصور على النحو التالي:

  • p = 0.25
  • ربع = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 بت لكل مثال

فالمجموعة المتوازنة بشكل مثالي (على سبيل المثال، 200 "0" و200 "1") ستحتوي على قصور 1.0 بت لكل مثال. وكلما أصبحت إحدى المجموعات غير متوازنة، يتحرك قصورها نحو 0.0.

في أشجار القرارات، يساعد القصور في صياغة تحصيل المعلومات لمساعدة التقسيم في تحديد الشروط أثناء نمو شجرة قرارات التصنيف.

مقارنة القصور بـ:

غالبًا ما يُطلق على القصور في اسم قصور شانون.

بيئة

#rl

في مجال التعلّم المعزّز، إنّ العالم الذي يحتوي على الوكيل ويسمح للوكيل بتتبُّع الحالة العالمية لذلك. على سبيل المثال، قد يكون العالم الممثل لعبة مثل الشطرنج، أو عالمًا ماديًا مثل المتاهة. عندما يطبِّق الوكيل إجراءً على البيئة، تنتقل البيئة بين الحالات.

حلقة

#rl

في التعلّم المعزّز، تتمثّل كل محاولة من المحاولات المتكرّرة من الوكيل في تعلُّم بيئة.

حقبة

#fundamentals

عبارة عن تصريح تدريب كامل على مجموعة التدريب بالكامل بحيث تتم معالجة كل مثال مرة واحدة.

تمثل الفترة N/حجم الدفعة للتدريب على التكرارات، حيث يمثل N إجمالي عدد الأمثلة.

على سبيل المثال، لنفترض ما يلي:

  • تتكون مجموعة البيانات من 1000 مثال.
  • يبلغ حجم الدفعة 50 مثالاً.

لذلك، تتطلب حقبة واحدة 20 تكرارًا:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

سياسة الجشع في إبسيلون

#rl

في التعلّم المعزّز، يشير هذا المصطلح إلى سياسة تتّبع سياسة عشوائية مع احتمالية إبسيلون أو سياسة الجشع. على سبيل المثال، إذا كانت قيمة إبسيلون هي 0.9، تتّبع السياسة سياسة عشوائية بنسبة 90% من الوقت وسياسة جشعة بنسبة 10% من الوقت.

خلال الحلقات المتتالية، تقلل الخوارزمية قيمة إبسيلون لتتحول من اتباع سياسة عشوائية إلى اتباع سياسة الجشع. من خلال تغيير السياسة، يستكشف الوكيل أولاً البيئة بشكل عشوائي، ثم يستغلّ بشراهة نتائج الاستكشاف العشوائي.

تكافؤ الفرص

#fairness

مقياس الإنصاف لتقييم ما إذا كان النموذج يتوقّع النتيجة المرجوة بشكل متساوٍ لجميع قيم السمة الحسّاسة بعبارة أخرى، إذا كانت النتيجة المنشودة للنموذج هي الفئة الإيجابية، يكون الهدف هو أن يكون المعدّل الإيجابي الصحيح هو نفسه لجميع المجموعات.

ترتبط مساواة الفرص بالاحتمالات المتساوية، ما يتطلّب أن يكون كلّ من المعدلات الموجبة الصحيحة والنسب الموجبة الخاطئة متماثلة في جميع المجموعات.

لنفترض أن جامعة غلوبدوبدريب تمنح كل من ليليبوتيبان و بروبدينانغيان برنامجًا صارمًا في الرياضيات. تقدم مدارس Lilliputians منهجًا قويًا لدروس الرياضيات، والغالبية العظمى من الطلاب مؤهلون لبرنامج الجامعة. لا تقدم المدارس الثانوية في Brobdingnagians دروسًا في الرياضيات على الإطلاق، ونتيجةً لذلك، عدد أقل بكثير من الطلاب مؤهلون. تُكتسَب فرص المساواة في الحصول على التصنيف المفضّل "المقبول" في ما يتعلّق بالجنسية (Lilliputian أو Brobdingnagian) إذا كان من المرجّح أن يتم قبول الطلاب المؤهّلين بشكل متساوٍ بغض النظر عمّا إذا كانوا من أبناء ليليبوتي (Lilliputian) أو Brobdingnagian.

على سبيل المثال، لنفترض أنّ 100 من ليليبوت و100 من بروبدينجناجيين قدّموا طلبًا للانضمام إلى جامعة غلوبدوبدريب، وتم اتخاذ قرارات القبول على النحو التالي:

الجدول 1. المتقدمون من Lilliputian (%90 مؤهلون)

  مؤهَّل غير معرَّف
مسموح بالانضمام 45 3
تم الرفض 45 7
المجموع 90 10
النسبة المئوية للطلاب المؤهلين: 45/90 = 50%
النسبة المئوية للطلاب غير المؤهَّلين الذين تم رفضهم: 7/10 = 70%
النسبة المئوية الإجمالية للطلاب من ليليبوتو الملتحقين: (45+3)/100 = 48%

 

الجدول 2. المتقدمون للانضمام إلى Brobdingnagian (%10 مؤهلون):

  مؤهَّل غير معرَّف
مسموح بالانضمام 5 9
تم الرفض 5 81
المجموع 10 90
النسبة المئوية للطلاب المؤهلين: 5/10 = 50%
النسبة المئوية للطلاب غير المؤهَّلين الذين تم رفضهم: 81/90 = 90%
النسبة المئوية الإجمالية للطلاب في بروبينغناgian بهواة: (5+9)/100 = 14%

تُرضي الأمثلة السابقة مساواة الفرصة لقبول الطلاب المؤهلين لأن كل من أعضاء الليليبوتيين المؤهلين وبروbdingnagians المؤهلين لديهما فرصة 50% للقبول.

على الرغم من إرضاء تكافؤ الفرص، إلا أن مقياسي الإنصاف التاليين غير راضين:

  • التكافؤ السكاني: يكون الالتحاق للطلاب ليلبوتيون وطلاب بروبديناجينايا المُسجَّلين بمختلف معدّلات الالتحاق، حيث يُسمح للدراسة بنسبة 48% من طلاب ليليبوتيان، لكن يُسمح فقط بنسبة% 14 من طلاب بروبينغناجيا للطلاب.
  • احتمالات متساوية: مع أنّ طلاب ليليبوت وطلاب بروبدينجناجيين المؤهَّلين لديهما الفرصة نفسها للقبول، لا راضي عن القيد الإضافي الذي يقضي برفض الطلاب غير المؤهَّلين من طلاب الليليبيين وغير المؤهَّلين. يبلغ معدّل رفض الأشخاص غير المؤهَّلين% 70، في حين أنّ معدّل رفض أفراد Brobdingnagis غير المؤهَّلين% 90.

يمكنك مراجعة المقالة بعنوان "مساواة الفرص في التعلُّم الخاضع للإشراف" للحصول على مناقشة أكثر تفصيلاً حول تكافؤ الفرص. انظر أيضًا "المهاجمة على التمييز باستخدام تعلُّم الآلة الأكثر ذكاءً" للاطّلاع على عرض مرئي يستكشف المفاضلات عند التحسين من أجل تحقيق تكافؤ الفرص.

احتمالات متساوية

#fairness

يشير ذلك المصطلح إلى مقياس إنصاف يتيح لك تقييم ما إذا كان النموذج يتنبأ بنتائج متساوية في جميع قيم السمة الحسّاسة، مع مراعاة كل من الفئة الإيجابية والفئة السلبية، وليس فئة واحدة فقط أو الأخرى فقط. بعبارة أخرى، يجب أن يكون كلّ من معدّل الموجبة الصحيح ومعدّل السالب غير الصحيح متطابقَين في جميع المجموعات.

ترتبط الاحتمالات المتساوية بمساواة الفرص، التي تركز فقط على معدلات الخطأ لفئة واحدة (إيجابية أو سالبة).

على سبيل المثال، افترض أن جامعة غلوبدوبدريب تمنح كل من ليليبوتيبان وبروبدينغاينز برنامجًا صارمًا في الرياضيات. تقدم مدارس Lilliputians الثانوية منهجًا قويًا لدروس الرياضيات، والغالبية العظمى من الطلاب مؤهلون لبرنامج الجامعة. لا تقدم المدارس الثانوية في مدرسة Brobdingnagians الثانوية دروسًا في الرياضيات على الإطلاق، ونتيجةً لذلك، عدد أقل بكثير من طلابها مؤهلين. تتوفر احتمالات متساوية شريطة أنه لا يهم ما إذا كان مقدم الطلب هو من أقوى المشاركين في الليل أو بروبدينجناجي، وإذا كان مؤهلاً، فمن المرجح أن يتم قبوله في البرنامج بشكل متساوٍ، وإذا لم يكن مؤهلاً، فمن المرجح أن يتم رفضه.

لنفترض أنّ 100 من مواطني ليليبوت و100 من مواطني بربادنغناجي قدّموا طلبًا إلى جامعة غلوبدوبدريب، ويتم اتخاذ قرارات القبول على النحو التالي:

الجدول 3. المتقدمون من Lilliputian (%90 مؤهلون)

  مؤهَّل غير معرَّف
مسموح بالانضمام 45 2
تم الرفض 45 8
المجموع 90 10
النسبة المئوية للطلاب المؤهلين: 45/90 = 50%
النسبة المئوية للطلاب غير المؤهَّلين الذين تم رفضهم: 8/10 = 80%
إجمالي النسبة المئوية للطلاب من ليليبوتي (2+2)/100 = 47%

 

الجدول 4. المتقدمون للانضمام إلى Brobdingnagian (%10 مؤهلون):

  مؤهَّل غير معرَّف
مسموح بالانضمام 5 18
تم الرفض 5 72
المجموع 10 90
النسبة المئوية للطلاب المؤهلين: 5/10 = 50%
النسبة المئوية للطلاب غير المؤهَّلين الذين تم رفضهم: 72/90 = 80%
النسبة المئوية الإجمالية للطلاب في مدرسة Brobdingnagian المقبولين: (5+18)/100 = 23%

تحظى باحتمالات متساوية لأن طلاب ليليبوت وبروبدينجناجيان المؤهلين لديهما فرصة 50% للقبول، بينما حصل طلاب ليليبوت وبروبدينجناجيان غير المؤهلين على فرصة بنسبة 80% للرفض.

يتم تعريف الاحتمالات المتساوية رسميًا في "تكافؤ الفرص في التعلُّم الخاضع للإشراف" على النحو التالي: "يفي المتنبئ بالفرص المتساوية في ما يتعلق بالسمة المحمية A والنتيجة ص إذا كان كل من الأمام و"أ" مستقلَّين، مشروطين حسب المعيار ص".

مقدِّر

#TensorFlow

واجهة برمجة تطبيقات TensorFlow متوقّفة استخدِم tf.keras بدلاً من المُقدّرين.

التقييم

يشير ذلك المصطلح إلى عملية قياس جودة التوقّعات لنموذج تعلُّم الآلة. أثناء تطوير نموذج، يتم عادةً تطبيق مقاييس التقييم، ليس فقط على مجموعة التدريب، بل أيضًا على مجموعة التحقّق ومجموعة الاختبار. يمكنك أيضًا استخدام مقاييس التقييم لمقارنة النماذج المختلفة ببعضها البعض.

على سبيل المثال

#fundamentals

قيم صف واحد من الميزات وربما label. تنقسم الأمثلة في التعلّم المُوجّه إلى فئتَين عامتَين:

  • يتكون المثال المُصنف من ميزة واحدة أو أكثر وتصنيف. يتم استخدام الأمثلة المصنفة أثناء التدريب.
  • يتكون المثال غير المصنف من ميزة واحدة أو أكثر ولكن بدون تصنيف. يتم استخدام أمثلة غير مصنفة أثناء الاستنتاج.

على سبيل المثال، لنفترض أنك تقوم بتدريب نموذج لتحديد تأثير ظروف الطقس على درجات اختبار الطلاب. فيما يلي ثلاثة أمثلة مصنَّفة:

الميزات التصنيف
درجة الحرارة الرطوبة الضغط نتيجة الاختبار
15 47 998 جيد
19 34 1020 ممتاز
18 92 1012 سيئ

في ما يلي ثلاثة أمثلة غير مصنَّفة:

درجة الحرارة الرطوبة الضغط  
12 62 1014  
21 47 1017  
19 41 1021  

عادةً ما يكون صف مجموعة البيانات هو المصدر الأولي للمثال. بمعنى آخر، يتكون المثال عادة من مجموعة فرعية من الأعمدة في مجموعة البيانات. إضافةً إلى ذلك، يمكن أن تتضمّن الميزات في المثال أيضًا ميزات اصطناعية، مثل نقاط متصلة.

إعادة تشغيل التجربة

#rl

في التعلّم المعزّز، يشير ذلك المصطلح إلى أسلوب DQN يُستخدم لتقليل الارتباطات المؤقتة في بيانات التدريب. يخزِّن agent انتقالات الحالة في مخزن مؤقت لإعادة التشغيل، ثم عينات الانتقالات من المخزن المؤقت لإعادة التشغيل لإنشاء بيانات تدريب.

انحياز المجرّب

#fairness

يُرجى الاطّلاع على الانحياز التأكيدي.

مشكلة التدرج السريع

#seq

غالبًا ما يصبح انحدارًا (مرتفعًا) بشكل مفاجئ للشبكات العصبية في الشبكات العصبية العميقة (وخاصة الشبكات العصبية المتكررة). غالبًا ما تتسبب التدرجات الحادة في تحديثات كبيرة جدًا في الوزن لكل عقدة في شبكة عصبية عميقة.

النماذج التي تعاني من مشكلة التدرج المتفاقمة تجعل تدريبها صعبًا أو مستحيلاً. يمكن أن يخفف الاقتصاص المتدرج من هذه المشكلة.

مقارنةً بـ مشكلة التلاشي للتدرج.

F

المرحلة 1

هو مقياس تصنيف ثنائي "عرض إجمالي" يعتمد على كلّ من الدقة والاستدعاء. فيما يلي المعادلة:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

على سبيل المثال، في ما يلي:

  • الدقة = 0.6
  • التذكر = 0.4
$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

عندما تكون الدقة والتذكر متشابهتين نوعًا ما (كما في المثال السابق)، تكون قيمة F1 قريبة من المتوسط. عندما تختلف الدقة والتذكر بشكل كبير، تكون قيمة F1 أقرب إلى القيمة الأقل. مثال:

  • الدقة = 0.9
  • التذكر = 0.1
$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

قيد الإنصاف

#fairness
تطبيق قيد على خوارزمية لضمان الرضا عن تعريف واحد أو أكثر للإنصاف. تشمل أمثلة قيود الإنصاف ما يلي:

مقياس الإنصاف

#fairness

تعريف رياضي لمصطلح "الإنصاف" يمكن قياسه. تتضمن بعض مقاييس الإنصاف الشائعة الاستخدام ما يلي:

إنّ العديد من مقاييس الإنصاف تكون متعارضة. يُرجى الاطّلاع على المقالة عدم توافق مقاييس الإنصاف.

سالب خاطئ (FN)

#fundamentals

مثال يتوقّع فيه النموذج عن طريق الخطأ الفئة السالبة. على سبيل المثال، يتوقع النموذج أن رسالة إلكترونية معيّنة ليست رسالة غير مرغوب فيها (الفئة السلبية)، ولكن هذه الرسالة الإلكترونية تعد رسالة غير مرغوب فيها.

معدّل سالب خاطئ

يشير ذلك المصطلح إلى نسبة الأمثلة الإيجابية الفعلية التي توقّع فيها النموذج عن طريق الخطأ الفئة السالبة. تحسب الصيغة التالية المعدل السالب الخاطئ:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

موجب خاطئ (FP)

#fundamentals

مثال يتوقّع فيه النموذج عن طريق الخطأ الفئة الإيجابية. على سبيل المثال، يتنبأ النموذج بأنّ إحدى رسائل البريد الإلكتروني هي رسالة غير مرغوب فيها (الفئة الإيجابية)، ولكنّ هذه الرسالة الإلكترونية ليست رسالة غير مرغوب فيها.

معدل الموجب الخاطئ (FPR)

#fundamentals

يشير ذلك المصطلح إلى نسبة الأمثلة السلبية الفعلية التي توقّع فيها النموذج عن طريق الخطأ الفئة الموجبة. تحسب المعادلة التالية المعدل الإيجابي الخاطئ:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

المعدل الموجبة الخاطئة هو المحور x في منحنى خاصية تشغيل جهاز الاستقبال.

عنصر

#fundamentals

يشير ذلك المصطلح إلى متغيّر إدخال لأحد نماذج تعلُّم الآلة. يتكون المثال من ميزة واحدة أو أكثر. على سبيل المثال، لنفترض أنك تقوم بتدريب نموذج لتحديد تأثير أحوال الطقس على درجات اختبار الطلاب. يوضح الجدول التالي ثلاثة أمثلة، يحتوي كل منها على ثلاث ميزات وتسمية واحدة:

الميزات التصنيف
درجة الحرارة الرطوبة الضغط نتيجة الاختبار
15 47 998 92
19 34 1020 84
18 92 1012 87

تباين مع label.

تقاطع الخصائص

#fundamentals

ميزة اصطناعية تم إنشاؤها من خلال ميزات فئوية أو مجمّعة.

على سبيل المثال، ضع في الاعتبار نموذج "التنبؤ بالمزاج" الذي يمثل درجة الحرارة في إحدى المجموعات الأربع التالية:

  • freezing
  • chilly
  • temperate
  • warm

ويمثل سرعة الرياح في إحدى المجموعات الثلاث التالية:

  • still
  • light
  • windy

وبدون وجود تقاطعات الخصائص، يتدرب النموذج الخطي بشكل مستقل على كل مجموعة من المجموعات السبع المختلفة السابقة. إذًا، يتدرب النموذج مثلاً على freezing بشكل مستقل عن التدريب على windy مثلاً.

بدلا من ذلك، يمكنك إنشاء ميزة متقاطعة لدرجة الحرارة وسرعة الرياح. قد تحتوي هذه الميزة الاصطناعية على 12 قيمة محتملة التالية:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

بفضل ميزة التقاطعات، يمكن لهذا النموذج التعرّف على الاختلافات في الحالات المزاجية بين يوم واحد (freezing-windy) ويوم واحد (freezing-still).

إذا أنشأت ميزة اصطناعية من ميزتَين يحتوي كل منهما على العديد من مجموعات البيانات المختلفة، سيتضمّن تقاطع الميزات الناتج عددًا كبيرًا من التركيبات الممكنة. على سبيل المثال، إذا كانت إحدى الميزات تضم 1,000 مجموعة، وكانت الميزة الأخرى تضم 2,000 حزمة، يكون للميزة المتقاطعة الناتجة 2,000,000 مجموعة.

من الناحية الرسمية، الصليب هو منتج الديكارتي.

تُستخدم تقاطعات الخصائص في الغالب مع النماذج الخطية ونادرًا ما تُستخدم مع الشبكات العصبية.

هندسة الخصائص

#fundamentals
#TensorFlow

عملية تتضمن الخطوات التالية:

  1. تحديد الميزات التي قد تكون مفيدة في تدريب نموذج.
  2. تحويل البيانات الأولية من مجموعة البيانات إلى إصدارات فعالة من تلك الميزات.

على سبيل المثال، قد ترى أنّ علامة temperature قد تكون ميزة مفيدة. بعد ذلك، يمكنك تجربة التجميع لتحسين ما يمكن أن يتعلّمه النموذج من نطاقات temperature المختلفة.

يُطلَق على هندسة الميزات أحيانًا اسم استخراج الميزات أو التميّز.

استخراج الميزات

مصطلح مثقل باستخدام أحد التعريفات التالية:

أهمية الميزات

#df

مرادف للأهمية المتغيّرة

مجموعة الخصائص

#fundamentals

مجموعة الميزات التي يتم تدريب نموذج تعلُّم الآلة الخاص بك عليها. على سبيل المثال، قد يشمل الرمز البريدي وحجم العقار وحالة العقار مجموعة ميزات بسيطة لنموذج يتنبأ بأسعار المساكن.

مواصفات الميزات

#TensorFlow

يصِف هذا القسم المعلومات المطلوبة لاستخراج بيانات الميزات من المخزن المؤقت للبروتوكول tf.Example. نظرًا لأن المخزن المؤقت للبروتوكول tf.Example هو حاوية للبيانات، يجب عليك تحديد ما يلي:

  • البيانات المراد استخراجها (أي مفاتيح الميزات)
  • نوع البيانات (على سبيل المثال، عدد عائم أو عدد صحيح)
  • الطول (ثابت أو متغير)

متّجه الخصائص

#fundamentals

مصفوفة قيم feature التي تشتمل على مثال. يتم إدخال متجه الميزة أثناء التدريب وأثناء الاستنتاج. على سبيل المثال، قد يكون الخط المتجه الخصائص لنموذج ذي خاصيتين منفصلتين كما يلي:

[0.92, 0.56]

أربع طبقات: طبقة إدخال، وطبقتان مخفيتان، وطبقة إخراج واحدة.
          تحتوي طبقة الإدخال على عقدتَين، إحداهما تشتمل على القيمة 0.92 والأخرى تشتمل على القيمة 0.56.

يوفر كل مثال قيمًا مختلفة لمتجه الميزة، لذا يمكن أن يكون متجه الميزة للمثال التالي شيئًا مثل:

[0.73, 0.49]

تحدد هندسة الميزات كيفية تمثيل الميزات في الخط المتجه للميزات. على سبيل المثال، يمكن تمثيل ميزة فئوية ثنائية ذات خمس قيم محتملة باستخدام ترميز واحد فعال. في هذه الحالة، سيتكوّن جزء من متجه الميزة لمثال معين من أربعة أصفار و1.0 واحد في الموضع الثالث، على النحو التالي:

[0.0, 0.0, 1.0, 0.0, 0.0]

وكمثال آخر، لنفترض أن النموذج الخاص بك يتكون من ثلاث ميزات:

  • ميزة فئوية ثنائية تتضمّن خمس قيم محتملة ممثلة بترميز واحد فعال، على سبيل المثال: [0.0, 1.0, 0.0, 0.0, 0.0]
  • ميزة فئوية ثنائية أخرى تشتمل على ثلاث قيم محتملة ممثلة بترميز واحد فعال؛ على سبيل المثال: [0.0, 0.0, 1.0]
  • ميزة النقطة العائمة، مثل: 8.3.

في هذه الحالة، سيتم تمثيل الخط المتجه للميزة لكل مثال بـ تسع قيم. بالنظر إلى أمثلة القيم في القائمة السابقة، سيكون خط متجه الميزة على النحو التالي:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

التميّز

عملية استخراج الميزات من مصدر إدخال، مثل مستند أو فيديو، وربط تلك الميزات في متجه الميزات.

يستخدم بعض خبراء تعلُّم الآلة ميزة التميّز كمرادف لمصطلح هندسة الميزات أو استخراج الميزات.

التعلّم الموحّد

يشير ذلك المصطلح إلى منهج لتعلُّم الآلة الموزَّع يدرّب نماذج تعلُّم الآلة باستخدام أمثلة لامركزية على الأجهزة، مثل الهواتف الذكية. في التعلم الموحّد، تنزِّل مجموعة فرعية من الأجهزة النموذج الحالي من خادم تنسيق مركزي. تستخدم الأجهزة الأمثلة المخزنة على الأجهزة لإجراء تحسينات على النموذج. تقوم الأجهزة بعد ذلك بتحميل تحسينات النموذج (وليس أمثلة التدريب) على الخادم المنسّق، حيث يتم تجميعها مع التحديثات الأخرى للحصول على نموذج عالمي محسَّن. وبعد تجميع البيانات، لا تكون هناك حاجة إلى تحديثات النموذج التي تحتسبها الأجهزة، ويمكن تجاهلها.

ونظرًا لأن أمثلة التدريب لا يتم تحميلها مطلقًا، يتبع التعلم الموحّد مبادئ الخصوصية لجمع البيانات مركزة وتضييق نطاق البيانات.

لمزيد من المعلومات حول التعلّم الموحّد، يُرجى الاطّلاع على هذا البرنامج التعليمي.

حلقة الملاحظات

#fundamentals

يشير ذلك المصطلح إلى حالة في تعلُّم الآلة تؤثر فيها توقّعات النموذج على بيانات التدريب الخاصة بالنموذج نفسه أو نموذج آخر. على سبيل المثال، سيؤثر النموذج الذي يقترح الأفلام على الأفلام التي يشاهدها الأشخاص، مما سيؤثر بعد ذلك على نماذج اقتراحات الأفلام اللاحقة.

الشبكة العصبونية للأمام (FFN)

يشير ذلك المصطلح إلى شبكة عصبية بدون اتصالات دورية أو متكررة. على سبيل المثال، الشبكات العصبية العميقة التقليدية هي شبكات عصبية مستنِدة إلى الخلاصة. تباين مع الشبكات العصبية المتكررة التي تكون دورية.

التعلّم باللقطات القليلة

هو منهج من مناهج التعلم الآلي، غالبًا ما يُستخدم لتصنيف الكائنات، مصمّم لتدريب المصنِّفات الفعالة من خلال عدد صغير فقط من أمثلة التدريب.

يمكنك أيضًا الاطّلاع على القسمين التعلّم بنظرة واحدة والتعلّم بمنظور واحد.

طلب بلقطات قليلة

#language
#generativeAI

طلب يتضمّن أكثر من مثال واحد (أو "بعض الأمثلة") يوضّح طريقة استجابة النموذج اللغوي الكبير للنموذج اللغوي الكبير على سبيل المثال، يحتوي الطلب الطويل التالي على مثالين يوضحان نموذجًا لغويًا كبيرًا لكيفية الإجابة عن استعلام.

أجزاء من طلب واحد Notes
ما هي العملة الرسمية للبلد المحدّد؟ السؤال الذي تريد الإجابة عنه من خلال النموذج اللغوي الكبير
فرنسا: اليورو مثال واحد.
المملكة المتحدة: جنيه إسترليني مثال آخر.
الهند: الاستعلام الفعلي.

بشكل عام، يؤدي الطلب باستخدام لقطات أقل ومع ذلك، فإن المطالبة بلقطات قليلة تتطلب مطالبة أطول.

إنّ طلب بضع لقطات هو أحد أشكال التعلّم الذي يتضمن بضع لقطات يتم تطبيقه على التعلّم المستند إلى الطلبات.

كمنجة

#language

يشير ذلك المصطلح إلى مكتبة تكوين تعتمد على لغة Python أولاً وتضبط قيم الدوال والفئات بدون أي رموز برمجية أو بنية أساسية تم اختراقها. في حالة Pax وقواعد ترميز تعلُّم الآلة الأخرى، تمثّل هذه الدوال والفئات النماذج والتدريب المعلَمات الفائقة.

تفترض دالة Fiddle أنّ قواعد رموز تعلُّم الآلة تنقسم عادةً إلى:

  • رمز المكتبة، الذي يحدد الطبقات وأدوات التحسين.
  • يشير ذلك المصطلح إلى الرمز البرمجي "الغراء" لمجموعة البيانات الذي يستدعي المكتبات والأسلاك من بعضها بعضًا.

يلتقط Fiddle بنية استدعاء الكود اللاصق في شكل لم يتم تقييمه وقابلاً للتغيير.

توليف دقيق

#language
#image
#generativeAI

يشير ذلك المصطلح إلى بطاقة تدريبية ثانية خاصة بمهمة يتم إجراؤها على نموذج مدرّب مسبقًا لتحسين معلَماته المتعلّقة بحالة استخدام معيّنة. على سبيل المثال، في ما يلي خطوات التدريب الكامل لبعض النماذج اللغوية الكبيرة:

  1. تدريب مسبق: يمكنك تدريب نموذج لغوي كبير على مجموعة بيانات عامة واسعة، مثل جميع صفحات ويكيبيديا باللغة الإنجليزية.
  2. تحسين الأداء: يمكنك تدريب النموذج المدرَّب مسبقًا لتنفيذ مهمة محدّدة، مثل الردّ على الطلبات الطبية. يتضمن الضبط الدقيق عادةً مئات أو آلاف الأمثلة التي تركز على مهمة محددة.

مثال آخر، يكون تسلسل التدريب الكامل لنموذج الصور الكبيرة على النحو التالي:

  1. تدريب مسبق: يمكنك تدريب نموذج صورة كبير على مجموعة بيانات صور عامة واسعة، مثل جميع الصور في Wikimediacommons.
  2. الضبط الدقيق: يمكنك تدريب النموذج المدرَّب مسبقًا لأداء مهمة محددة، مثل إنشاء صور حوت أوركا.

يمكن أن يستلزم الضبط الدقيق مجموعة من الإستراتيجيات التالية:

  • تعديل جميع المَعلمات الحالية للنموذج المدرَّب مسبقًا. وهذا ما يسمى أحيانًا بالضبط الدقيق.
  • تعديل بعض المَعلمات الحالية فقط في النموذج المدرَّب مسبقًا (عادةً الطبقات الأقرب إلى طبقة الإخراج)، مع الإبقاء على المَعلمات الحالية الأخرى بدون تغيير (عادةً ما تكون الطبقات الأقرب إلى طبقة الإدخال). اطّلِع على ضبط فعّال للمعلَمات.
  • إضافة المزيد من الطبقات، عادةً فوق الطبقات الحالية الأقرب إلى طبقة الإخراج.

الضبط الدقيق هو شكل من أشكال نقل المحتوى. بناءً على ذلك، قد يستخدم الضبط الدقيق دالة خسارة مختلفة أو نوع نموذج مختلف عن تلك المستخدمة لتدريب النموذج المدرَّب مسبقًا. على سبيل المثال، يمكنك ضبط نموذج صورة كبير مدرب مسبقًا لإنتاج نموذج انحدار يعرض عدد الطيور في صورة إدخال.

قارِن بين الضبط الدقيق والمصطلحات التالية:

كتان

#language

هي مكتبة مفتوحة المصدر وعالية الأداء للتعلُّم المعمّق تم تطويرها استنادًا إلى JAX. يوفر لك الكتان دوال لتدريب الشبكات العصبونية، إلى جانب طرق لتقييم أدائها.

شكل الكتان

#language

هي Transformer مكتبة مفتوحة المصدر تستند إلى Flax، ومصمَّمة في المقام الأول لمعالجة اللغات الطبيعية والأبحاث متعددة الوسائط.

نسيان البوابة

#seq

جزء من خلية ذاكرة طويلة الأجل ينظم تدفق المعلومات عبر الخلية. في حال نسيان البوابات، تحافظ على السياق من خلال تحديد المعلومات التي سيتم تجاهلها من حالة الخلية.

softmax كامل

مرادف softmax.

التباين مع عيّنات المرشحين:

طبقة متصلة بالكامل

طبقة مخفية تكون فيها كل عقدة متصلة بكل عقدة في الطبقة المخفية اللاحقة.

تُعرف الطبقة المتصلة بالكامل أيضًا باسم الطبقة الكثيفة.

تحويل وظيفي

يشير ذلك المصطلح إلى دالة تأخذ دالة كمدخلات وتعرض دالة محوَّلة كمخرجات. يستخدم JAX عمليات تحويل الدوال.

G

شبكة GAN

اختصار للشبكة الخصومية التوليدية.

تعميم

#fundamentals

يشير ذلك المصطلح إلى قدرة النموذج على تقديم توقّعات صحيحة حول البيانات الجديدة التي لم يسبق لك الاطّلاع عليها. النموذج الذي يمكن التعميم هو عكس نموذج فرط التخصيص.

منحنى التعميم

#fundamentals

يوضِّح الرسم البياني كلاً من فقدان التدريب وفقدان التحقّق كدالة لعدد التكرارات.

يمكن أن يساعدك منحنى التعميم في اكتشاف احتمال فرط التخصيص. على سبيل المثال، يشير منحنى التعميم التالي إلى فرط التخصيص لأن خسارة التحقق من الصحة يصبح في النهاية أعلى بكثير من خسارة التدريب.

رسم بياني الديكارتي يُظهر فيه المحور ص الخسارة ويُسمّى المحور س
          بالتكرارات. يظهر مخططان. يعرض أحد الرسمَين فقدان التدريب، بينما يشير الآخر إلى خسارة في عملية التحقق.
          يبدأ المخططان بشكل مشابه، ولكن في نهاية المطاف تنخفض خسارة التدريب أقل بكثير من مقدار خسارة التحقق من الصحة.

نموذج خطي معمم

هو تعميم لنماذج انحدار التربيعات الصغرى التي تستند إلى ضوضاء غاوس، إلى أنواع أخرى من النماذج التي تستند إلى أنواع أخرى من التشويش، مثل ضوضاء بواسون أو الضوضاء الفئوية. تشمل أمثلة النماذج الخطية المعممة ما يلي:

يمكن العثور على مَعلمات النموذج الخطي المعمَّم من خلال تحسين التحويل.

تعرض النماذج الخطية المعممة الخصائص التالية:

  • إن متوسط التنبؤ بنموذج انحدار التربيعات الصغرى الأمثل يساوي متوسط التصنيف على بيانات التدريب.
  • متوسط الاحتمالية المتنبأ به في نموذج الانحدار اللوجستي الأمثل يساوي متوسط التصنيف على بيانات التدريب.

تتقيد قوة أي نموذج خطي معمم بميزاته. على عكس النموذج العميق، لا يمكن للنموذج الخطي المعمم "تعلم ميزات جديدة".

الشبكة الخصومية التوليدية (GAN)

نظام لإنشاء بيانات جديدة تُنشئ فيه أداة إنشاء البيانات، ويحدّد المُميِّز ما إذا كانت تلك البيانات التي تم إنشاؤها صالحة أم غير صالحة.

الذكاء الاصطناعي التوليدي

#language
#image
#generativeAI

هو حقل تحويلي صاعد بدون تعريف رسمي. يتفق معظم الخبراء على أنّ نماذج الذكاء الاصطناعي التوليدي يمكنها إنشاء ("إنشاء") محتوى ينطبق عليه كل ما يلي:

  • معقد
  • متماسك
  • الصورة الأصلية

على سبيل المثال، يمكن لنموذج الذكاء الاصطناعي التوليدي إنشاء مقالات أو صور معقدة.

يمكن أيضًا لبعض التكنولوجيات السابقة، بما في ذلك LSTMs وRNN، إنشاء محتوى أصلي ومتّسق. ينظر بعض الخبراء إلى هذه التكنولوجيات السابقة على أنّها الذكاء الاصطناعي التوليدي، بينما يشعر البعض الآخر أنّ الذكاء الاصطناعي التوليدي الحقيقي يتطلب نتائج أكثر تعقيدًا من تلك التي يمكن أن تنتجها التكنولوجيات السابقة.

تتعارض مع تعلُّم الآلة القائم على التوقّعات.

نموذج توليدي

من الناحية العملية، يشير النموذج الذي ينفذ أي مما يلي:

  • تنشئ (تنشئ) أمثلة جديدة من مجموعة بيانات التدريب. على سبيل المثال، يمكن أن ينشئ النموذج التوليدي قصائد بعد التدريب على مجموعة بيانات تضم قصائد. يندرج الجزء المنشئ ضمن شبكة الخصوم التوليدي ضمن هذه الفئة.
  • تحدد احتمالية أن يأتي مثال جديد من مجموعة التدريب، أو أنه تم إنشاؤه من نفس الآلية التي أنشأت مجموعة التدريب. على سبيل المثال، بعد التدريب على مجموعة بيانات تتكون من جمل إنجليزية، يمكن للنموذج التوليدي تحديد احتمالية أن يكون المدخل الجديد عبارة عن جملة إنجليزية صالحة.

يمكن للنموذج التوليدي أن يميّز نظريًا توزيع الأمثلة أو ميزات معيّنة في مجموعة البيانات. والمقصود:

p(examples)

إنّ نماذج التعلّم غير المُوجّه هي نماذج توليدية.

قارِنها مع النماذج التمييزية.

منشئ

هو النظام الفرعي ضمن شبكة خداعية توليدية ينشئ أمثلة جديدة.

تتعارض مع النموذج التمييزي.

عائق الجيني

#df

مقياس مشابه لـ القصور. تستخدم المقسّمة قيمًا مشتقة من عسر جيني أو القصور لإنشاء شروط لتصنيف أشجار القرارات. يتم اشتقاق الحصول على المعلومات من القصور. لا يوجد مصطلح مكافئ مقبول عالميًا للمقياس المشتق من نجاة جيني، ومع ذلك، فإن هذا المقياس غير المُسمّى لا يقل أهمية عن تحصيل المعلومات.

ويُطلق على عُطلة جيني أيضًا اسم مؤشر جيني، أو ببساطة جيني.

مجموعة البيانات الذهبية

مجموعة من البيانات المنظّمة يدويًا التي تسجّل الحقائق الفعلية. يمكن للفرق استخدام مجموعة بيانات ذهبية واحدة أو أكثر لتقييم جودة النموذج.

تجمع بعض مجموعات البيانات الذهبية نطاقات فرعية مختلفة من الحقيقة الواقعية. على سبيل المثال، قد تلتقط مجموعة البيانات الذهبية لتصنيف الصور ظروف الإضاءة ودقة الصورة.

تحويل البيانات التوليدي المُدرَّب مسبقًا (GPT)

#language

مجموعة من النماذج اللغوية الكبيرة المستندة إلى Transformer التي تم تطويرها بواسطة OpenAI

يمكن أن تنطبق صيغ GPT على عدة طرق، بما في ذلك:

  • إنشاء الصور (مثل ImageGPT)
  • إنشاء نص إلى صورة (على سبيل المثال، DALL-E).

متدرج

متجه المشتقات الجزئية بالنسبة إلى جميع المتغيرات المستقلة. في التعلم الآلي، يكون التدرج هو خط متجه المشتقات الجزئية لدالة النموذج. نقاط التدرج في اتجاه أكثر انحدارًا.

تراكم التدرج

أسلوب نشر خلفي يعدِّل المَعلمات مرة واحدة لكل حقبة فقط بدلاً من مرة واحدة لكل تكرار. بعد معالجة كل دفعة صغيرة، يعمل تراكم التدرجات ببساطة على تعديل إجمالي تشغيل التدرجات. بعد ذلك، وبعد معالجة آخر دفعة صغيرة في الحقبة، يقوم النظام أخيرًا بتحديث المعلَمات استنادًا إلى إجمالي كافة تغييرات التدرج.

يكون التراكم المتدرج مفيدًا عندما يكون حجم الدفعة كبيرًا جدًا مقارنةً بحجم الذاكرة المتاحة للتدريب. عندما تكون الذاكرة مشكلة، فإن الميل الطبيعي هو تقليل حجم الدفعة. مع ذلك، يؤدي تقليل حجم الدفعة في الانتشار العكسي العادي إلى زيادة عدد تعديلات المَعلمات. يعمل التراكم المتدرج على تمكين النموذج من تجنب مشكلات الذاكرة مع استمرار التدريب بكفاءة.

الأشجار المحسّنة (القرار) (GBT)

#df

يشير هذا المصطلح إلى نوع من غابة قرارات:

تعزيز التدرّج

#df

يشير ذلك المصطلح إلى خوارزمية تدريب يتم فيها تدريب النماذج الضعيفة على تحسين جودة أي نموذج قوي بشكل متكرر. على سبيل المثال، يمكن أن يكون النموذج الضعيف نموذجًا خطيًا أو صغيرًا لشجرة قرارات. ويصبح النموذج القوي مجموع كل النماذج الضعيفة التي تم تدريبها سابقًا.

في أبسط أشكال تقوية التدرج، يتم عند كل تكرار تطبيق نموذج ضعيف للتنبؤ بتدرج الخسارة للنموذج القوي. بعد ذلك، يتم تعديل ناتج النموذج القوي من خلال طرح التدرج المتنبأ به، على غرار انحدار التدرج.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

المكان:

  • $F_{0}$ هو النموذج القوي في البداية.
  • $F_{i+1}$ هو النموذج القوي التالي.
  • $F_{i}$ هو النموذج القوي الحالي.
  • $\xi$ هي قيمة بين 0.0 و1.0 تُعرف باسم shrinkage، وهي تشبه معدّل التعلّم في خوارزمية انحدار التدرج.
  • $f_{i}$ هو النموذج الضعيف والمدرَّب على توقُّع تدرج الخسارة بقيمة $F_{i}$.

وتشمل الاختلافات الحديثة في تعزيز التدرج أيضًا المشتق الثاني (هسيان) للخسارة في العمليات الحسابية.

تُستخدم أشجار القرار عادةً كنماذج ضعيفة في تعزيز التدرج. يمكنك الاطّلاع على مقالة الأشجار المُحسنة بتدرج (القرار).

اقتصاص التدرّج

#seq

هي آلية شائعة الاستخدام للحدّ من مشكلة التدرج المتفاقمة من خلال الحدّ من (الاقتصاص) للقيمة القصوى للتدرج بشكل مصطنع عند استخدام انحدار التدرج من أجل تدريب نموذج.

انحدار التدرج

#fundamentals

أسلوب رياضي لتقليل الخسارة. تعمل خوارزمية انحدار التدرج على تعديل الوزن والانحياز تدريجيًا، وتحديد أفضل تركيبة للحدّ من الخسارة.

خورازمية انحدار التدرج هي أقدم بكثير من التعلم الآلي.

رسم بياني

#TensorFlow

في TensorFlow، وهي إحدى المواصفات الحسابية. تمثل العُقد في الرسم البياني العمليات. يتم توجيه الحواف وتمثل تمرير نتيجة عملية (أداة استشعار) كمعامل إلى عملية أخرى. استخدِم TensorBoard لعرض رسم بياني.

تنفيذ الرسم البياني

#TensorFlow

بيئة برمجة TensorFlow حيث ينشئ البرنامج أولاً رسمًا بيانيًا ثم ينفِّذ كل ذلك الرسم البياني أو جزء منه. يُعد تنفيذ الرسم البياني وضع التنفيذ التلقائي في TensorFlow 1.x.

قارِنها مع التنفيذ الدقيق.

سياسة الجشع

#rl

في مجال التعلُّم التعززي، هي سياسة تختار دائمًا الإجراء الذي يحقّق أعلى عائد متوقّع.

معلومات فعلية

#fundamentals

الواقع:

الشيء الذي حدث بالفعل.

على سبيل المثال، ضع في اعتبارك نموذج التصنيف الثنائي الذي يتنبأ بما إذا كان الطالب في سنته الأولى من الجامعة سوف يتخرج خلال ست سنوات. الحقيقة الأساسية لهذا النموذج هي ما إذا كان هذا الطالب قد تخرج بالفعل في غضون ست سنوات أم لا.

الانحياز في تحديد المصدر على مستوى المجموعة

#fairness

إذا افترضنا أنّ ما ينطبق على الفرد ينطبق أيضًا على كل شخص في تلك المجموعة. يمكن أن تتفاقم آثار الانحياز لتحديد المصدر على مستوى المجموعة في حال استخدام عيّنة ملائمة لجمع البيانات. في عينة غير تمثيلية، قد يتم ذكر السمات التي لا تعكس الواقع.

اطّلِع أيضًا على الانحياز التشابه خارج المجموعة والانحياز داخل المجموعة.

H

الهلوسة

#language

هو إنتاج مخرجات تبدو منطقية ولكنها غير صحيحة في الواقع من خلال نموذج الذكاء الاصطناعي التوليدي الذي يزعم تأكيده بشأن العالم الحقيقي. على سبيل المثال، نموذج الذكاء الاصطناعي التوليدي الذي يدّعي أنّ باراك أوباما توفي عام 1865 هو هلوسة.

تجزئة

في تقنية تعلُّم الآلة، آلية لتجميع البيانات الفئوية، لا سيّما عندما يكون عدد الفئات كبيرًا، مع كون عدد الفئات التي تظهر فعليًا في مجموعة البيانات صغيرًا نسبيًا.

على سبيل المثال، تضم الأرض حوالي 73,000 نوع من الأشجار. يمكنك تمثيل كل نوع من أنواع الأشجار الـ 73000 في 73000 مجموعة فئوية منفصلة. بدلاً من ذلك، إذا ظهرت بالفعل 200 نوع فقط من هذه الأشجار في مجموعة بيانات، يمكنك استخدام التجزئة لتقسيم أنواع الأشجار إلى 500 مجموعة تقريبًا.

يمكن أن يحتوي دلو واحد على أنواع متعددة من الأشجار. على سبيل المثال، يمكن أن تضع التجزئة نوعَي baobab والقيقب الأحمر، وهما نوعان غير متشابهين وراثيًا، في الحزمة نفسها. بغض النظر عن ذلك، لا تزال التجزئة طريقة جيدة لتعيين المجموعات الفئوية الكبيرة في عدد المجموعات المحدد. تحوّل التجزئة ميزة فئوية لها عدد كبير من القيم المحتملة إلى عدد أصغر بكثير من القيم عن طريق تجميع القيم بطريقة حتمية.

إرشادي

حل بسيط وسريع لحل مشكلة ما. على سبيل المثال، "باستخدام الإرشادات، حققنا دقة بنسبة 86٪. عندما انتقلنا إلى شبكة عصبية عميقة، ارتفعت الدقة إلى 98%".

طبقة مخفية

#fundamentals

يشير ذلك المصطلح إلى طبقة في شبكة عصبية بين طبقة الإدخال (السمات) وطبقة الإخراج (التوقّع). وتتكون كل طبقة مخفية من خلية عصبية واحدة أو أكثر. على سبيل المثال، تحتوي الشبكة العصبية التالية على طبقتين مخفية، الأولى بثلاث خلايا عصبية والثانية بخليتين عصبيتين:

أربع طبقات. الطبقة الأولى هي طبقة إدخال تحتوي على سمتين. والطبقة الثانية هي طبقة مخفية تحتوي على ثلاث خلايا عصبية. والطبقة الثالثة هي طبقة مخفية تحتوي على خليتين عصبيتين. الطبقة الرابعة هي طبقة إخراج. تحتوي كل خاصية على ثلاث حواف، تشير كل منها إلى خلية عصبية مختلفة في الطبقة الثانية. وتحتوي كل خلية من الخلايا العصبية في الطبقة الثانية على حافتين، تشير كل منهما إلى خلية عصبية مختلفة في الطبقة الثالثة. وتحتوي كل خلية من الخلايا العصبية في الطبقة الثالثة على حافة واحدة تشير كل منها إلى الطبقة الناتجة.

تحتوي الشبكة العصبية العميقة على أكثر من طبقة مخفية. على سبيل المثال، الرسم التوضيحي السابق عبارة عن شبكة عصبية عميقة لأن النموذج يحتوي على طبقتين مخفيتين.

التجميع الهرمي

#clustering

يشير ذلك المصطلح إلى فئة من خوارزميات التجميع العنقودي التي تنشئ شجرة من المجموعات العنقودية. يناسب التجميع الهرمي البيانات الهرمية، مثل التصنيفات النباتية. هناك نوعان من خوارزميات التجميع الهرمي:

  • يعيّن التجميع العنقودي التراكمي أولاً كل مثال إلى مجموعته العنقودية، ويدمج بصورة متكررة أقرب المجموعات العنقودية لإنشاء شجرة هرمية.
  • يعمل التجميع العنقودي أولاً على تجميع جميع الأمثلة في مجموعة عنقودية واحدة، ثم تقسيم المجموعة العنقودية بالتكرار إلى شجرة هرمية.

قارِنها مع التجميع العنقودي القائم على النقطة المركزية.

الخسارة المفصلية

مجموعة من دوال loss التصنيف المصممة لإيجاد حدود القرار بعيدة قدر الإمكان عن كل مثال تدريب، وبالتالي زيادة الهامش بين الأمثلة والحدود إلى أقصى حد. تستخدم KSVM فقدان المفصلات (أو دالة ذات صلة، مثل خسارة المفصّلات التربيعية). بالنسبة للتصنيف الثنائي، يتم تعريف دالة خسارة المفصلات على النحو التالي:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

حيث تكون y هي التصنيف الصحيح، إما -1 أو +1 وy' هي المخرجات الأولية لنموذج المصنِّف:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

وبالتالي، يبدو مخطط خسارة المفصّلة مقابل (y * y') على النحو التالي:

مخطط الديكارتي تتألف من جزأين مترابطين خطيين. يبدأ الجزء الأول من السطر عند (-3، 4) وينتهي عند (1، 0). يبدأ جزء السطر الثاني من (1، 0) ويستمر إلى أجل غير مسمى بمنحدر 0.

تحيز تاريخي

#fairness

نوع من التحيز موجود حاليًا في العالم وتم تحويله إلى مجموعة بيانات. تميل هذه التحيزات إلى إظهار الصور النمطية الثقافية الموجودة وعدم المساواة الديموغرافية والتحيزات ضد بعض المجموعات الاجتماعية.

على سبيل المثال، انظر إلى نموذج تصنيف يتنبأ بما إذا كان مقدم طلب القروض سيتخلف عن سداد قرضه أم لا، والذي تم تدريبه على البيانات السابقة للتخلف عن القروض من ثمانينيات القرن الماضي من مصارف محلية في مجتمعين مختلفين. إذا كان المتقدّمون السابقون من المنتدى "أ" يزيد احتمال تخلفهم عن سداد قروضهم بست مرات مقارنةً بالمتقدمين من المجتمع "ب"، فقد يتعلم النموذج تحيزًا تاريخيًا يؤدي إلى تقليل احتمالية موافقة النموذج على القروض في المنتدى أ، حتى لو لم تعد الظروف التاريخية التي أدت إلى المعدلات الأعلى لمعدلات التخلف عن ذلك المجتمع ذات صلة بعد الآن.

بيانات محجوبة

أمثلة لم يتم استخدامها عمدًا ("تم تعليقها") أثناء التدريب تُعد مجموعة بيانات التحقق ومجموعة بيانات الاختبار أمثلة على البيانات المحتجزة. تساعد بيانات الاحتفاظ بالبيانات في تقييم قدرة نموذجك على التعميم على البيانات الأخرى بخلاف البيانات التي تم تدريبها عليها. توفر الخسارة في مجموعة الانتظار تقديرًا أفضل للخسارة في مجموعة البيانات غير المرئية مقارنة بالخسارة في مجموعة التدريب.

مضيف

#TensorFlow
#GoogleCloud

عند تدريب نموذج تعلُّم الآلة على شرائح المسرّع (وحدات معالجة الرسومات أو وحدات معالجة الموتّرات)، وهو جزء النظام الذي يتحكّم في كليهما:

  • التدفق العام للرمز.
  • استخراج مسار الإدخال وتحويله

يعمل المضيف عادةً على وحدة معالجة مركزية (CPU) وليس على شريحة مسرِّعة أعمال. ويعالج الجهاز الموتّر المتوفّر في شرائح المسرّع.

معلَمة فائقة

#fundamentals

يتم تعديل المتغيّرات التي تضبطها أنت أو خدمة ضبط المعلَمة الفائقة أثناء عمليات التشغيل المتتالية لتدريب أحد النماذج. على سبيل المثال، معدّل التعلّم هو معلَمة فائقة. يمكنك ضبط معدل التعلم على 0.01 قبل جلسة تدريبية واحدة. إذا حددت أن 0.01 مرتفع جدًا، فيمكنك ربما ضبط معدل التعلم على 0.003 لجلسة التدريب التالية.

في المقابل، المَعلمات هي القيم التقديرية والانحياز المختلفة التي يتعلّمها النموذج أثناء التدريب.

مستوى فائق

يشير ذلك المصطلح إلى حدّ يفصل بين المساحة وتقسيمها إلى مساحتَين فرعيتَين. على سبيل المثال، الخط هو مستوى فائق في بُعدين، والمستوى مستوى فائق في ثلاثة أبعاد. وعادةً ما يكون المستوى الفائق في التعلم الآلي هو الحدّ الذي يفصل بين أي مساحة عالية الأبعاد. تستخدم آلات متجه الدعم النواة المستويات الفائقة لفصل الفئات الموجبة عن الفئات السالبة، ويتم ذلك غالبًا في مساحة عالية الأبعاد للغاية.

I

موزّعة بشكل مستقل

اختصار لعبارة موزَّعة بشكل مستقل ومتطابق.

التعرّف على الصورة

#image

يشير ذلك المصطلح إلى عملية تصنّف العناصر أو الأنماط أو المفاهيم في إحدى الصور. ويُعرف التعرّف على الصور أيضًا باسم تصنيف الصور.

لمزيد من المعلومات، يُرجى الاطّلاع على مقالة تدريب تعلُّم الآلة: تصنيف الصور.

مجموعة بيانات غير متوازنة

مرادف مجموعة البيانات غير المتوازنة.

انحياز ضمني

#fairness

القيام تلقائيًا بارتباط أو افتراض بناءً على نماذج عقلية وذكريات الشخص. يمكن أن يؤثر التحيز الضمني على ما يلي:

  • كيفية جمع البيانات وتصنيفها.
  • كيف يتم تصميم وتطوير أنظمة التعلم الآلي.

على سبيل المثال، عند إنشاء مصنِّف لتحديد صور الزفاف، قد يستخدم المهندس وجود فستان أبيض في الصورة كميزة. ومع ذلك، كانت الفساتين البيضاء معتادة فقط خلال عصور معيّنة وفي ثقافات معيّنة.

يمكنك أيضًا الاطّلاع على الانحياز التأكيدي.

طريقة احتساب

الصيغة المختصرة لاحتساب القيمة.

عدم توافق مقاييس الإنصاف

#fairness

فكرة أن بعض مفاهيم الإنصاف غير متوافقة مع الآخرين ولا يمكن تلبيتها في وقت واحد. نتيجةً لذلك، لا يتوفّر مقياس عام واحد يمكن تطبيقه على جميع مشاكل تعلُّم الآلة.

على الرغم من أن هذا قد يبدو محبطًا، إلا أن عدم التوافق مع مقاييس الإنصاف لا يعني أن جهود الإنصاف غير مجدية. بدلاً من ذلك، تشير إلى ضرورة تعريف الإنصاف حسب السياق لمشكلة معيّنة في تعلُّم الآلة، بهدف منع الأضرار المتعلّقة بحالات الاستخدام الخاصة بها.

راجِع القسم "حول (im)احتمال الإنصاف" للحصول على مناقشة أكثر تفصيلاً لهذا الموضوع.

التعلُّم ضمن السياق

#language
#generativeAI

مرادف لعبارة طلب لقطات قليلة.

موزّعة بشكل مستقل ومتشابه (id)

#fundamentals

البيانات المأخوذة من توزيع لا يتغير، حيث لا تعتمد كل قيمة مرسومة على القيم التي تم رسمها مسبقًا. ويعني ذلك أنّها الغاز المثالي للتعلّم الآلي، ما يجعله من العناصر الرياضية المفيدة، ولكن لا يمكن العثور عليه مطلقًا في العالم الحقيقي. على سبيل المثال، قد يكون توزيع زوار صفحة الويب عبارة عن فترة زمنية قصيرة، أي أنّ التوزيع لا يتغير خلال هذه الفترة الوجيزة، وتكون زيارة شخص واحد مستقلة بشكل عام عن زيارة شخص آخر. ومع ذلك، إذا وسّعت هذه الفترة الزمنية، قد تظهر الاختلافات الموسمية في زوّار صفحة الويب.

يمكنك أيضًا مراجعة المقالة حول عدم الأهلية.

العدالة الفردية

#fairness

مقياس إنصاف يتحقق مما إذا كان يتم تصنيف الأفراد المتشابهين بشكل مشابه. على سبيل المثال، قد ترغب أكاديمية Brobdingnagian في تحقيق الإنصاف الفردي من خلال ضمان حصول طالبين ذوي درجات متطابقة ودرجات اختبار موحّدة على احتمال القبول بهما.

تجدر الإشارة إلى أن الإنصاف الفردي يعتمد بالكامل على كيفية تعريفك لمصطلح "التشابه" (في هذه الحالة، الدرجات ونتائج الاختبارات)، وقد تواجه خطر إدخال مشاكل إنصاف جديدة إذا كان مقياس التشابه لديك يفتقد إلى معلومات مهمة (مثل دقة المنهج الدراسي للطالب).

راجع مقالة "الإنصاف من خلال الوعي" للحصول على مناقشة أكثر تفصيلاً حول الإنصاف الفردي.

استنتاج

#fundamentals

في تعلُّم الآلة، يشير هذا المصطلح إلى عملية طرح التوقّعات من خلال تطبيق نموذج مدرَّب على أمثلة غير مصنَّفة.

للاستنتاج معنى مختلف إلى حد ما في الإحصاء. راجِع مقالة ويكيبيديا عن الاستنتاج الإحصائي لمزيد من التفاصيل.

مسار الاستنتاج

#df

في شجرة القرار، أثناء الاستنتاج، يسلك المسار مثال معيّنًا من الجذر إلى شروط أخرى، وينتهي بـ ورقة شجر. على سبيل المثال، في شجرة القرار التالية، تُظهر الأسهم السميكة مسار الاستنتاج لمثال مع قيم الخصائص التالية:

  • س = 7
  • ص = 12
  • ع = -3

ينتقل مسار الاستنتاج في الرسم التوضيحي التالي عبر ثلاثة شروط قبل الوصول إلى الورقة (Zeta).

شجرة قرار تتكون من أربعة شروط وخمس أوراق.
          شرط الجذر هو (x > 0). وبما أنّ الإجابة "نعم"،
          ينتقل مسار الاستنتاج من الجذر إلى الشرط التالي (y > 0).
          بما أنّ الإجابة "نعم"، ينتقل مسار الاستنتاج إلى الشرط التالي (z > 0). بما أنّ الإجابة "لا"، ينتقل مسار الاستنتاج إلى العقدة الطرفية، وهي الورقة (زيتا).

توضح الأسهم الثلاثة السميكة مسار الاستنتاج.

تحصيل المعلومات

#df

في غابات القرارات، يشير ذلك إلى الفرق بين القصور للعقدة والمجموع المُرجّح (حسب عدد الأمثلة) للقصور في العُقد الثانوية. قصور الجزء هو قصور الأمثلة في هذا الجزء.

على سبيل المثال، ضع في الاعتبار قيم القصور التالية:

  • قصور الجزء الأصلي = 0.6
  • قصور الجزء الفرعي الواحد مع 16 مثالاً ذي صلة = 0.2
  • قصور جزء فرعي آخر مع 24 مثالاً ذي صلة = 0.1

إذًا، 40% من الأمثلة في عقدة فرعية واحدة و60% في العقدة الفرعية الأخرى. لذلك:

  • مجموع القصور المُرجّح للعُقد الفرعية = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

إذًا، يكون تحصيل المعلومات على النحو التالي:

  • تحصيل المعلومات = قصور الجزء الأصلي - مجموع القصور المُرجّح للعُقد الفرعية
  • تحصيل المعلومات = 0.6 - 0.14 = 0.46

يسعى معظم المقسّمين إلى إنشاء شروط تساعد في زيادة تحصيل المعلومات إلى أقصى حدّ.

الانحياز داخل المجموعة

#fairness

إظهار التحيز لمجموعة شخص ما أو سماته الخاصة. إذا كان المختبِرون أو المصنِّفون يتألفون من أصدقاء مطوّر برامج تعلُّم الآلة أو عائلته أو زملائه، قد يؤدي الانحياز داخل المجموعة إلى إبطال صلاحية اختبار المنتج أو مجموعة البيانات.

الانحياز داخل المجموعة هو شكل من أشكال الانحياز في تحديد المصدر للمجموعة. اطّلِع أيضًا على الانحياز للتشابه خارج المجموعة.

أداة إنشاء الإدخال

آلية يتم من خلالها تحميل البيانات إلى شبكة عصبية.

يمكن اعتبار منشئ المدخلات مكونًا مسؤولًا عن معالجة البيانات الأولية إلى موترات يتم تكرارها لإنشاء دفعات للتدريب والتقييم والاستنتاج.

طبقة الإدخال

#fundamentals

طبقة الشبكة العصبونية التي تحتوي على متجه الميزة. وهذا يعني أن طبقة الإدخال توفر أمثلة للتدريب أو الاستنتاج. على سبيل المثال، تتكون طبقة الإدخال في الشبكة العصبية التالية من خاصيتين:

أربع طبقات: طبقة إدخال، وطبقتان مخفيتان، وطبقة إخراج.

حالة محدّدة

#df

يشير ذلك المصطلح إلى شرط يختبر توفّر عنصر في مجموعة من العناصر في شجرة القرار. على سبيل المثال، ما يلي هو شرط محدد:

  house-style in [tudor, colonial, cape]

أثناء الاستنتاج، إذا كانت قيمة feature نمط المنزل هي tudor أو colonial أو cape، يتم تقييم هذا الشرط إلى "نعم". إذا كانت قيمة ميزة نمط المنزل شيئًا آخر (على سبيل المثال، ranch)، فيتم تقييم هذا الشرط على "لا".

تؤدي الشروط المضمّنة عادةً إلى أشجار قرارات أكثر كفاءة من الشروط التي تختبر ميزات ذات ترميز واحد فعال.

مثيل

مرادف لعبارة example.

ضبط التعليمات

#generativeAI

يشير ذلك إلى شكل من أشكال التحسين الدقيق لتحسين قدرة نموذج الذكاء الاصطناعي التوليدي على اتّباع التعليمات. يتضمن ضبط التعليمات تدريب نموذج على سلسلة من مطالبات التعليمات، والتي تغطي عادةً مجموعة متنوعة واسعة من المهام. بعد ذلك، يميل النموذج الناتج الذي تمّ ضبط التعليمات إليه إلى إنشاء ردود مفيدة على الطلبات التي يتم إرسالها بدون إذن الوصول إلى البيانات في مجموعة متنوّعة من المهام.

المقارنة والتباين مع:

إمكانية التفسير

#fundamentals

يشير ذلك المصطلح إلى القدرة على شرح أو تقديم أسباب نموذج تعلُّم الآلة بعبارات مفهومة للجميع.

على سبيل المثال، معظم نماذج الانحدار الخطي قابلة للتفسير بشكل كبير. (ما عليك سوى إلقاء نظرة على الأوزان المدربة لكل ميزة). كما يمكن تفسير غابات القرار بدرجة عالية. ومع ذلك، تتطلب بعض النماذج تصورًا معقدًا لتصبح قابلة للتفسير.

يمكنك استخدام أداة "الترجمة الفورية" لتفسير نماذج تعلُّم الآلة.

توافق المقيّمين

يشير ذلك المصطلح إلى قياس لعدد المرات التي يوافق فيها المصنِّفون على أداء مهمة. في حال عدم موافقة المصنِّفين، قد تحتاج تعليمات المهمة إلى تحسين. يُطلق عليها أحيانًا أيضًا اتفاقية إضافة التعليقات التوضيحية أو موثوقية المحلّلين. راجع أيضًا Cohen's kappa، والذي يعد أحد أكثر مقاييس الاتفاق بين المقيّمين شيوعًا.

تقاطع عبر الاتحاد (IoU)

#image

يشير ذلك المصطلح إلى التقاطع بين مجموعتَين مقسومًا على اتحادهما. وفي مهام رصد الصور المستنِدة إلى تعلُّم الآلة، يتم استخدام وحدة IoU لقياس دقة مربّع الحدود المتوقّع للنموذج في ما يتعلق بمربّع حدود الحقيقة الأساسية. في هذه الحالة، يكون وحدة IoU للمربعين هي النسبة بين مساحة التداخل والمنطقة الإجمالية، وتتراوح قيمتها من 0 (لا يوجد تداخل بين مربع الحدود المتوقع ومربع حدود الحقيقة الأرضية) إلى 1 (مربع الحدود المتوقع ومربع حدود الحقيقة الأرضية لهما الإحداثيات نفسها).

على سبيل المثال، في الصورة أدناه:

  • يتم تحديد مربع الحدود المتنبأ به (الإحداثيات التي تحدد المكان الذي يتنبأ فيه النموذج بوجود الطاولة الليلية في اللوحة) باللون الأرجواني.
  • يتم تحديد مربع حدود الحقيقة (الإحداثيات التي تحدد مكان وجود الطاولة الليلية في اللوحة) باللون الأخضر.

لوحة "فان غوخ" لغرفة نوم "فنسنت" في "آرليس" مع مربعَين مختلفَين حول الطاولة الليلية بجانب السرير. ويحيط المربّع الخاص بحدود الحقيقة (باللون الأخضر) على الطاولة الليلية بشكل مثالي. يحاكي مربّع الحدود المتوقَّع (باللون البنفسجي) بنسبة% 50 إلى أسفل وعلى يمين
 مربّع حدود الحقيقة، وهو يضمّ الربع السفلي الأيمن
 من الجدول الليلي، لكنّه يفتقد إلى باقي الجدول.

هنا، يساوي تقاطع مربّعات الحدود للتنبؤ وحقيقة الأرض (أسفل اليسار) 1، واتحاد مربعات الحدود للتنبؤ وحقيقة الأرض (أسفل اليمين) يساوي 7، وبالتالي فإن IoU يساوي \(\frac{1}{7}\).

الصورة نفسها كما هو موضح أعلاه، ولكن مع تقسيم كل مربع حدود إلى أربعة أرباع. ويكون الإجمالي هو سبعة أرباع، حيث يتداخل الربع السفلي الأيمن
 من مربّع حدود الحقيقة الأرضية والربع العلوي الأيسر
 لمربّع الحدود المتوقَّع. يمثّل هذا القسم المتداخل (المميّز باللون الأخضر) التقاطع، ومساحة العرض 1. الصورة نفسها كما هو موضح أعلاه، ولكن مع تقسيم كل مربع حدود إلى أربعة أرباع. ويكون الإجمالي هو سبعة أرباع، حيث يتداخل الربع السفلي الأيمن
 من مربّع حدود الحقيقة الأرضية والربع العلوي الأيسر
 لمربّع الحدود المتوقَّع.
          ويمثّل الجزء الداخلي بأكمله المحاط بمربّعات محيطة (مميّز باللون الأخضر) الوحدة الاتحادية، ويحتوي على 7 مساحة.

IoU

اختصار تقاطع على الاتحاد.

مصفوفة السلع

#recsystems

في أنظمة الاقتراحات، هي مصفوفة متّجهات تضمين تم إنشاؤها من خلال تحليل عوامل المصفوفة والتي تحمل إشارات كامنة حول كل عنصر. يحتوي كل صف من مصفوفة العناصر على قيمة ميزة كامنة واحدة لجميع العناصر. على سبيل المثال، فكّر في نظام توصية الأفلام. يمثل كل عمود في مصفوفة العناصر فيلمًا واحدًا. قد تمثل الإشارات الكامنة أنواعًا موسيقية أو قد تكون إشارات أصعب في تفسيرها تتضمن تفاعلات معقدة بين النوع أو النجوم أو عمر الفيلم أو عوامل أخرى.

تحتوي مصفوفة العناصر على نفس عدد الأعمدة مثل المصفوفة المستهدفة التي يتم تحليلها. على سبيل المثال، إذا كان أحد أنظمة التوصية بالأفلام يقيّم 10,000 عنوان، ستحتوي مصفوفة العناصر على 10,000 عمود.

عناصر

#recsystems

تمثّل هذه السمة في نظام الاقتراحات الكيانات التي يقترحها النظام. على سبيل المثال، مقاطع الفيديو هي العناصر التي يوصي بها متجر فيديو، بينما الكتب هي العناصر التي يوصي بها متجر الكتب.

تكرار

#fundamentals

هو تعديل واحد لمَعلمات النموذج، وهي القِيم والانحيازات للنموذج، أثناء التدريب. يحدد حجم المجموعة عدد الأمثلة التي يعالجها النموذج في تكرار واحد. على سبيل المثال، إذا كان حجم الدفعة هو 20، فإن النموذج يعالج 20 مثالاً قبل تعديل المعاملات.

عند تدريب شبكة عصبية، يتضمن التكرار الواحد الممرتين التاليتين:

  1. بطاقة للأمام لتقييم الخسارة في دفعة واحدة.
  2. مسار خلفي (نشر عكسي) لضبط معلَمات النموذج بناءً على الخسارة ومعدّل التعلّم.

J

JAX

مكتبة حوسبة مصفوفة تجمع بين الجبر الخطي المتسارع (XLA) والتمايز التلقائي للحوسبة الرقمية العالية الأداء يوفر JAX واجهة برمجة تطبيقات بسيطة وفعالة لكتابة رمز رقمي مسرَّع باستخدام عمليات تحويل قابلة للإنشاء. توفّر JAX ميزات مثل:

  • grad (التمايز التلقائي)
  • jit (تجميع في الوقت المناسب)
  • vmap (متجه تلقائي أو تجميع)
  • pmap (معادلة)

لغة JAX هي لغة للتعبير عن تحويل الرموز الرقمية، التناظرية، ولكنها أكبر في النطاق، إلى مكتبة NumPy في بايثون. (في الواقع، نجد أن مكتبة .numpy ضمن JAX متكافئة من الناحية الوظيفية، ولكنها نسخة تمت إعادة كتابتها بالكامل من مكتبة بايثون نمباي.)

يناسب JAX بشكل خاص تسريع العديد من مهام تعلّم الآلة من خلال تحويل النماذج والبيانات إلى شكل مناسب للعمل الموازي على مستوى وحدة معالجة الرسومات وTPU TPU.

تم إنشاء Flax وOptax وPax والعديد من المكتبات الأخرى على البنية الأساسية لJAX.

K

Keras

يشير ذلك المصطلح إلى واجهة برمجة تطبيقات شائعة لتعلُّم الآلة في بايثون. تستخدم Keras عدّة إطارات عمل للتعلّم المعمّق، بما في ذلك TensorFlow حيث تم توفيرها على أنّها tf.keras.

آلات متجه دعم النواة (KSVM)

يشير ذلك المصطلح إلى خوارزمية تصنيف تهدف إلى زيادة الهامش بين الفئات الطردية والسلبية من خلال ربط متّجهات بيانات الإدخال بمساحة ذات أبعاد أعلى. على سبيل المثال، ضع في اعتبارك مشكلة تصنيف تحتوي فيها مجموعة بيانات الإدخال على مئات الميزات. لزيادة الهامش بين الفئات الإيجابية والسلبية، يمكن لنظام KSVM ربط تلك الميزات داخليًا في مساحة مليون بعد. تستخدم KSVM دالة الخسارة المسماة فقدان المفصل.

نقاط رئيسية

#image

إحداثيات ميزات معيّنة في الصورة. على سبيل المثال، إذا أردت استخدام نموذج التعرّف على الصور الذي يميّز أنواع الزهور، قد تكون النقاط الرئيسية هي مركز كل بتلة أو ساق أو سداة، وهكذا.

التحقّق من الصحة المتبادل باستخدام خوارزمية k-Fold

يشير ذلك المصطلح إلى خوارزمية لتوقُّع قدرة النموذج على تعميم البيانات الجديدة. يشير الحرف k في الجزء k-old إلى عدد المجموعات المتساوية التي تقسم أمثلة مجموعة البيانات إليها، أي أنك تتدرب على النموذج k وتختبره. لكل جولة من التدريب والاختبار، تكون مجموعة مختلفة هي مجموعة الاختبار، وتصبح جميع المجموعات المتبقية مجموعة التدريب. بعد دورات التدريب والاختبار، تحسب المتوسط والانحراف المعياري لمقياس(مقاييس) الاختبار المختار.

على سبيل المثال، افترض أن مجموعة البيانات الخاصة بك تتكون من 120 مثالاً. افترض أيضًا أنك قررت تعيين k على 4. لذلك، بعد ترتيب الأمثلة عشوائيًا، يمكنك تقسيم مجموعة البيانات إلى أربع مجموعات متساوية من 30 مثالاً وإجراء أربع جولات تدريب/اختبار:

يشير ذلك المصطلح إلى مجموعة بيانات مقسمة إلى أربع مجموعات متساوية من الأمثلة. في الجولة الأولى، يتم استخدام المجموعات الثلاث الأولى للتدريب، بينما يتم استخدام المجموعة الأخيرة للاختبار. في الجولة الثانية، يتم استخدام أول مجموعتين وأخيرة
          للتدريب، بينما تُستخدم المجموعة الثالثة
          للاختبار. في الجولة 3، يتم استخدام المجموعة الأولى والمجموعتين الأخيرتين للتدريب، بينما يتم استخدام المجموعة الثانية للاختبار.
          وفي الجولة 4، يتم استخدام المجموعة الأولى للاختبار، بينما يتم استخدام المجموعات الثلاث الأخيرة للتدريب.

على سبيل المثال، قد يكون الخطأ التربيعي المتوسّط المقياس الأكثر أهمية في نموذج الانحدار الخطّي. وبالتالي، سوف تجد المتوسط والانحراف المعياري للخطأ التربيعي المتوسط في جميع الجولات الأربع.

المتوسطات التصنيفية

#clustering

هو خوارزمية تجميعية شائعة تجمع الأمثلة في التعلم غير المُوجّه. تقوم الخوارزمية التصنيفية بشكل أساسي بما يلي:

  • ويحدد بشكل متكرر أفضل نقاط مركزية لكل نقطة (تُعرف باسم النقاط المركزية).
  • لتحديد كل مثال لأقرب نقطة مركزية. تنتمي تلك الأمثلة الأقرب نفس النقطة المركزية إلى نفس المجموعة.

تختار الخوارزمية التصنيفية مواقع النقاط المركزية لتقليل المربع التراكمي للمسافات من كل مثال إلى أقرب نقطة مركزية له.

على سبيل المثال، بالنظر إلى الرسم التالي لارتفاع الكلب إلى عرض الكلب:

مخطط الديكارتي فيه عدة عشرات من نقاط البيانات.

وإذا كانت متوسط التصنيف k=3، فستحدد الخوارزمية التصنيفية ثلاثة نقاط مركزية. يتم تعيين كل مثال لأقرب نقطة مركزية له، ما ينتج عنه ثلاث مجموعات:

نفس المخطط الديكارتي كما في الرسم التوضيحي السابق، باستثناء
          ثلاث نقاط مركزية.
          يتم تجميع نقاط البيانات السابقة في ثلاث مجموعات مختلفة، حيث تمثل كل مجموعة نقاط البيانات الأقرب إلى نقطة مركزية معينة.

تخيل أن شركة تصنيع تريد تحديد المقاسات المثالية للسترات الصغيرة والمتوسطة والكبيرة للكلاب. تحدد النقاط المركزية الثلاثة متوسط الارتفاع ومتوسط العرض لكل كلب في تلك المجموعة. لذلك، ربما يجب على الشركة المصنعة أن تضع مقاسات السترات على تلك النقاط المركزية الثلاثة. يُرجى العلم أن النقطة المركزية للمجموعة لا تكون عادةً مثالاً في المجموعة.

توضح الرسوم التوضيحية السابقة الخوارزمية التصنيفية لأمثلة ذات سمتين فقط (الارتفاع والعرض). لاحظ أن الخوارزمية التصنيفية يمكن أن تجمع أمثلة عبر العديد من الميزات.

المتوسّط التصنيفي

#clustering

يشير ذلك المصطلح إلى خوارزمية تجميع ترتبط ارتباطًا وثيقًا بالخوارزمية التصنيفية. يكمن الفرق العملي بين الاثنين في ما يلي:

  • في الخوارزمية التصنيفية، يتم تحديد النقاط المركزية من خلال خفض مجموع المربعات للمسافة بين العنصر المرشح للنقطة المركزية وكل مثال من أمثلةه.
  • في الوسيط التصنيفي، يتم تحديد النقاط المركزية من خلال خفض مجموع المسافة بين مرشح نقطة مركزية وكل مثال من أمثلته.

تجدر الإشارة إلى أنّ تعريفات المسافة تختلف أيضًا:

  • تعتمد الخوارزمية التصنيفية على المسافة الإقليدية من النقطة المركزية إلى مثال. (في البعدَين، تعني المسافة الإقليدية استخدام نظرية فيثاغورس لحساب وتر المثلث). على سبيل المثال، الخوارزمية التصنيفية بين (2,2) و (5,-2) ستكون:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • يعتمد المتوسط التصنيفي على مسافة مانهاتن من النقطة المركزية إلى مثال. هذه المسافة هي مجموع دلتا المطلقة في كل بُعد. على سبيل المثال، المسافة المتوسطة التصنيفية بين (2,2) و (5,-2) ستكون:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

تسوية 0

#fundamentals

يشير ذلك المصطلح إلى نوع من التنظيم الذي يفرض عقوبة على العدد الإجمالي للقيم للوزن غير الصفري في نموذج. على سبيل المثال، قد يتم معاقبة أي نموذج يتضمن 11 ترجيحًا غير صفري أكثر من نموذج مماثل يتضمن 10 أوزان غير صفرية.

يُطلق على تسوية المستوى 0 أحيانًا اسم ضبط معيار L0.

الخسارة 1

#fundamentals

دالة خسارة تحتسب القيمة المطلقة للفرق بين قيم label الفعلية والقيم التي يتوقّعها النموذج. على سبيل المثال، في ما يلي حساب الخسارة في المستوى 1 لخسارة مجموعة من خمسة أمثلة:

القيمة الفعلية للمثال القيمة المتنبأ بها للنموذج القيمة المطلقة لدلتا
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = الخسارة 1

إنّ الخسارة الأولى أقل حساسية للقيم الشاذّة من الخسارة الثانية.

متوسط الخطأ المطلق هو متوسط الخسارة L1 لكل مثال.

تسوية1

#fundamentals

يشير ذلك المصطلح إلى نوع من التنظيم الذي يفرض عقوبة على الترجيح بما يتناسب مع مجموع القيمة المطلقة للأوزان. يساعد تنظيم المستوى 1 في توجيه الميزات غير الملائمة أو التي بالكاد صلة إلى 0 بالضبط. تتم إزالة ميزة بوزن 0 من النموذج بشكل فعّال.

تباين مع L2 التسوية.

الخسارة 2

#fundamentals

دالة خسارة تحتسب مربع الفرق بين قيم label الفعلية والقيم التي يتنبأ بها النموذج. على سبيل المثال، في ما يلي حساب الخسارة من المستوى 2 لخسارة مجموعة من خمسة أمثلة:

القيمة الفعلية للمثال القيمة المتنبأ بها للنموذج مربع دلتا
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = الخسارة 2

بسبب التربيع، تزيد الخسارة L2 من تأثير القيم الشاذّة. وهذا يعني أنّ الخسارة من المستوى 2 أكبر من التفاعل مع التوقّعات السيئة أكثر من الخسارة من المستوى 1. على سبيل المثال، ستكون الخسارة 1 للدفعة السابقة 8 بدلاً من 16. لاحظ أن قيمة استثنائية واحدة تمثل 9 من 16.

تستخدم نماذج الانحدار عادةً الخسارة من المستوى2 كدالة الخسارة.

الخطأ التربيعي المتوسّط هو متوسط الخسارة L2 لكل مثال. الخسارة التربيعية هي اسم آخر للخسارة 2.

تسوية2

#fundamentals

يشير ذلك المصطلح إلى نوع من التنظيم الذي يهدف إلى فرض عقوبات على الترجيح بما يتناسب مع مجموع المربّعات للأوزان. يساعد ضبط المستوى 2 في تقريب الأوزان الخارجية (التي لديها قيم سلبية عالية أو منخفضة) إلى 0 ولكن ليس تمامًا. وتظل الميزات ذات القيم القريبة جدًا من 0 في النموذج ولكنها لا تؤثر على تنبؤ النموذج كثيرًا.

تؤدي تسوية المستوى 2 دائمًا إلى تحسين التعميم في النماذج الخطية.

قارِن بينها وبين تسوية L1.

label

#fundamentals

في تعلُّم الآلة المراقَب، جزء "الإجابة" أو "النتيجة" في مثال.

ويتكون كل مثال مصنَّف من واحد أو أكثر من الميزات وتصنيف. على سبيل المثال، في مجموعة بيانات الكشف عن المحتوى غير المرغوب فيه، من المحتمل أن يكون التصنيف إما "محتوى غير مرغوب فيه" أو "ليس محتوى غير مرغوب فيه". في مجموعة بيانات هطول الأمطار، قد يكون التسمية عبارة عن كمية الأمطار التي سقطت خلال فترة معينة.

مثال مصنَّف

#fundamentals

مثال يحتوي على ميزة واحدة أو أكثر وتصنيف. على سبيل المثال، يعرض الجدول التالي ثلاثة أمثلة مصنفة من نموذج تقييم منزل، لكل منها ثلاث ميزات وتسمية واحدة:

عدد غرف النوم عدد الحمّامات عمر المنزل سعر المنزل (التصنيف)
3 2 15 345000 دولار
2 1 72 179000 دولار أمريكي
4 2 34 392000 دولار أمريكي

في تعلُّم الآلة المراقَب، تتدرب النماذج على الأمثلة المُصنَّفة وتقدِّم توقّعات على الأمثلة غير المصنَّفة.

قارن المثال المصنف مع الأمثلة غير المصنفة.

تسرّب التصنيفات

يشير ذلك المصطلح إلى عيب في تصميم النموذج تكون فيه الميزة وكيلاً للعلامة التسمية. على سبيل المثال، يمكنك استخدام نموذج التصنيف الثنائي الذي يتنبأ بما إذا كان العميل المحتمل سيشتري منتجًا معيّنًا أم لا. لنفترض أنّ إحدى ميزات النموذج ذات قيمة منطقية تسمى SpokeToCustomerAgent. لنفترض أيضًا أنّه لم يتم تعيين وكيل العميل إلا بعد شراء العميل المحتمل للمنتج. أثناء التدريب، سيتعرف النموذج بسرعة على الارتباط بين SpokeToCustomerAgent والتسمية.

لمدا

#fundamentals

مرادف معدّل الانتظام.

لامدا مصطلح مثقل بحمل زائد. ونركّز هنا على تعريف المصطلح في إطار التنظيم.

نموذج لغوي مخصَّص لتطبيقات المحادثة (LaMDA)

#language

هو نموذج لغوي كبير يستند إلى أداة تحويل تم تطويره من قِبل Google وتم تدريبه على مجموعة بيانات حوارية كبيرة يمكنها إنشاء ردود حوارية واقعية.

LaMDA: تقدم لنا تكنولوجيا المحادثة الرائعة نظرة عامة.

معالم

#image

مرادف نقاط رئيسية.

نموذج لغوي

#language

model يقدّر احتمالية حدوث model أو تسلسل من الرموز المميّزة في تسلسل أطول من الرموز المميّزة.

نموذج لغوي كبير

#language

مصطلح غير رسمي بدون تعريف دقيق يعني عادةً نموذج لغة يتضمن عددًا كبيرًا من المعلَمات. تحتوي بعض النماذج اللغوية الكبيرة على أكثر من 100 مليار مَعلمة.

المساحة الكامنة

#language

مرادف مساحة التضمين.

طبقة

#fundamentals

مجموعة من الخلايا العصبية في شبكة عصبية. ثلاثة أنواع شائعة من الطبقات هي كما يلي:

على سبيل المثال، يوضح الرسم التوضيحي التالي شبكة عصبية تضم طبقة إدخال واحدة وطبقتين مخفيتين وطبقة إخراج واحدة:

يشير ذلك المصطلح إلى شبكة عصبية مكوّنة من طبقة إدخال واحدة وطبقتَين مخفيتَين وطبقة إخراج واحدة. تتكون طبقة الإدخال من سمتين. والطبقة الأولى المخفية تتكون من ثلاث خلايا عصبية والطبقة الثانية المخفية تتكون من خليتين عصبيتين. تتكون طبقة الإخراج من عقدة واحدة.

في TensorFlow، تمثل الطبقات أيضًا دوال بايثون تأخذ Tensors وخيارات التهيئة كمدخلات وتنشئ متوترات أخرى كمخرجات.

Layers API (tf.layers)

#TensorFlow

واجهة برمجة تطبيقات TensorFlow لإنشاء شبكة عصبية عميقة مكونة من الطبقات. تتيح لك Layers API إنشاء أنواع مختلفة من الطبقات، مثل:

تتّبع واجهة برمجة تطبيقات Layers اصطلاحات واجهة برمجة التطبيقات لطبقات Keras. أي، بخلاف البادئة المختلفة، فإن جميع الدوال في واجهة برمجة التطبيقات Layers لها نفس الأسماء والتوقيعات مثل نظيراتها في واجهة برمجة التطبيقات Keras Layers.

ورقة نبات

#df

تمثّل هذه السمة أي نقطة نهاية في شجرة القرار. على عكس الحالة، لا يتم إجراء اختبار للورقة. بدلاً من ذلك، فإن ورقة الشجر هي تنبؤ محتمل. الورقة هي أيضًا العقدة الطرفية في مسار الاستنتاج.

على سبيل المثال، تحتوي شجرة القرار التالية على ثلاث أوراق:

شجرة قرار لها شرطان يؤديان إلى ثلاث أوراق.

أداة التعلّم التفسيري (LIT)

أداة مرئية وتفاعلية لفهم النموذج وتصور البيانات.

يمكنك استخدام LIT مفتوحة المصدر من أجل تفسير النماذج أو لعرض النصوص والصور والبيانات الجدولية.

معدّل التعلّم

#fundamentals

يشير ذلك المصطلح إلى رقم نقطة عائمة يوضّح خوارزمية انحدار التدرج بمدى قوة تعديل معاملات الترجيح والانحيازات في كل تكرار. على سبيل المثال، يؤدي معدل التعلم 0.3 إلى تعديل الأوزان والتحيزات بثلاث مرات بشكل أقوى من معدل التعلم 0.1.

معدّل التعلّم هو معلَمة فائقة رئيسية. إذا قمت بتعيين معدل التعلم منخفضًا جدًا، فسيستغرق التدريب وقتًا طويلاً. إذا تم ضبط معدل التعلم إلى حد كبير، غالبًا ما تواجه خوارزمية انحدار التدرج مشكلة في الوصول إلى التقارب.

انحدار التربيعات الصغرى

يشير ذلك المصطلح إلى نموذج انحدار خطّي تم تدريبه من خلال تخفيض الخسارة.

خطي

#fundamentals

يشير ذلك المصطلح إلى علاقة بين متغيرَين أو أكثر يمكن تمثيلهما فقط من خلال الجمع والضرب.

مخطط العلاقة الخطية عبارة عن خط.

قارِنها مع غير الخطّي.

نموذج خطي

#fundamentals

model يعيّن model واحد لكل model لتقديم model. (تتضمّن النماذج الخطية أيضًا التحيز.) في المقابل، إنّ العلاقة بين الميزات والتوقّعات في النماذج الشاملة بشكل عام غير خطية.

عادةً ما يكون تدريب النماذج الخطية أسهل وقابلة للتفسير من النماذج العميقة. مع ذلك، يمكن للنماذج العميقة أن تتعلّم علاقات معقدة بين الميزات.

الانحدار الخطي والانحدار اللوجستي هما نوعان من النماذج الخطية.

الانحدار الخطّي

#fundamentals

يشير ذلك المصطلح إلى نوع من نماذج تعلُّم الآلة يكون فيه كلا الشرطَين التاليَين صحيحًا:

  • النموذج هو نموذج خطي.
  • التوقع هو قيمة النقطة العائمة. (هذا هو جزء الانحدار في الانحدار الخطي.)

تحديد أوجه الاختلاف بين الانحدار الخطي والانحدار اللوجستي قارِن أيضًا الانحدار مع التصنيف.

LIT

اختصار لـ أداة "ترجمة وشرح اللغة" (LIT)، التي كانت تُعرف سابقًا باسم "أداة ترجمة اللغة".

النموذج اللغوي الكبير

#language

اختصار للنموذج اللغوي الكبير

الانحدار اللوجستي

#fundamentals

يشير ذلك المصطلح إلى نوع من نموذج الانحدار الذي يتنبأ باحتمالية معيّنة. تتمتع نماذج الانحدار اللوجستي بالخصائص التالية:

  • التصنيف فئوي. يشير مصطلح الانحدار اللوجستي عادةً إلى الانحدار اللوجستي الثنائي، أي إلى نموذج يحسب الاحتمالات للتصنيفات ذات القيمتين المحتملتين. أحد الصيغ الأقل شيوعًا، وهو الانحدار اللوجستي متعدد الحدود، يحسب الاحتمالات للتصنيفات ذات أكثر من قيمتين محتملتين.
  • دالة الخسارة أثناء التدريب هي تسجيل فقدان البيانات. (يمكن وضع وحدات فقدان السجل المتعددة بشكل متوازٍ للتسميات التي تحتوي على أكثر من قيمتين محتملتين).
  • يحتوي النموذج على بنية خطية، وليس شبكة عصبية عميقة. مع ذلك، ينطبق باقي هذا التعريف أيضًا على النماذج العميقة التي تتنبأ بالاحتمالات للتصنيفات الفئوية.

على سبيل المثال، ضع في اعتبارك نموذج انحدار لوجستي يحسب احتمالية أن يكون البريد الإلكتروني الذي تم إدخاله غير مرغوب فيه أو ليس غير مرغوب فيه. أثناء الاستنتاج، لنفترض أن النموذج يتنبأ بـ 0.72. لذلك، فإن النموذج يقدر:

  • احتمال 72٪ أن تكون الرسالة الإلكترونية غير مرغوب فيها.
  • احتمال بنسبة 28٪ ألا تكون الرسالة الإلكترونية غير مرغوب فيها.

يستخدم نموذج الانحدار اللوجستي البنية التالية المكونة من خطوتين:

  1. يُنشئ النموذج تنبؤًا أوليًا (y) عن طريق تطبيق دالة خطية لميزات الإدخال.
  2. ويستخدم النموذج هذا التوقّع الأولي كإدخال في دالة سينية، والتي تحوِّل التوقّع الأولي إلى قيمة بين 0 و1 بشكل حصري.

يتنبأ نموذج الانحدار اللوجستي برقم، تمامًا مثل أي نموذج انحدار. ومع ذلك، يصبح هذا الرقم عادةً جزءًا من نموذج التصنيف الثنائي على النحو التالي:

  • إذا كان العدد المتوقَّع أكبر من حدّ التصنيف، يتنبأ نموذج التصنيف الثنائي بالفئة الموجبة.
  • إذا كان العدد المتنبأ به أقل من حد التصنيف، يتنبأ نموذج التصنيف الثنائي بالفئة السالبة.

لوجيت

الخط المتجه للتنبؤات الأولية (غير العادية) التي ينشئها نموذج التصنيف، والتي يتم تمريرها عادةً إلى دالة تسوية. إذا كان النموذج يحل مشكلة التصنيف متعدد الفئات، تصبح اللوجيات عادةً مدخلاً إلى دالة softmax. بعد ذلك، تُولد دالة softmax متجهًا من الاحتمالات (التي تمت تسويتها) بقيمة واحدة لكل فئة ممكنة.

الخسارة اللوغاريتمية

#fundamentals

دالة الخسارة المستخدَمة في الانحدار اللوجستي الثنائي.

لوغاريتم احتمال

#fundamentals

يشير ذلك المصطلح إلى لوغاريتم يوضِّح معدّل احتمالية وقوع حدث.

الذاكرة القصيرة المدى (LSTM)

#seq

يشير ذلك المصطلح إلى نوع من الخلايا في شبكة عصبية متكررة يُستخدَم لمعالجة تسلسلات البيانات في تطبيقات مثل التعرّف على الكتابة بخط اليد والترجمة الآلية والترجمة والشرح للصور. تعالج LSTM مشكلة اختفاء التدرج التي تحدث عند تدريب RNN بسبب تسلسلات البيانات الطويلة من خلال الحفاظ على السجل في حالة ذاكرة داخلية بناءً على المدخلات والسياق الجديدين من الخلايا السابقة في RNN.

LoRA

#language
#generativeAI

اختصار يشير إلى قابلية التكيّف ذات الترتيب المنخفض.

خسارة

#fundamentals

أثناء تدريب نموذج خاضع للإشراف، يتم قياس مدى بُعد التوقّع للنموذج عن علامته.

تحسب دالة الخسارة مقدار الخسارة.

مجمّع يعرض فقدان البيانات

يشير ذلك المصطلح إلى نوع من خوارزميات تعلُّم الآلة تعمل على تحسين أداء نموذج من خلال الجمع بين التوقّعات لنماذج متعدّدة واستخدام تلك التوقّعات لإجراء توقُّع واحد. نتيجةً لذلك، يمكن لأداة تجميع النتائج المفقودة إزالة الفروقات من عبارات البحث المقترحة وتحسين دقة عبارات البحث المقترحة.

منحنى الخسارة

#fundamentals

مخطط loss كدالة لعدد تكرارات التدريب. يُظهر المخطط التالي منحنى خسارة نموذجي:

رسم بياني الديكارتي للخسارة مقابل التكرارات للتدريب، يوضح انخفاضًا سريعًا في الخسارة في التكرارات الأولية، يليها انخفاض تدريجي،
 ومن ثم انحدارًا مستويًا في التكرارات النهائية.

يمكن أن تساعدك منحنيات الخسارة في تحديد الوقت الذي يتغير فيه النموذج أو فرط التخصيص.

ويمكن أن توضح منحنيات الخسارة جميع أنواع الخسارة التالية:

راجِع أيضًا منحنى التعميم.

دالة الخسارة

#fundamentals

أثناء التدريب أو الاختبار، هي دالة رياضية تحسب الخسارة في مجموعة من الأمثلة. تعرض دالة الخسارة خسارة أقل للنماذج التي تقدم تنبؤات جيدة مقارنةً بالنماذج التي تقدّم تنبؤات سيئة.

عادة ما يكون الهدف من التدريب هو تقليل الخسارة التي تنتجها دالة الخسارة.

هناك العديد من الأنواع المختلفة لدوال الخسارة. اختر دالة الخسارة المناسبة لنوع النموذج الذي تقوم بإنشائه. مثال:

مساحة الخسارة

رسم بياني للوزن(الأوزان) مقابل الخسارة. خورازمية انحدار التدرج تهدف إلى إيجاد قيمة الأوزان التي يكون سطح الخسارة فيها عند الحد الأدنى المحلي.

القدرة على التكيف للترتيب المنخفض (LoRA)

#language
#generativeAI

خوارزمية لتنفيذ ضبط فعّال للمعلَمات بهدف ضبط الصوت بدقة لمجموعة فرعية فقط من معلَمات نموذج لغوي كبير. توفر LoRA المزايا التالية:

  • التوليف الدقيق بشكل أسرع من الأساليب التي تتطلب ضبط جميع معلَمات النموذج.
  • يقلل من التكلفة الحسابية للاستنتاج في النموذج الدقيق.

يحافظ النموذج الذي تم ضبطه باستخدام LoRA على جودة التوقعات أو يحسنها.

تتيح LoRA عدة إصدارات متخصصة من النموذج.

مؤشر LSTM

#seq

اختصار الذاكرة الطويلة المدى.

ن

تعلُم الآلة

#fundamentals

يشير ذلك المصطلح إلى برنامج أو نظام يدرّب نموذجًا من البيانات التي يتم إدخالها. يمكن للنموذج المدرَّب أن يقدم تنبؤات مفيدة من خلال بيانات جديدة (لم يتم رؤيتها من قبل) مأخوذة من التوزيع ذاته المستخدم في تدريب النموذج.

يشير التعلم الآلي أيضًا إلى مجال الدراسة المختص بهذه البرامج أو الأنظمة.

حصة الأغلبية

#fundamentals

التسمية الأكثر شيوعًا في مجموعة البيانات غير المتوازنة. على سبيل المثال، إذا كانت هناك مجموعة بيانات تحتوي على تسميات سالبة بنسبة 99٪ وتسميات إيجابية بنسبة 1٪، تكون التسميات السلبية هي الفئة الأغلبية.

تباين مع فئة الأقلية.

عملية اتخاذ القرار مع ماركوف (MDP)

#rl

رسم بياني يمثّل نموذج اتخاذ القرار حيث يتم اتخاذ القرارات (أو الإجراءات) للتنقل في سلسلة الحالات بافتراض أنّ خاصية ماركوف في التعلُّم التعزّزي، تُرجع هذه الانتقالات بين الحالات مكافأة عددية.

خاصية ماركوف

#rl

يشير ذلك المصطلح إلى سمة خاصة ببيئات معيّنة يتم فيها تحديد تحولات الدولة بالكامل استنادًا إلى المعلومات الضمنية في الحالة الحالية وإجراء الوكيل.

نموذج لغة مقنعة

#language

نموذج لغوي يتنبأ باحتمالية ملء الفراغات في تسلسل للرموز المميّزة للمرشح. على سبيل المثال، يمكن لنموذج اللغة المقنَّع أن يحسب الاحتمالات للكلمات(الكلمات) المرشحة لاستبدال التسطير في الجملة التالية:

عاد ____ ذو القبّعة.

تستخدم الأعمال الأدبية السلسلة "MASK" بدلاً من التسطير. مثال:

عاد "MASK" ذو القبّعة.

معظم النماذج الحديثة اللغوية المقنَّعة تكون ثنائية الاتجاه.

مكتبة مات بلوت ليب

هي مكتبة تخطيط مفتوحة المصدر بلغة Python ثنائية الأبعاد. تساعدك مكتبة matplotlib على تمثيل الجوانب المختلفة من تعلُّم الآلة.

تحليل المصفوفة إلى عوامل

#recsystems

في الرياضيات، يشير ذلك المصطلح إلى آلية لإيجاد المصفوفات التي يقترب ناتجها النقطي من مصفوفة مستهدفة.

في أنظمة الاقتراحات، غالبًا ما تحتفظ المصفوفة المستهدَفة بتقييمات المستخدمين بشأن العناصر. على سبيل المثال، قد تبدو المصفوفة المستهدفة لنظام توصية الأفلام على النحو التالي، حيث تكون الأعداد الصحيحة الموجبة هي تقييمات المستخدمين، وتعني 0 أن المستخدم لم يقيّم الفيلم:

  الدار البيضاء قصة فيلادلفيا النمر الأسود المرأة المعجزة روائع الطبيعة
مستخدم 1 5 3 0.0 2.0 0.0
مستخدم 2 4 0.0 0.0 1 5
مستخدم 3 3 1 4 5 0.0

يهدف نظام توصية الأفلام إلى التنبؤ بتقييمات المستخدمين للأفلام غير المصنفة. على سبيل المثال، هل سيعجب المستخدم رقم 1 باسم Black Panther؟

يتمثل أحد الأساليب لأنظمة التوصية في استخدام تحليل المصفوفات لإنشاء المصفوفتين التاليتين:

على سبيل المثال، يمكن أن ينتج عن استخدام تحليل المصفوفة على المستخدمين الثلاثة وخمسة عناصر مصفوفة المستخدم ومصفوفة العناصر التالية:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

ينتج عن ناتج الضرب النقطي لمصفوفة المستخدمين ومصفوفة العناصر مصفوفة التوصيات التي لا تحتوي فقط على تقييمات المستخدمين الأصلية، ولكن أيضًا تنبؤات للأفلام التي لم يطلع عليها كل مستخدم. على سبيل المثال، ضع في الاعتبار تقييم المستخدم 1 لـ Casablanca والذي كان 5.0. نأمل أن يكون ناتج الضرب النقطي المقابل لتلك الخلية في مصفوفة التوصية حوالي 5.0، وهو:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

والأهم من ذلك، هل سيحب المستخدم رقم 1 Black Panther؟ ويؤدي أخذ ناتج الضرب النقطي المقابل للصف الأول والعمود الثالث إلى الحصول على تقييم متوقع يبلغ 4.3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

ينتج عن تحليل المصفوفة عادةً مصفوفة مستخدم ومصفوفة عناصر تكون معًا أكثر إحكامًا من المصفوفة المستهدفة.

متوسط الخطأ المطلق (MAE)

متوسط الخسارة لكل مثال عند استخدام الخسارة1. احسب متوسط الخطأ المطلق على النحو التالي:

  1. احسب الخسارة 1 في دفعة.
  2. اقسِم الخسارة L1 على عدد الأمثلة في المجموعة.

على سبيل المثال، يمكنك حساب الخسارة الأولى في الدفعة التالية التي تتضمّن خمسة أمثلة:

القيمة الفعلية للمثال القيمة المتنبأ بها للنموذج الخسارة (الفرق بين الفعلي والمتوقع)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = الخسارة 1

إذًا، قيمة الخسارة 1 تساوي 8 وعدد الأمثلة هو 5. وبالتالي، يكون متوسط الخطأ المطلق هو:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

تباين في متوسط الخطأ المطلق مع متوسط الخطأ التربيعي والجذر متوسط الخطأ التربيعي.

متوسط الخطأ التربيعي (MSE)

متوسط الخسارة لكل مثال عند استخدام الخسارة. احسب متوسط الخطأ التربيعي على النحو التالي:

  1. احسب الخسارة 2 في دفعة.
  2. اقسِم الخسارة L2 على عدد الأمثلة في المجموعة.

على سبيل المثال، ضع في الاعتبار الخسارة في الدفعة التالية من خمسة أمثلة:

القيمة الفعلية توقع النموذج الخسارة خسارة تربيعية
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = الخسارة 2

وبالتالي، يكون متوسط الخطأ التربيعي هو:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

يعتبر متوسط الخطأ التربيعي أحد التحسينات الشائعة للتدريب، خصوصًا بشأن الانحدار الخطي.

التباين بين متوسط الخطأ التربيعي ومتوسط الخطأ المطلق والجذر متوسط الخطأ التربيعي.

تستخدم أداة TensorFlow Playground "متوسط الخطأ التربيعي" لاحتساب قيم الخسارة.

شبكة متداخلة

#TensorFlow
#GoogleCloud

مصطلح في البرمجة الموازية لتعلُّم الآلة هو مصطلح مرتبط بتخصيص البيانات والنموذج لشرائح TPU وتحديد كيفية تقسيم هذه القيم أو تكرارها.

"شبكات متداخلة" هي مصطلح مثقل بالحمل يمكن أن يعني أيًا مما يلي:

  • تصميم مادي لشرائح TPU.
  • يشير ذلك المصطلح إلى بنية منطقية مجرّدة لتعيين البيانات والنموذج إلى شرائح وحدة معالجة الموتّرات.

في كلتا الحالتين، يتم تحديد الشبكة المتداخلة على أنّها شكل.

التعلم الآلي

#language

يشير ذلك المصطلح إلى مجموعة فرعية من تعلُّم الآلة تعمل على اكتشاف خوارزمية تعلُّم أو تحسينها. يمكن أن يهدف نظام التعلم الوصفي أيضًا إلى تدريب نموذج لتعلم مهمة جديدة بسرعة من كمية صغيرة من البيانات أو من الخبرة المكتسبة في المهام السابقة. تحاول خوارزميات التعلم الآلي تحقيق ما يلي بوجه عام:

  • قم بتحسين أو تعلم الميزات المعدة يدويًا (مثل المهيئ أو المحسن).
  • وفِّر بيانات أكثر فعالية وكفاءة في احتساب البيانات.
  • تحسين التعميم.

ترتبط التعلّم الآلي بالتعلم بلقطات قصيرة.

المقياس

#TensorFlow

إحصائية تهمك.

الهدف هو مقياس يحاول نظام تعلُّم الآلة تحسينه.

واجهة برمجة التطبيقات للمقاييس (tf.metrics)

واجهة برمجة تطبيقات TensorFlow لتقييم النماذج على سبيل المثال، تحدّد السمة tf.metrics.accuracy عدد المرات التي تتطابق فيها توقّعات النموذج مع التصنيفات.

دفعة صغيرة

#fundamentals

مجموعة فرعية صغيرة يتم اختيارها عشوائيًا من مجموعة تتم معالجتها في تكرار واحد. يتراوح عادةً حجم الدفعة في الدفعة الصغيرة بين 10 أمثلة و1,000 مثال.

على سبيل المثال، لنفترض أن مجموعة التدريب بأكملها (الدُفعة الكاملة) تتكون من 1000 مثال. لنفترض أيضًا أنك ضبطت حجم كل دفعة صغيرة لكل دفعة صغيرة على 20. لذلك، يحدد كل تكرار عدم وجود 20 مثالًا من بين 1,000 مثال ثم يضبط القيم المرجحة والتحيزات وفقًا لذلك.

يكون حساب الخسارة في دفعة صغيرة أكثر فاعلية بكثير من الخسارة في جميع الأمثلة في المجموعة الكاملة.

نزول متدرّج عشوائي ضمن دفعة صغيرة

هي خوارزمية انحدار التدرج التي تستخدم مجموعات صغيرة. بمعنى آخر، يقدِّر انحدار التدرج العشوائي في دفعة صغيرة هذا التدرج بناءً على مجموعة فرعية صغيرة من بيانات التدريب. تستخدم خوارزمية انحدار التدرج العشوائي العادية دفعة صغيرة من الحجم 1.

خسارة الحد الأدنى

يشير ذلك المصطلح إلى دالة الخسارة للشبكات الخادعة التوليدية، تستند إلى القصور المتبادل بين توزيع البيانات التي يتم إنشاؤها والبيانات الحقيقية.

يُستخدم الحدّ الأدنى من الخسارة في الورقة الأولى لوصف الشبكات الخادعة التوليدية.

فئة الأقلية

#fundamentals

التسمية الأقل شيوعًا في مجموعة البيانات غير المتوازنة. على سبيل المثال، إذا كانت هناك مجموعة بيانات تحتوي على تسميات سالبة بنسبة 99٪ وتسميات إيجابية بنسبة 1٪، فإن التسميات الإيجابية هي فئة الأقلية.

قارِنها مع فئة الأغلبية.

مالي

اختصار يشير إلى تعلُّم الآلة.

المعهد الوطني للمعايير والتكنولوجيا (MNIST)

#image

مجموعة بيانات في النطاق العام تم جمعها من قبل LeCun وCortes وBurges تحتوي على 60,000 صورة، وتوضح كل صورة كيف كتب الإنسان يدويًا رقمًا معيّنًا من 0 إلى 9. يتم تخزين كل صورة كصفيف من الأعداد الصحيحة بحجم 28×28، حيث يكون كل عدد صحيح عبارة عن قيمة تدرّج رمادي بين 0 و255، بشكل شامل.

تُعدّ MNIST مجموعة بيانات أساسية لتعلُّم الآلة، وغالبًا ما تُستخدم لاختبار أساليب تعلُّم الآلة الجديدة. للحصول على التفاصيل، راجِع قاعدة بيانات MNIST للأرقام المكتوبة بخط اليد.

الطريقة

#language

يشير ذلك المصطلح إلى فئة بيانات عالية المستوى. على سبيل المثال، تعد الأرقام والنص والصور والفيديو والصوت خمس طرق مختلفة.

model

#fundamentals

بشكل عام، أي بناء رياضي يعمل على معالجة بيانات الإدخال وعرض الناتج. تتم صياغة النموذج بشكل مختلف، فهو مجموعة من المعلمات والبنية اللازمة للنظام لإجراء التنبؤات. في تعلُّم الآلة المراقَب، يأخذ النموذج مثالاً كمدخلات ويستنتج توقعًا كمخرجات. ضمن التعلم الآلي الخاضع للإشراف، تختلف النماذج إلى حد ما. مثال:

يمكنك حفظ نموذج أو استعادته أو إنشاء نُسخ منه.

تُنشئ التعلُّم الآلي غير الخاضع للإشراف أيضًا نماذج، وعادةً ما تكون دالة يمكنها ربط مثال مُدخل بالمجموعة الأكثر ملاءمةً.

سعة النموذج

مدى تعقيد المسائل التي يمكن أن يتعلمها النموذج. فكلما كانت المشكلات التي يمكن أن يتعلمها النموذج أكثر تعقيدًا، زادت قدرة النموذج. تزيد سعة النموذج عادةً مع عدد معلمات النموذج. وللحصول على تعريف رسمي لسعة المصنِّف، يُرجى مراجعة بُعد رأس المال الاستثماري (VC).

نموذج متتابع

#generativeAI

نظام يختار model المثالي لطلب بحث استنتاج معيّن

تخيّل مجموعة من النماذج تتراوح بين كبيرة جدًا (الكثير من المَعلمات) إلى أصغر بكثير (معلَمات أقل بكثير). تستهلك النماذج الكبيرة جدًا موارد حسابية أكثر في وقت الاستنتاج مقارنةً بالنماذج الأصغر حجمًا. ومع ذلك، يمكن للنماذج الكبيرة جدًا أن تستنتج عادةً طلبات أكثر تعقيدًا من النماذج الأصغر. يحدد تتالي النموذج مدى تعقيد استعلام الاستنتاج، ثم يختار النموذج المناسب لتنفيذ الاستنتاج. يتمثل الدافع الرئيسي لتتابع النموذج في تقليل تكاليف الاستنتاج من خلال اختيار نماذج أصغر بشكل عام، واختيار نموذج أكبر فقط لطلبات البحث الأكثر تعقيدًا.

تخيل أن هناك طرازًا صغيرًا يعمل على هاتف وإصدار أكبر من هذا الطراز يتم تشغيله على خادم بعيد. يؤدي تتابع النموذج الجيد إلى تقليل التكلفة ووقت الاستجابة من خلال تفعيل النموذج الأصغر حجمًا من معالجة الطلبات البسيطة والاستجابة للطلبات المعقّدة فقط.

يمكنك الاطّلاع أيضًا على نموذج جهاز التوجيه.

نموذج التوازي

#language

طريقة لتوسيع نطاق التدريب أو الاستنتاج من خلال وضع أجزاء مختلفة من model واحد على model مختلفة. تُمكّن ميزة التوازي في النموذج النماذج الكبيرة جدًا بحيث لا يمكن احتواؤها على جهاز واحد.

لتنفيذ نموذج التوازي، يُجري النظام عادةً ما يلي:

  1. تقسيم (تقسيم) النموذج إلى أجزاء أصغر.
  2. يوزع تدريب تلك الأجزاء الأصغر عبر معالجات متعددة. يقوم كل معالج بتدريب الجزء الخاص به من النموذج.
  3. يدمج النتائج لإنشاء نموذج واحد.

يؤدي التوازي في النموذج إلى إبطاء التدريب.

راجِع أيضًا تماثل البيانات.

جهاز توجيه النماذج

#generativeAI

الخوارزمية التي تحدّد model المثالي model في model. موجه النموذج هو في حد ذاته نموذج من نماذج التعلم الآلي يتعلم تدريجيًا كيفية اختيار أفضل نموذج لمدخل معين. ومع ذلك، يمكن أحيانًا أن يكون موجه النموذج خوارزمية تعلم أكثر بساطة وغير آلية.

تدريب النموذج

عملية تحديد أفضل model.

الزخم

خوارزمية انحدار التدرج المعقدة التي تعتمد فيها خطوة التعلم لا تعتمد فقط على المشتق في الخطوة الحالية، ولكن أيضًا على المشتقات من الخطوة(الخطوات) السابقة لها. يتضمن الزخم حساب متوسط متحرك مرجّح بشكل كبير للتدرجات بمرور الوقت، والذي يناظر الزخم في الفيزياء. يمنع الزخم أحيانًا التعلم من الانغماس في الحد الأدنى المحلي.

التصنيف المتعدّد الفئات

#fundamentals

في التعلم المُوجّه، يشير ذلك المصطلح إلى مشكلة تصنيف تتضمّن مجموعة البيانات فيها أكثر من فئتين من التصنيفات. على سبيل المثال، يجب أن تكون التسميات الموجودة في مجموعة بيانات Iris واحدة من الفئات الثلاث التالية:

  • إيريس سيتوسا
  • زهور السوسن العذراء
  • قزحية ملونة

هناك نموذج مدرَّب على مجموعة بيانات Iris والذي يتنبأ بنوع زهور Iris ضمن الأمثلة الجديدة، وهو إجراء التصنيف متعدد الفئات.

وفي المقابل، فإن مشكلات التصنيف التي تميز فئتين بالضبط هي نماذج التصنيف الثنائي. على سبيل المثال، نموذج البريد الإلكتروني الذي يتوقع رسائل غير مرغوب فيها أو ليس رسائل غير مرغوب فيها هو نموذج تصنيف ثنائي.

في مشكلات التجميع العنقودي، يشير التصنيف متعدد الفئات إلى أكثر من مجموعتين.

الانحدار اللوجستي متعدد الفئات

استخدام الانحدار اللوجستي في مسائل التصنيف متعدد الفئات.

انتباه ذاتي متعدد الرؤوس

#language

يشير ذلك المصطلح إلى إصدار مطوّر من الانتباه الذاتي يطبِّق آلية الانتباه الذاتي عدة مرات لكل موضع في تسلسل الإدخال.

وفّرت المحولات ميزة الانتباه الذاتي لعدة رؤوس.

نموذج متعدد الوسائط

#language

يشير ذلك المصطلح إلى النموذج الذي تتضمّن مدخلاته و/أو مخرجاته أكثر من طريقة واحدة. على سبيل المثال، انظر إلى نموذج يأخذ كلاً من صورة وشرح نصي (طريقتان) كميزات، وينتج عنه درجة تشير إلى مدى ملاءمة الشرح النصي للصورة. إذًا، مدخلات هذا النموذج متعددة الوسائط والمخرجات أحادية الاتجاه.

تصنيف متعدّد الحدود

مرادف للتصنيف متعدد الفئات.

الانحدار متعدد الحدود

مرادف الانحدار اللوجستي متعدد الفئات.

تنفيذ مهام متعددة

تقنية لتعلُّم الآلة يتم فيها تدريب model واحد لتنفيذ model متعددة.

يتم إنشاء نماذج تعدد المهام من خلال التدريب على البيانات المناسبة لكل مهمة من المهام المختلفة. يسمح هذا للنموذج بتعلم مشاركة المعلومات عبر المهام، مما يساعد النموذج على التعلم بشكل أكثر فعالية.

غالبًا ما يكون النموذج المدرب على مهام متعددة قد حسن قدرات التعميم ويمكن أن يكون أكثر قوة في التعامل مع أنواع مختلفة من البيانات.

N

فخ القيم غير الرقمية (NaN)

عندما يصبح رقم واحد في نموذجك NaN أثناء التدريب، ما يؤدي إلى أن تتحول العديد من الأرقام الأخرى أو جميعها في النموذج إلى NaN في النهاية.

الاختصار NaN هو اختصار لكلمة Not a Number.

فهم اللغات الطبيعية

#language

تحديد نوايا المستخدم بناءً على ما كتبه أو قاله على سبيل المثال، يستخدم محرك بحث فهم اللغة الطبيعية لتحديد ما يبحث عنه المستخدم بناءً على ما كتبه أو قاله.

فئة سالبة

#fundamentals

في التصنيف الثنائي، تسمى إحدى الفئات إيجابي والأخرى سلبية. الفئة الموجبة هي الشيء أو الحدث الذي يختبر النموذج من أجله والفئة السالبة هي الاحتمال الآخر. مثال:

  • قد تكون الفئة السالبة في الفحص الطبي "ليست ورمًا".
  • الفئة السلبية في مصنف البريد الإلكتروني قد تكون "ليست رسائل غير مرغوب فيها".

التباين مع الفئة الإيجابية.

أخذ العينات السالبة

مرادف تحليل العيّنات المرشحة

بحث البنية العصبية (NAS)

يشير ذلك المصطلح إلى أسلوب التصميم التلقائي لبنية الشبكة العصبونية. يمكن لخوارزميات NAS تقليل مقدار الوقت والموارد المطلوبة لتدريب الشبكة العصبية.

وعادةً ما يستخدم نظام التخزين الشبكي ما يلي:

  • مساحة البحث، وهي مجموعة من البنى المحتملة.
  • دالة اللياقة البدنية، وهي مقياس لمدى جودة أداء بنية معينة في مهمة معينة.

غالبًا ما تبدأ خوارزميات NAS بمجموعة صغيرة من البنى المحتملة وتوسّع نطاق البحث تدريجيًا بينما تتعلّم الخوارزمية المزيد حول البُنى الأساسية الفعالة. تستند وظيفة اللياقة البدنية عادةً إلى أداء البنية في مجموعة تدريب، ويتم تدريب الخوارزمية عادةً باستخدام أسلوب التعلّم المعزّز.

أثبتت خوارزميات NAS فعاليتها في العثور على بُنى عالية الأداء لمجموعة متنوعة من المهام، بما في ذلك تصنيف الصور وتصنيف النصوص والترجمة الآلية.

شبكة عصبية

#fundamentals

model يحتوي على model واحدة على الأقل. الشبكة العصبية العميقة هي نوع من الشبكات العصبية التي تحتوي على أكثر من طبقة مخفية. على سبيل المثال، يوضح الرسم التخطيطي التالي شبكة عصبية عميقة تحتوي على طبقتين مخفيتين.

يشير ذلك المصطلح إلى شبكة عصبية تضم طبقة إدخال وطبقتَين مخفيتَين وطبقة إخراج.

وتتصل كل خلية عصبية في الشبكة العصبية بجميع النقاط في الطبقة التالية. على سبيل المثال، في المخطط السابق، لاحظ أن كل خلية من الخلايا العصبية الثلاث في الطبقة المخفية الأولى تتصل بشكل منفصل بكلتا الخليتين العصبيتين في الطبقة المخفية الثانية.

تُعرف الشبكات العصبية المنفَّذة على أجهزة الكمبيوتر أحيانًا باسم الشبكات العصبية الاصطناعية لتمييزها عن الشبكات العصبية الموجودة في الدماغ والأنظمة العصبية الأخرى.

يمكن لبعض الشبكات العصبية محاكاة العلاقات غير الخطية المعقدة للغاية بين الخصائص المختلفة والتصنيف.

راجِع أيضًا الشبكة العصبية الالتفافية والشبكة العصبية المتكررة.

عصبون

#fundamentals

في تقنية تعلُّم الآلة، يشير هذا المصطلح إلى وحدة مميزة داخل طبقة مخفية من شبكة عصبية. تنفذ كل خلية عصبية الإجراء المكون من خطوتين:

  1. لحساب المجموع المرجح لقيم الإدخال مضروبة في الترجيحات المقابلة لها.
  2. لتمرير المجموع المرجح كإدخال في دالة تفعيل.

تقبل الخلية العصبية في الطبقة المخفية الأولى المدخلات من قيم الخصائص في طبقة الإدخال. الخلية العصبية في أي طبقة مخفية أخرى تقبل المدخلات من الخلايا العصبية في الطبقة المخفية السابقة. على سبيل المثال، تقبل الخلية العصبية في الطبقة المخفية الثانية مدخلات من الخلايا العصبية في الطبقة المخفية الأولى.

يُبرز الرسم التوضيحي التالي خليتين عصبيتين وإدخالاتهما.

يشير ذلك المصطلح إلى شبكة عصبية تضم طبقة إدخال وطبقتَين مخفيتَين وطبقة إخراج. يتم تمييز خليتين من الخلايا العصبية: إحداهما في الطبقة المخفية الأولى والأخرى في الطبقة المخفية الأخرى. وتتلقى الخلية العصبية المميزة في أول طبقة مخفية مدخلات من كلتا الميزتين في طبقة الإدخال. الخلية العصبية المظللة في الطبقة المخفية الثانية تتلقى مدخلات من كل خلية من الخلايا الثلاث في الطبقة المخفية الأولى.

تحاكي خلايا عصبية في الشبكة العصبية سلوك الخلايا العصبية في الدماغ وأجزاء أخرى من الأجهزة العصبية.

N-غرام

#seq
#language

تسلسل مُرتب من كلمات N. على سبيل المثال، يرمز حرف truly madly إلى 2 غرام. نظرًا لأن الطلب ذي صلة، يكون وزن ما الاشتراك بنحو 2 غرام بدلاً من 2 غرام من نوع جنون حقًا.

N أسماء هذا النوع من الغرامات(N-gram) أمثلة
2 بيغ رام أو 2 غرام الذهاب إلى المكان، ثم تناول الغداء، العشاء
3 تريغرام أو 3 غرام أكلت الكثير من الطعام، و3 فئران مكفوفين، وأجراس أجراس
4 4 غرام يمشي في الحديقة، والغبار الذي يشعّ بالرياح، وأكل الصبي العدس

تعتمد العديد من نماذج فهم اللغة الطبيعية على N-grams للتنبؤ بالكلمة التالية التي سيكتبها المستخدم أو يقولها. على سبيل المثال، لنفترض أنّ أحد المستخدمين كتب ثلاثة فئات مكشوفة. من المرجح أن يتوقع نموذج NLU المستند إلى الأشكال الثلاثية أن المستخدم سيكتب الفئران بعد ذلك.

قارن N غرام مع كيس من الكلمات، وهي مجموعات غير مرتّبة من الكلمات.

فهم اللغات الطبيعية

#language

اختصار لفهم اللغة الطبيعية

العقدة (شجرة القرار)

#df

في شجرة القرار، أي شرط أو ورقة شجر

شجرة قرار مكونة من شرطين وثلاث أوراق.

العقدة (الشبكة العصبية)

#fundamentals

خلية عصبية في طبقة مخفية.

عقدة (رسم بياني TensorFlow)

#TensorFlow

عملية في رسم بياني من TensorFlow.

الضجيج

وبصفة عامة، يشير هذا المصطلح إلى أي شيء يحجب الإشارة في مجموعة بيانات. يمكن إدخال الضوضاء إلى البيانات بعدة طرق. مثال:

  • يرتكب المصنِّفون أخطاءً في التصنيف.
  • يسجِّل المستخدمون والأدوات قيم الميزات أو يحذفونها بشكلٍ خاطئ.

شرط غير ثنائي

#df

شرط يحتوي على أكثر من نتيجتَين محتملتَين. على سبيل المثال، يحتوي الشرط غير الثنائي التالي على ثلاثة نتائج محتملة:

شرط (number_of_legs = ?) يؤدي إلى ثلاث نتائج محتملة. تؤدي إحدى النتائج (number_of_legs = 8) إلى ورقة شجر تسمى العنكبوت. وتؤدي النتيجة الثانية (number_of_legs = 4) إلى ورقة شجر اسمها "كلب". وتؤدي النتيجة الثالثة (number_of_legs = 2) إلى ورقة شجر تسمى penguin.

غير خطي

#fundamentals

يشير ذلك المصطلح إلى علاقة بين متغيرَين أو أكثر لا يمكن تمثيلهما فقط من خلال الجمع والضرب. يمكن تمثيل العلاقة الخطية كخط، ولا يمكن تمثيل العلاقة غير الخطية كخط. على سبيل المثال، ضع في اعتبارك نموذجين يربط كل منهما ميزة واحدة بتسمية واحدة. النموذج الموجود على اليسار خطي والنموذج على اليمين غير خطي:

مخططين. أحد المخططات عبارة عن خط، لذا فهذه علاقة خطية.
          أما المخطط الآخر فهو منحنى، ولذلك فهذه علاقة غير خطية.

انحياز عدم الاستجابة

#fairness

يُرجى الاطّلاع على الانحياز في الاختيار.

عدم الاستقرار

#fundamentals

يشير ذلك المصطلح إلى عنصر تتغيّر قيمه على مستوى سمة واحدة أو أكثر، وعادةً ما تكون المدة الزمنية. على سبيل المثال، يمكن النظر في الأمثلة التالية على عدم الاستقرار:

  • يختلف عدد ملابس السباحة التي يتم بيعها في متجر معيّن باختلاف الموسم.
  • كمية فاكهة معينة تم حصادها في منطقة معينة تساوي صفرًا في معظم فترات العام ولكنها كبيرة لفترة وجيزة.
  • بسبب التغيّر المناخي، يتغير متوسط درجات الحرارة السنوية.

تتعارض مع الثبات.

تسوية

#fundamentals

بشكل عام، عملية تحويل النطاق الفعلي للمتغير إلى نطاق قياسي من القيم، مثل:

  • -1 إلى 1+
  • 0 إلى 1
  • التوزيع الطبيعي

على سبيل المثال، لنفترض أن النطاق الفعلي للقيم لميزة معينة هو 800 إلى 2400. كجزء من هندسة الميزات، يمكنك تسوية القيم الفعلية وصولاً إلى نطاق قياسي، مثل 1-1 إلى +1.

التسوية هي مهمة شائعة في هندسة الميزات. يتم تدريب النماذج عادةً بشكل أسرع (وتنشئ توقّعات أفضل) عندما يكون لكل ميزة عددية في خط متجه الميزات النطاق نفسه تقريبًا.

رصد المنتجات الجديدة

عملية تحديد ما إذا كان مثال جديد (جديد) يأتي من نفس توزيع مجموعة التدريب. بعبارة أخرى، بعد التدريب على مجموعة التدريب، تحدّد ميزة رصد المنتجات الجديدة ما إذا كان هناك مثال جديد (أثناء الاستنتاج أو أثناء تدريب إضافي) قيمة استثنائية.

التباين مع رصد القيم الشاذّة.

بيانات رقمية

#fundamentals

الميزات التي يتم تمثيلها كأعداد صحيحة أو أرقام ذات قيمة حقيقية. على سبيل المثال، من المحتمل أن يمثل نموذج تقييم المنزل حجم المنزل (بالقدم المربع أو بالمتر المربع) كبيانات رقمية. يشير تمثيل ميزة كبيانات رقمية إلى أن قيم الميزة لها علاقة رياضية بالتسمية. أي أن عدد الأمتار المربعة في المنزل ربما ترتب له علاقة رياضية بقيمة المنزل.

لا يجب تمثيل جميع بيانات الأعداد الصحيحة كبيانات رقمية. على سبيل المثال، تكون الرموز البريدية في بعض أجزاء العالم أعدادًا صحيحة، ومع ذلك لا يجب تمثيل الرموز البريدية للأعداد الصحيحة كبيانات رقمية في النماذج. ويرجع ذلك إلى أنّ الرمز البريدي 20000 ليس ضعف (أو نصف) فعالية الرمز البريدي 10000. إضافةً إلى ذلك، على الرغم من أنّ الرموز البريدية المختلفة ترتبط بقيم مختلفة للعقارات، لا يمكننا افتراض أنّ قيم العقارات في الرمز البريدي 20000 تساوي ضعف قيم العقارات حسب الرمز البريدي 10000. يجب تمثيل الرموز البريدية على أنّها بيانات فئوية بدلاً من ذلك.

يُطلق على الميزات العددية أحيانًا اسم الميزات المستمرة.

NumPy

هي مكتبة رياضية مفتوحة المصدر توفر عمليات صفيف فعالة في بايثون. تم تصميم pandas على NumPy.

O

هدف

مقياس تحاول الخوارزمية تحسينه

دالة موضوعية

الصيغة الرياضية أو المقياس الذي يهدف النموذج إلى تحسينه. على سبيل المثال، عادة ما تكون دالة الهدف للانحدار الخطي متوسط الخسارة التربيعية. وبالتالي، عند تطبيق نموذج انحدار خطّي، يهدف التدريب إلى تقليل متوسط الخسارة التربيعية.

في بعض الحالات، يكون الهدف هو تحقيق أقصى استفادة من دالة الهدف. على سبيل المثال، إذا كانت دالة الهدف هي الدقة، فإن الهدف هو زيادة الدقة إلى أقصى حد.

يمكنك الاطّلاع أيضًا على القسم خسارة.

شرط مائل

#df

في شجرة القرار، هي شرط يتضمن أكثر من ميزة واحدة. على سبيل المثال، إذا كان الارتفاع والعرض كلتا الميزتين، فإن ما يلي شرط مائل:

  height > width

تباين مع شرط محاذاة المحور.

بلا إنترنت

#fundamentals

مرادف لكلمة static.

الاستنتاج بلا اتّصال بالإنترنت

#fundamentals

يشير ذلك المصطلح إلى عملية إنشاء مجموعة من التوقّعات، ثم تخزينها مؤقتًا (حفظها). ويمكن للتطبيقات بعد ذلك الوصول إلى التوقّع المستنتج من ذاكرة التخزين المؤقت بدلاً من إعادة تشغيل النموذج.

على سبيل المثال، ضع في اعتبارك نموذجًا يُنشئ توقّعات عن الطقس المحلي (التوقّعات) مرة كل أربع ساعات. بعد تشغيل كل نموذج، يخزن النظام مؤقتًا جميع توقعات الطقس المحلية. تسترد تطبيقات الطقس التوقعات من ذاكرة التخزين المؤقت

ويُسمى الاستنتاج بلا اتصال بالإنترنت أيضًا الاستنتاج الثابت.

يتعارض مع الاستنتاج على الإنترنت

ترميز واحد فعال

#fundamentals

تمثيل البيانات الفئوية كمتّجه:

  • تم ضبط عنصر واحد على 1.
  • يتم تعيين جميع العناصر الأخرى على 0.

يُستخدم الترميز الأحادي بشكل شائع لتمثيل السلاسل أو المعرّفات التي تحتوي على مجموعة محدودة من القيم المحتملة. على سبيل المثال، لنفترض أن ميزة فئوية معينة تُسمى Scandinavia تتضمن خمس قيم محتملة:

  • "الدانمرك"
  • "السويد"
  • "النرويج"
  • "فنلندا"
  • "آيسلندا"

يمكن أن يمثل الترميز الأحادي كل قيمة من القيم الخمس على النحو التالي:

بلد المتجه
"الدانمرك" 1 0 0 0 0
"السويد" 0 1 0 0 0
"النرويج" 0 0 1 0 0
"فنلندا" 0 0 0 1 0
"آيسلندا" 0 0 0 0 1

فبفضل الترميز الأحادي، يستطيع النموذج أن يتعلم علاقات مختلفة بناءً على كل دولة من البلدان الخمسة.

إنّ تمثيل الميزة على أنّها بيانات رقمية هو بديل للترميز الأحادي. لسوء الحظ، فإن تمثيل البلدان الاسكندنافية عدديًا ليس خيارًا جيدًا. على سبيل المثال، ضع في اعتبارك التمثيل الرقمي التالي:

  • "الدانمرك" 0
  • "السويد" هو 1
  • "النرويج" هي 2
  • "فنلندا" هي 3
  • ذكرى "آيسلندا" هي 4

باستخدام الترميز الرقمي، يمكن لأي نموذج تفسير الأرقام الأولية رياضيًا ومحاولة التدرّب على هذه الأرقام. ومع ذلك، فإن أيسلندا ليست في الواقع ضعف (أو نصف هذا العدد) من شيء ما مثل النرويج، لذلك فإن النموذج سيتوصل إلى بعض الاستنتاجات الغريبة.

التعلّم بكرة واحدة

هو منهج من مناهج التعلم الآلي، وغالبًا ما يستخدم لتصنيف العناصر، مصمّم لتعلم المصنِّفات الفعالة من خلال مثال تدريبي واحد.

يمكنك أيضًا الاطّلاع على المنهجَين التعلّم بلقطات قصيرة والتعلّم بدون تدخُّل مبرّر.

طلب بنقرة واحدة

#language
#generativeAI

طلب يحتوي على مثال واحد يوضّح كيفية استجابة النموذج اللغوي الكبير على سبيل المثال، يحتوي الطلب التالي على مثال واحد يوضح نموذجًا لغويًا كبيرًا كيف يجب أن يجيب على أحد طلبات البحث.

أجزاء من طلب واحد Notes
ما هي العملة الرسمية للبلد المحدّد؟ السؤال الذي تريد الإجابة عنه من خلال النموذج اللغوي الكبير
فرنسا: اليورو مثال واحد.
الهند: الاستعلام الفعلي.

قارِن بين طلب لقطة واحدة والمصطلحات التالية:

واحد مقابل-الكل

#fundamentals

ننظر إلى مشكلة تصنيف بالفئات N، وهو حل يتكون من مصنِّفات ثنائية منفصلة من حيث التصنيف، ومصنِّفًا ثنائيًا واحد لكل نتيجة ممكنة. على سبيل المثال، إذا كان هناك نموذج يصنف الأمثلة على أنها حيوان أو خضروات أو معدن، سيوفر الحل "واحد مقابل الكل" المصنِّفات الثنائية الثلاثة المنفصلة التالية:

  • حيوان مقابل ليس حيوانًا
  • خضار مقابل غير نباتي
  • معدني مقابل غير معدنية

على الإنترنت

#fundamentals

مرادف ديناميكية.

الاستنتاج على الإنترنت

#fundamentals

إنشاء توقّعات عند الطلب على سبيل المثال، افترض أن التطبيق يمرر الإدخال إلى نموذج ويصدر طلبًا لتوقع. يستجيب النظام الذي يستخدم الاستنتاج عبر الإنترنت للطلب من خلال تشغيل النموذج (وإرجاع التنبؤ إلى التطبيق).

تتعارض مع الاستنتاج بلا إنترنت:

العملية (op)

#TensorFlow

في TensorFlow، يشير أي إجراء إلى إنشاء Tensor أو التلاعب به أو تدميره. على سبيل المثال، ضرب المصفوفة هو عملية تأخذ معاملين Tensor كإدخال وتنتج عنها Tensor واحد كمخرجات.

Optax

مكتبة تحسين ومعالجة متدرجة لـ JAX. يُسهل Optax البحث من خلال توفير الكتل البرمجية الإنشائية التي يمكن إعادة دمجها بطرق مخصصة لتحسين النماذج البارامترية مثل الشبكات العصبية العميقة. تشمل الأهداف الأخرى ما يلي:

  • توفير تطبيقات سهلة القراءة وتم اختبارها جيدًا وفعّالة للمكونات الأساسية.
  • تحسين الإنتاجية من خلال إتاحة إمكانية دمج المكونات منخفضة المستوى في محسنات مخصصة (أو مكونات أخرى لمعالجة التدرج).
  • تسريع تبني الأفكار الجديدة من خلال تسهيل مساهمة أي شخص.

محسِّن

هي عبارة عن تنفيذ محدد لخوارزمية انحدار التدرج. تشمل أدوات التحسين الشائعة ما يلي:

  • AdaGrad، التي تشير إلى خوارزمية ADAptive GADient descent (الانحدار الحراري التكيّفي)
  • آدم الذي يعني ADAptive مع الزخم.

الانحياز للتشابه خارج المجموعة

#fairness

الميل إلى رؤية أعضاء خارج المجموعة على نحو أكثر تشابهًا من الأعضاء داخل المجموعة عند مقارنة المواقف والقيم والسمات الشخصية والخصائص الأخرى. داخل المجموعة: يشير إلى الأشخاص الذين تتفاعل معهم بانتظام، وخارج المجموعة يشير إلى الأشخاص الذين لا تتفاعل معهم بانتظام. إذا أنشأت مجموعة بيانات من خلال مطالبة الأشخاص بتقديم سمات حول خارج المجموعات، فقد تكون هذه السمات أقل دقة وأكثر نمطية من السمات التي يدرجها المشاركون للأشخاص في مجموعتهم.

على سبيل المثال، قد يصف ليلبونيات المياه منازل ليليبوتي الأخرى بتفصيل كبير، مشيرين إلى الاختلافات الطفيفة في الأنماط المعمارية والنوافذ والأبواب والأحجام. ومع ذلك، قد يعلن نفسهم الليلبوتيين ببساطة أن جميع أفراد العائلة يعيشون في منازل متطابقة.

إنّ الانحياز في التجانس خارج المجموعة هو شكل من أشكال الانحياز في تحديد المصدر على مستوى المجموعة.

راجِع أيضًا الانحياز داخل المجموعة.

رصد القيم الشاذّة

يشير ذلك المصطلح إلى عملية تحديد القيم الشاذّة في مجموعة تدريب.

يتناقض ذلك مع ميزة رصد العناصر الجديدة.

الذي حقق أداءً مختلفًا

بعيدة عن معظم القيم الأخرى. في التعلم الآلي، أي مما يلي يمثل قيمة استثنائية:

  • يشير ذلك المصطلح إلى البيانات التي تزيد قيمها عن 3 انحرافات معيارية تقريبًا عن المتوسط.
  • الترجيحات ذات القيم المطلقة العالية
  • القيم المتنبأ بها بعيدة نسبيًا عن القيم الفعلية.

على سبيل المثال، لنفترض أنّ widget-price هي ميزة لطراز معيّن. لنفترض أنّ متوسط widget-price هو 7 يورو بانحراف معياري يبلغ 1 يورو. وبالتالي، سيتم اعتبار الأمثلة التي تتضمّن قيمة widget-price بقيمة 12 يورو أو 2 يورو قيمًا استثنائية لأنّ كل سعر من هذه الأسعار هو خمسة انحرافات معيارية عن المتوسّط.

غالبًا ما تنتج القيم الاستثنائية عن الأخطاء الإملائية أو أخطاء الإدخال الأخرى. في حالات أخرى، لا تُعد القيم الاستثنائية أخطاء؛ فبعد كل شيء، قيم خمسة انحرافات معيارية عن المتوسط نادرة ولكن يصعب الحصول عليها.

غالبًا ما تتسبب القيم الاستثنائية في حدوث مشاكل في تدريب النموذج. تُعدّ الاقتصاص إحدى طرق إدارة القيم الشاذّة.

تقييم خارج الحقيبة (تقييم OOB)

#df

آلية لتقييم جودة غابة قرارات من خلال اختبار كل شجرة قرارات استنادًا إلى أمثلة غير مُستخدَمة أثناء التدريب المتعلّق بشجرة القرارات تلك. على سبيل المثال، في المخطط التالي، لاحظ أن النظام يدرّب كل شجرة قرارات على حوالي ثلثي الأمثلة ثم يتم تقييمه بناءً على الثلث المتبقي من الأمثلة.

يشير ذلك المصطلح إلى غابة قرارات تتألّف من ثلاث أشجار القرارات.
          وتتدرب شجرة قرارات واحدة على ثلثي الأمثلة، ثم تستخدم الثلث المتبقي لتقييم OOB.
          وتعتمد شجرة القرار الثانية على ثلثَي أمثلة مختلفَين مقارنةً بشجرة القرار السابقة، ثم تستخدم ثلثًا مختلفًا لتقييم OOB عن شجرة القرارات السابقة.

يُعدّ التقييم خارج الحقيبة تقديرًا تقريبيًا فعالاً ومحافظًا من الناحية الحسابية لآلية التحقق المتبادل. في عملية التحقّق المتقاطع، يتم تدريب نموذج واحد على كل جولة تحقُّق متقاطعة (على سبيل المثال، يتم تدريب 10 نماذج على التحقّق المتقاطع الذي يبلغ 10 نماذج). من خلال تقييم OOB، يتم تدريب نموذج واحد. بما أنّ وضع البيانات يحجب بعض البيانات من كل شجرة أثناء التدريب، يمكن لتقييم OOB استخدام هذه البيانات لتقريب التحقّق المتبادل من صحة البيانات.

طبقة المخرجات

#fundamentals

الطبقة "النهائية" للشبكة العصبية. تحتوي طبقة الإخراج على التنبؤ.

يُظهر الرسم التوضيحي التالي شبكة عصبية صغيرة عميقة مع طبقة إدخال وطبقتَين مخفيّة وطبقة إخراج:

يشير ذلك المصطلح إلى شبكة عصبية مكوّنة من طبقة إدخال واحدة وطبقتَين مخفيتَين وطبقة إخراج واحدة. تتكون طبقة الإدخال من سمتين. والطبقة الأولى المخفية تتكون من ثلاث خلايا عصبية والطبقة الثانية المخفية تتكون من خليتين عصبيتين. تتكون طبقة الإخراج من عقدة واحدة.

فرط التخصيص

#fundamentals

إنشاء model يتطابق مع model بدرجة كبيرة بحيث يتعذّر على النموذج تقديم توقّعات صحيحة بشأن البيانات الجديدة

يمكن أن يقلل التسوية من فرط التخصيص. يمكن أيضًا أن يؤدي التدريب على مجموعة تدريب كبيرة ومتنوّعة إلى تقليل فرط التخصيص.

المبالغة في أخذ العيّنات

إعادة استخدام أمثلة لفئة أقلية في مجموعة بيانات غير متوازنة الفئ لإنشاء مجموعة تدريب أكثر توازنًا.

على سبيل المثال، ضع في اعتبارك مشكلة التصنيف الثنائي تكون فيها نسبة فئة الأغلبية إلى فئة الأقلية 5,000:1. إذا كانت مجموعة البيانات تحتوي على مليون مثال، فإن مجموعة البيانات تحتوي على حوالي 200 مثال فقط لفئة الأقلية، والتي قد تكون أمثلة قليلة جدًا للتدريب الفعال. للتغلب على هذا القصور، يمكنك المبالغة في عينة (إعادة استخدام) تلك الأمثلة الـ 200 عدة مرات، مما قد ينتج عنه أمثلة كافية لتدريب مفيد.

يجب توخي الحذر بشأن فرط التخصيص عند المبالغة في العينات.

تباين مع التقليل من أخذ العينات.

P

بيانات مجمّعة

يشير ذلك المصطلح إلى طريقة لتخزين البيانات بكفاءة أكبر.

تخزن البيانات المعبأة البيانات إما باستخدام تنسيق مضغوط أو بطريقة أخرى تتيح الوصول إليها بشكل أكثر كفاءة. وتقلِّل البيانات المجمّعة من مقدار الذاكرة والعمليات الحسابية المطلوبة للوصول إليها، ما يؤدي إلى تدريب أسرع واستنتاج نموذج أكثر كفاءة.

غالبًا ما يتم استخدام البيانات المجمّعة مع أساليب أخرى، مثل زيادة البيانات وتنظيمها، ما يؤدي إلى تحسين أداء النماذج بشكل أكبر.

باندا

#fundamentals

واجهة برمجة تطبيقات لتحليل البيانات المستندة إلى الأعمدة تم إنشاؤها باستخدام numpy. تدعم العديد من أطر عمل التعلم الآلي، بما في ذلك TensorFlow، هياكل بيانات الباندا كمدخلات. راجع وثائق pandas للحصول على التفاصيل.

مَعلمة

#fundamentals

المؤشرات والانحيازات التي يتعلّمها النموذج خلال التدريب على سبيل المثال، في نموذج الانحدار الخطي، تتألف المعلَمات من الانحياز (b) وجميع القيم التقديرية (w1، وw2، وما إلى ذلك) في الصيغة التالية:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

في المقابل، المعلَمة الفائقة هي القيم التي توفِّرها أنت (أو خدمة تحويل المَعلمة الفائقة) إلى النموذج. على سبيل المثال، معدّل التعلّم هو معلَمة فائقة.

ضبط فعّالة من حيث المَعلمات

#language
#generativeAI

هي مجموعة من الأساليب لتحسين نموذج لغوي مدرَّب مسبقًا وكفاءة أعلى من ضبط النموذج اللغوي بالكامل. يؤدّي الضبط الفعّال إلى ضبط معلَمات أقلّ بكثير من الضبط الكامل، ولكن ينتج بشكل عام نموذج لغوي كبير يحقّق أداءً جيدًا (أو شبه تقريبًا) مثل النموذج اللغوي الكبير الذي يتم إنشاؤه من خلال التوليف الدقيق.

تحديد أوجه الاختلاف والتشابه بين الضبط الفعّال للمعلَمات مع:

ويُعرف الضبط الفعّال للمعلَمات أيضًا باسم الضبط الفعّال للمعلَمات.

خادم المعلَمة (PS)

#TensorFlow

وظيفة تتتبّع معلَمات النموذج في بيئة موزّعة.

تعديل المَعلمة

يشير ذلك المصطلح إلى عملية ضبط مَعلمات نموذج أثناء التدريب، وعادةً ما تكون ضمن تكرار واحد من انحدار التدرج.

مشتق جزئي

مشتق يعتبر فيه جميع المتغيّرات باستثناء واحد ثابتًا. على سبيل المثال، المشتق الجزئي لـ f(x, y) بالنسبة إلى x هو مشتق f الذي يُعتبر وظيفة x وحدها (أي إبقاء y ثابتًا). تركّز المشتق الجزئي لـ f بالنسبة إلى x فقط على كيفية تغير x ويتجاهل جميع المتغيرات الأخرى في المعادلة.

الانحياز في المشاركة

#fairness

مرادف لتحيز عدم الاستجابة. يُرجى الاطّلاع على الانحياز في الاختيار.

استراتيجية التقسيم

الخوارزمية التي يتم تقسيم المتغيّرات على خوادم المعلَمات بها.

باكس

يشير هذا المصطلح إلى إطار برمجة تم تصميمه لتدريب نماذج الشبكات العصبونية على نطاق واسع، بحيث يمكن استخدامها في العديد من الشرائح المسرّعة الشرائح أو اللوحات.

تم إنشاء Pax على Flax، والذي تم إنشاؤه على JAX.

رسم تخطيطي يشير إلى موضع Pax في حزمة البرامج
          تم إنشاء Pax على رأس JAX. يتكون Pax نفسه من ثلاث طبقات. تحتوي الطبقة السفلية على TensorStore وFlax.
          تحتوي الطبقة الوسطى على Optax وFlaxformer. تحتوي الطبقة العلوية على مكتبة Prixis Modeling. تم إنشاء Fiddle استنادًا إلى Pax.

درسترن

يشير هذا المصطلح إلى نظام (إما أجهزة أو برامج) يستخدم قيمة واحدة أو أكثر من قيم الإدخال، ويشغِّل وظيفة على المجموع المرجح للمدخلات ويحتسب قيمة ناتج واحدة. في تعلُّم الآلة، تكون الدالة غير خطية عادةً، مثل ReLU أو sigmoid أو tanh. على سبيل المثال، يعتمد الإدراك التالي على الدالة السينية لمعالجة ثلاث قيم إدخال:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

في الرسم التوضيحي التالي، يأخذ المعترف ثلاثة مدخلات، ويتم تعديل كل منها بحد ذاته بوزن قبل الدخول إلى إدراك الرسم:

وعاء يستقبل 3 مدخلات، ويتم ضرب كل منها في قيم ترجيح منفصلة. ويخرج Perceptron قيمة واحدة.

الخلايا العصبية هي الخلايا العصبية في الشبكات العصبونية.

الأداء

مصطلح مثقل بحمل يحمل المعاني التالية:

  • المعنى القياسي في هندسة البرمجيات. وهي: ما مدى سرعة (أو كفاءة) هذا البرنامج الذي يعمل؟
  • المعنى في التعلم الآلي. في هذا المثال، يجيب الأداء عن السؤال التالي: ما مدى دقة هذا model؟ أي، ما مدى جودة تنبؤات النموذج؟

أهمية متغير التبديل

#df

يشير ذلك المصطلح إلى نوع من الأهمية المتغيّرة يقيّم الزيادة في خطأ التوقّع لنموذج ما بعد تعديل قيم العنصر. أهمية متغير التبديل هي مقياس مستقل عن النموذج.

الارتباك

أحد مقاييس مدى نجاح model في إنجاز مهمته. على سبيل المثال، لنفترض أن مهمتك هي قراءة الأحرف القليلة الأولى من الكلمة التي يكتبها المستخدم على لوحة مفاتيح الهاتف، وعرض قائمة بالكلمات المكتملة المحتملة. التقارب، P، لهذه المهمة هو تقريبًا عدد التخمينات التي تحتاج إلى تقديمها حتى تحتوي قائمتك على الكلمة الفعلية التي يحاول المستخدم كتابتها.

ويرتبط التشويش بالإنتروبيا العابرة على النحو التالي:

$$P= 2^{-\text{cross entropy}}$$

مسار التعلّم

البنية الأساسية المحيطة بخوارزمية تعلُّم الآلة. يتضمن مسار التدفق جمع البيانات، ووضع البيانات في ملفات بيانات التدريب، وتدريب نموذج واحد أو أكثر، وتصدير النماذج إلى الإنتاج.

مسار تزحلق

#language

يشير ذلك المصطلح إلى شكل من أشكال التوازي للنموذج الذي يتم فيه تقسيم معالجة النموذج إلى مراحل متتالية، ويتم تنفيذ كل مرحلة على جهاز مختلف. أثناء معالجة المرحلة لدفعة واحدة، يمكن أن تعمل المرحلة السابقة على الدفعة التالية.

راجِع أيضًا التدريب على مراحل.

بجيت

دالة JAX تقسّم الرمز لتشغيله على عدّة شرائح مسرِّعة أعمال. يمرّر المستخدم دالة إلى pjit، التي تعرض دالة لها دلالات مكافئة ولكن يتم تجميعها في عملية XLA حاسوبية تعمل على عدة أجهزة (مثل وحدات معالجة الرسومات أو نوى TPU).

يتيح pjit للمستخدمين تقسيم العمليات الحسابية بدون إعادة كتابتها باستخدام أداة تقسيم SPMD.

اعتبارًا من آذار (مارس) 2023، تم دمج pjit مع jit. لمزيد من التفاصيل، يمكنك الاطّلاع على مقالة الصفائف الموزعة والمعادلة التلقائية.

إدارة موفّر المحتوى (PLM)

#language
#generativeAI

اختصار لنموذج لغوي تم تدريبه مسبقًا.

بروتوكول pmap

دالة JAX تنفِّذ نُسخًا من دالة إدخال على العديد من الأجهزة الأساسية (وحدات المعالجة المركزية (CPU) أو وحدات معالجة الرسومات أو وحدات معالجة الموتّرات)، ذات قيم إدخال مختلفة. تعتمد صفحة pmap على SPMD.

سياسة

#rl

في التعلّم المعزّز، يتم ربط الاحتمالات للوكيل من الحالات إلى الإجراءات.

تجميع

#image

اختزال المصفوفة (أو المصفوفات) التي تم إنشاؤها بواسطة طبقة التفافية سابقة إلى مصفوفة أصغر. عادة ما يتضمن التجميع أخذ إما القيمة القصوى أو المتوسطة عبر المنطقة المجمّعة. على سبيل المثال، لنفترض أن لدينا مصفوفة 3×3 التالية:

مصفوفة 3×3 [[5،3,1]، [8،2،5]، [9،4،3]].

تعمل عملية التجميع، تمامًا مثل العملية الالتفافية، على تقسيم تلك المصفوفة إلى شرائح ثم شرائح تلك العملية الالتفافية على خطوات. على سبيل المثال، لنفترض أن عملية التجميع تقسم المصفوفة الالتفافية إلى شرائح 2×2 بخطوة 1×1. وكما يوضِّح الرسم البياني التالي، تحدث أربع عمليات تجميع. تخيل أن كل عملية تجميع تختار القيمة القصوى للأربعة في تلك الشريحة:

وتكون مصفوفة الإدخال هي 3×3 والقيم التالية: [[5,3,1]، [8,2,5]، [9,4,3]].
          المصفوفة الفرعية أعلى اليسار 2×2 لمصفوفة الإدخال هي [[5,3] و[8,2]]، وبالتالي ينتج عن عملية التجميع في أعلى اليسار القيمة 8 (وهي
 الحد الأقصى البالغ 5 و3 و8 و2). المصفوفة الفرعية أعلى اليمين 2x2 لمصفوفة الإدخال هي [[3,1] و[2,5]]، وبالتالي ينتج عن عملية التجميع في أعلى اليمين القيمة 5. المصفوفة الفرعية أسفل اليسار 2×2 لمصفوفة الإدخال هي [[8,2] و[9,4]]، وبالتالي ينتج عن عملية التجميع أسفل اليسار القيمة 9. المصفوفة الفرعية 2x2 أسفل اليمين لمصفوفة الإدخال هي
          [[2,5]، [4,3]]، وبالتالي ينتج عن عملية التجميع في أسفل اليمين القيمة
          5. باختصار، يُنتج عن عملية التجميع مصفوفة 2×2
          [[8،5]، [9،5]].

يساعد التجميع في فرض التباين الترجمةي في مصفوفة الإدخال.

وتُعرف عملية التجميع لتطبيقات الرؤية بشكل رسمي أكثر باسم التجميع المكاني. تشير تطبيقات السلسلة الزمنية عادةً إلى التجميع باسم التجميع المؤقت. بشكل أقل رسمية، يُعرف التجميع باسم أخذ العينات أو تقليل العيّنات.

الترميز الموضعي

#language

يشير ذلك المصطلح إلى أسلوب لإضافة معلومات عن موضع الرمز المميّز في تسلسل لتضمين الرمز المميّز. تستخدم نماذج المحولات الترميز الموضعي لفهم العلاقة بين الأجزاء المختلفة من التسلسل بشكل أفضل.

هناك استخدام شائع للترميز الموضعي يستخدم وظيفة جيبية. (على وجه التحديد، يتم تحديد تردد واتساع الدالة الجيبية من خلال موضع الرمز المميز في التسلسل). تُمكّن هذه التقنية نموذج المحول من تعلم كيفية الانتباه إلى أجزاء مختلفة من التسلسل بناءً على موضعها.

الفئة الموجبة

#fundamentals

الصف الذي تختبره.

على سبيل المثال، قد تكون الفئة الموجبة في نموذج السرطان هي "ورم". الفئة الإيجابية في مصنف البريد الإلكتروني هي "محتوى غير مرغوب فيه".

تباين مع الفئة السالبة.

مرحلة ما بعد المعالجة

#fairness
#fundamentals

ضبط مخرجات نموذج بعد تشغيل النموذج. يمكن استخدام مرحلة ما بعد المعالجة لفرض قيود الإنصاف بدون تعديل النماذج نفسها.

على سبيل المثال، يمكن تطبيق المعالجة اللاحقة على المصنِّف الثنائي من خلال ضبط حدّ تصنيف ليتم الحفاظ على مساواة الفرص في بعض السمات من خلال التحقّق من أنّ المعدّل الموجبة الصحيح هو نفسه لجميع قيم تلك السمة.

PR AUC (المنطقة تحت منحنى العلاقات العامة)

المساحة تحت منحنى تذكُّر الدقة المُدخل، والذي يتم الحصول عليه من خلال رسم نقاط (التذكر، الدقة) للقيم المختلفة لحدّ التصنيف. واعتمادًا على طريقة حسابها، قد تكون PR AUC معادلاً لمتوسط الدقة للنموذج.

براكسيس

هي مكتبة تعلُّم الآلة الأساسية العالية الأداء من Pax. غالبًا ما يُطلق على Raxis اسم "مكتبة الطبقات".

لا تحتوي دالة Prixis فقط على تعريفات لفئة الطبقة، ولكن تحتوي أيضًا على معظم مكوناتها الداعمة، بما في ذلك:

يوفر Raxis تعريفات لفئة النموذج.

الدقة

مقياس لنماذج التصنيف يجيب عن السؤال التالي:

عندما تنبأ النموذج بالفئة الإيجابية، ما هي النسبة المئوية للتوقعات التي كانت صحيحة؟

فيما يلي المعادلة:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

المكان:

  • يعني وجود موجب صحيح أن النموذج تنبأ بالفئة الموجبة بشكل صحيح.
  • تعني الحالة الموجبة الخاطئة أن النموذج تنبأ بالفئة الموجبة بخطأ.

على سبيل المثال، لنفترض أن أحد النماذج قدم 200 توقع إيجابي. من بين هذه التوقعات الإيجابية البالغ عددها 200:

  • كان 150 نتيجة موجبة صحيحة.
  • 50 كانت نتائج موجبة خاطئة.

في هذه الحالة يكون:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

تتعارض مع الدقة والاستدعاء.

منحنى تذكُّر الدقة

منحنى الدقة مقابل التذكُّر عند حدود تصنيف مختلفة

التوقّع

#fundamentals

ناتج النموذج. مثال:

  • يكون التنبؤ بنموذج التصنيف الثنائي إما الفئة الموجبة أو الفئة السالبة.
  • يكون التنبؤ بنموذج التصنيف متعدد الفئات فئة واحدة.
  • يكون التنبؤ بنموذج الانحدار الخطي رقمًا.

الانحياز في التوقّعات

قيمة تشير إلى مدى بُعد متوسط التوقّعات عن متوسط التصنيفات في مجموعة البيانات.

يجب عدم الخلط بينه وبين مصطلح التحيز في نماذج تعلُّم الآلة أو التحيز في الأخلاقيات والإنصاف.

تعلُّم الآلة التنبئي

أي نظام عادي ("كلاسيكي") لتعلُّم الآلة

إنّ مصطلح تعلُّم الآلة القائم على التوقّعات ليس له تعريف رسمي. بدلاً من ذلك، يتم تمييز فئة أنظمة تعلُّم الآلة عن فئة أنظمة تعلُّم الآلة وليس القائمة على الذكاء الاصطناعي التوليدي.

التكافؤ التنبؤي

#fairness

مقياس الإنصاف الذي يتحقّق ممّا إذا كانت معدلات الدقة، بالنسبة لمصنِّف معيّن، مكافئة للمجموعات الفرعية المعنية.

على سبيل المثال، النموذج الذي يتوقع أن يُرضي قبول الجامعة من أجل التكافؤ التنبؤي للجنسية إذا كان معدل دقته هو ذاته بالنسبة إلى لليبوتيان وبروبديناغناغيان.

ويُطلق في بعض الأحيان على التكافؤ التنبؤي أيضًا تكافؤ المعدل التنبؤي.

راجع "شرح تعريفات الإنصاف" (القسم 3.2.1) للحصول على مناقشة أكثر تفصيلاً للتكافؤ التنبؤي.

تكافؤ المعدّل التنبؤي

#fairness

اسم آخر للتكافؤ التنبؤي.

المعالجة المسبقة

#fairness
تتم معالجة البيانات قبل استخدامها في تدريب أحد النماذج. يمكن أن تكون المعالجة المسبقة بسيطة مثل إزالة كلمات من مجموعة نص إنجليزي لا تظهر في القاموس الإنجليزي أو قد تكون معقدة مثل إعادة التعبير عن نقاط البيانات بطريقة تؤدي إلى إزالة أكبر عدد ممكن من السمات المرتبطة بالسمات الحساسة. يمكن أن تساعد المعالجة المسبقة على استيفاء قيود الإنصاف.

نموذج مدرَّب مسبقًا

#language
#image
#generativeAI

النماذج أو مكوّنات النماذج (مثل متّجه التضمين) الذي سبق أن تم تدريبه في بعض الأحيان، يتم تغذية متّجهات تضمين مدربة مسبقًا في شبكة عصبية. في أحيان أخرى، سيقوم النموذج الخاص بك بتدريب متجهات التضمين نفسها بدلاً من الاعتماد على التضمينات المدرّبة مسبقًا.

يشير مصطلح نموذج لغوي مدرّب مسبقًا إلى نموذج لغوي كبير خضع لتدريب مسبق.

التدريب المُسبَق

#language
#image
#generativeAI

يشير ذلك المصطلح إلى التدريب الأولي على مجموعة بيانات كبيرة ضِمن نموذج معيّن. بعض النماذج المدرّبة مسبقًا هي نماذج عملاقة أخرق يجب تحسينها عادةً من خلال تدريب إضافي. على سبيل المثال، قد يدرّب خبراء تعلُّم الآلة مسبقًا نموذجًا لغويًا كبيرًا على مجموعة بيانات نصية كبيرة، مثل جميع الصفحات الإنجليزية في ويكيبيديا. وبعد التدريب المسبق، يمكن تحسين النموذج الناتج بشكل أكبر من خلال أي من الأساليب التالية:

الاعتقاد السابق

ما الذي تعتقد أنه حول البيانات قبل أن تبدأ في التدريب عليها. على سبيل المثال، يعتمد ضبط المستوى L2 على اعتقاد سابق بأنّ قيمة الوزن يجب أن تكون صغيرة وأن يتم توزيعها عادةً حول الصفر.

نموذج الانحدار الاحتمالي

يشير ذلك المصطلح إلى نموذج انحدار لا يستخدم فقط القيم التقديرية لكل ميزة، بل يستخدم أيضًا مدى عدم التأكّد من تلك المقاييس. ينتج عن نموذج الانحدار الاحتمالي تنبؤات وعدم اليقين بشأن هذا التنبؤ. فعلى سبيل المثال، قد ينتج عن نموذج الانحدار الاحتمالي توقع 325 بانحراف معياري يبلغ 12. لمزيد من المعلومات حول نماذج الانحدار الاحتمالي، راجع Colab على Tenorflow.org.

دالة الكثافة الاحتمالية

يشير ذلك المصطلح إلى دالة تحدِّد معدّل تكرار عيّنات البيانات التي لها قيمة معيّنة بالضبط. عندما تكون قيم مجموعة البيانات أرقامًا عائمة مستمرة، فنادرًا ما تحدث التطابقات التامة. مع ذلك، يؤدي integrating دالة كثافة الاحتمالية من القيمة x إلى القيمة y إلى التكرار المتوقّع لعيّنات البيانات بين x وy.

على سبيل المثال، ضع في الاعتبار أن متوسط التوزيع الطبيعي يبلغ 200 وانحراف معياري يبلغ 30. لتحديد التكرار المتوقع لعينات البيانات التي تقع ضمن النطاق 211.4 إلى 218.7، يمكنك دمج دالة الكثافة الاحتمالية لتوزيع طبيعي من 211.4 إلى 218.7.

طلب

#language
#generativeAI

أي نص تم إدخاله كإدخال في نموذج لغوي كبير لضبط النموذج لكي يتصرف بطريقة معيّنة. يمكن أن تكون المطالبات قصيرة مثل عبارة أو طويلة بشكل عشوائي (على سبيل المثال، النص الكامل للرواية). تنقسم المطالبات إلى فئات متعددة، بما في ذلك تلك المعروضة في الجدول التالي:

فئة الطلب مثال Notes
السؤال ما هي سرعة الحمامة التي تطير؟
مدرسة تعليم اكتب قصيدة مضحكة عن المواقع المنشأة بهدف عرض الإعلانات. رسالة تطلب من النموذج اللغوي الكبير تنفيذ إجراء.
مثال ترجمة ترميز Markdown إلى لغة HTML: على سبيل المثال:
Markdown: * عنصر قائمة
HTML: <ul> <li>عنصر القائمة</li> </ul>
الجملة الأولى في هذا المثال المطالبة هي تعليمات. بقية المطالبة هي المثال.
الدور اشرح سبب استخدام خوارزمية انحدار التدرج في تدريب تعلّم الآلة للحصول على درجة الدكتوراه في الفيزياء. والجزء الأول من الجملة هو تعليمات، والعبارة "إلى درجة الدكتوراه في الفيزياء" هي جزء الدور.
إدخال جزئي لإكمال النموذج يقيم رئيس وزراء المملكة المتحدة في يمكن أن ينتهي طلب الإدخال الجزئي إما بشكل مفاجئ (كما هو الحال في هذا المثال) أو ينتهي بشرطة سفلية.

يمكن أن يستجيب نموذج الذكاء الاصطناعي التوليدي لأي طلب من خلال تضمين نص أو رمز أو صور أو عناصر تضمين أو فيديوهات، وأي شيء آخر تقريبًا.

التعلُّم القائم على الطلبات

#language
#generativeAI

يشير ذلك المصطلح إلى إمكانية لنماذج معيّنة تتيح لهم تعديل سلوكهم استجابةً للإدخال النصي العشوائي (الطلبات). في نموذج التعلُّم المستند إلى الطلبات النموذجية، يتجاوب النموذج اللغوي الكبير مع الطلب من خلال إنشاء نص. على سبيل المثال، لنفترض أنّ أحد المستخدمين أدخل الطلب التالي:

لخّص قانون "نيوتن" الثالث للحركة.

لا يتم تدريب النموذج القادر على التعلم القائم على المطالبة بشكل خاص للإجابة على المطالبة السابقة. بدلاً من ذلك، "يعرف" النموذج الكثير من الحقائق حول الفيزياء، والكثير عن قواعد اللغة العامة، والكثير حول ما يشكل إجابات مفيدة بشكل عام. هذه المعرفة كافية لتقديم إجابة مفيدة (نأمل فيها). تمكن الملاحظات الإضافية البشرية (مثل "كانت هذه الإجابة معقدة للغاية" أو "ما هي رد الفعل؟") لبعض أنظمة التعلم المستندة إلى الطلبات إلى تحسين فائدة إجاباتهم تدريجيًا.

تصميم الطلبات

#language
#generativeAI

مرادف هندسة الطلبات.

هندسة الطلبات

#language
#generativeAI

يشير هذا المصطلح إلى أسلوب إنشاء الطلبات التي تستدعي الردود المطلوبة من خلال نموذج لغوي كبير. يقوم البشر بإجراء هندسة فورية. تعد كتابة مطالبات جيدة التنظيم جزءًا أساسيًا من ضمان ردود مفيدة من نموذج لغوي كبير. تعتمد هندسة المطالبة على العديد من العوامل، بما في ذلك:

  • مجموعة البيانات المستخدَمة للتدريب المسبق وربما تحسين النموذج اللغوي الكبير
  • تمثّل هذه السمة temp ومعلَمات أخرى لفك الترميز التي يستخدمها النموذج لإنشاء استجابات.

راجِع مقدمة عن تصميم الطلب للحصول على مزيد من التفاصيل حول كتابة طلبات مفيدة.

تصميم الطلب هو مرادف لهندسة الطلبات.

توليف الطلبات

#language
#generativeAI

يشير ذلك المصطلح إلى آلية ضبط فعّال للمعلَمات تتعرّف على "بادئة" يضيفها النظام إلى الطلب الفعلي.

من أشكال توليف الطلبات، التي يُطلق عليها أحيانًا ضبط البادئة، إضافة البادئة إلى كل طبقة. وفي المقابل، يؤدي ضبط المطالبة فقط إلى إضافة بادئة إلى طبقة الإدخال.

تصنيفات الخادم الوكيل

#fundamentals

إنّ البيانات المستخدمة لتقريب التصنيفات لا تتوفر مباشرةً في مجموعة بيانات.

على سبيل المثال، افترض أنه يجب عليك تدريب نموذج للتنبؤ بمستوى إجهاد الموظف. تحتوي مجموعة البيانات على الكثير من الميزات التنبؤية ولكنها لا تحتوي على تصنيف يسمى مستوى الإجهاد. بدون شجاعة، يمكنك اختيار "حوادث مكان العمل" كتسمية وكيل لمستوى الإجهاد. بعد كل شيء، يتعرض الموظفون الذين يتعرضون لضغط شديد إلى حوادث أكثر من الموظفين الهادئين. أم أنها؟ ربما ترتفع حوادث محل العمل وتتراجع لأسباب متعددة.

كمثال ثانٍ، لنفترض أنك تريد أن يكون هل تمطر؟ تصنيفًا منطقيًا لمجموعة البيانات، لكن مجموعة البيانات لا تحتوي على بيانات أمطار. في حال توفّر الصور، يمكنك إنشاء صور لأشخاص يحملون مظلات كتصنيف للخادم الوكيل هل تمطر؟ هل هذه تسمية وكيل جيدة؟ ربما، لكن الناس في بعض الثقافات قد يكونون أكثر عرضة لحمل المظلات للحماية من الشمس أكثر من المطر.

غالبًا ما تكون تصنيفات الوكيل غير كاملة. إذا أمكن، اختر تسميات فعلية بدلاً من تسميات الوكيل. مع ذلك، في حال غياب التصنيف الفعلي، اختَر تصنيف الخادم الوكيل بعناية شديد، مع اختيار تصنيف الخادم الوكيل الأقل فظًا.

الوكيل (سمات حساسة)

#fairness
تمثّل هذه السمة سمة يتم استخدامها كعنصر بديل لسمة حسّاسة. على سبيل المثال، قد يتم استخدام الرمز البريدي للفرد كوكيل لدخله أو عِرقه أو انتمائه الإثني.

دالة خالصة

يشير ذلك المصطلح إلى دالة تستند مخرجاتها إلى مدخلاتها فقط، وليس لها أي آثار جانبية. على وجه التحديد، لا تستخدم الدالة البحتة أي حالة عمومية أو تغيرها، مثل محتويات الملف أو قيمة متغير خارج الدالة.

يمكن استخدام الدوال الخالصة لإنشاء رمز آمن مع سلسلة محادثات، وهو إجراء مفيد عند تقسيم رمز model على مستوى عدّة model.

تتطلب طرق تحويل وظائف JAX أن تكون دوال الإدخال دوال خالصة.

سين

الدالة Q

#rl

في التعلُّم التعززي، يشير هذا المصطلح إلى الدالة التي تتوقّع العائد المتوقّع من اتّخاذ إجراء في حالة ثم تتّبع سياسة{/11 معيّنة.

تُعرف الدالة Q أيضًا باسم دالة قيمة إجراء الحالة.

التعلم الآلي

#rl

في التعلُّم التعززي، هي خوارزمية تتيح لوكيل معرفة أفضل دالة Q لـ عملية اتّخاذ قرار ماركوف من خلال تطبيق معادلة بيلمان. تمثِّل عملية اتخاذ القرار ماركوف بيئةًا.

التجزيء

تمثّل هذه السمة كل حزمة في التجميع الكمّي.

التجميع الكمّي

توزيع قيم العنصر في مجموعات بحيث تحتوي كل مجموعة على نفس عدد الأمثلة (أو نفس العدد تقريبًا). على سبيل المثال، يقسم الشكل التالي 44 نقطة إلى 4 مجموعات، تحتوي كل منها على 11 نقطة. لكي يحتوي كل مجموعة في الشكل على نفس عدد النقاط، تمتد بعض المجموعات بعرض مختلف لقيم س.

44 نقطة بيانات مقسمة إلى 4 مجموعات من 11 نقطة لكل منها.
          تحتوي كل مجموعة على عدد نقاط البيانات نفسه،
          إلا أنّ بعض مجموعات البيانات تحتوي على نطاق أوسع من قيم الميزات مقارنةً
          بمجموعات بيانات أخرى.

تحديد الكمية

عبارة ذات تحميل زائد يمكن استخدامها بأي من الطرق التالية:

  • تنفيذ التجميع الكمية على ميزة معيّنة
  • تحويل البيانات إلى أصفار وآحاد لتخزينها وتدريبها واستنتاجها بشكل أسرع. نظرًا لأن البيانات المنطقية أكثر قوة في التشويش والأخطاء من التنسيقات الأخرى، يمكن أن يعمل التحديد الكمي على تحسين صحة النموذج. تشمل أساليب تحديد الكمية التقريب، والاقتطاع، والربط.
  • تقليل عدد وحدات البت المستخدَمة لتخزين مَعلمات النموذج لنفترض على سبيل المثال أنه يتم تخزين معلمات النموذج كأرقام نقاط عائمة 32 بت. يحول تحديد الكمية تلك المعلمات من 32 بت إلى 4 أو 8 أو 16 بت. يقلل تحديد الكمية ما يلي:

    • الحوسبة والذاكرة والقرص واستخدام الشبكة
    • حان الوقت لاستنتاج توقّع
    • استهلاك الطاقة

    ومع ذلك، يقلل تحديد الكمية في بعض الأحيان من صحة تنبؤات النموذج.

قائمة المحتوى التالي

#TensorFlow

عملية TensorFlow تنفّذ بنية بيانات قائمة الانتظار يُستخدم عادةً في وحدات الإدخال والإخراج.

R

دالة RAG

#fundamentals

اختصار لعبارة إنشاء البيانات المعززة باسترداد البيانات.

غابة عشوائية

#df

مجموعة من أشجار القرارات التي يتم فيها تدريب كل شجرة قرارات بضجيج عشوائي محدّد، مثل تعبئة البيانات.

الغابات العشوائية هي نوع من غابة القرارات.

سياسة عشوائية

#rl

في التعلُّم المعزَّز، هي سياسة تختار إجراءً بشكلٍ عشوائي.

لائحة الرتب

يشير ذلك المصطلح إلى نوع من التعلّم الخاضع للإشراف الذي يهدف إلى ترتيب قائمة بالعناصر.

الترتيب (الترتيب)

تمثّل هذه السمة الموضع الترتيبي لفئةٍ ما في مشكلة التعلّم الآلي يصنّف الفئات من الأعلى إلى الأدنى. على سبيل المثال، يمكن لنظام تصنيف السلوك ترتيب مكافآت الكلب من الأعلى (شريحة لحم) إلى الأدنى (كرنب ذابل).

التصنيف (المستشعر)

#TensorFlow

عدد السمات في أداة استشعار على سبيل المثال، رتبة مقياس رقمي 0، ورتبة المتجه 1، والمصفوفة رتبت 2.

يجب عدم الخلط بينها وبين الترتيب (الترتيب العادي).

مصنِّف

#fundamentals

مستخدم يقدّم تصنيفات لتقديم أمثلة "Annotator" هي اسم آخر للمصنِّف.

تذكُّر الإعلان

مقياس لنماذج التصنيف يجيب عن السؤال التالي:

عندما كانت الحقيقة الأساسية هي الفئة الإيجابية، ما هي نسبة التوقّعات التي حدّدها النموذج بشكل صحيح كفئة إيجابية؟

فيما يلي المعادلة:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

المكان:

  • يعني وجود موجب صحيح أن النموذج تنبأ بالفئة الموجبة بشكل صحيح.
  • تعني القيمة السالبة الخاطئة أن النموذج تنبأ بخطأ بالتصنيف للفئة السلبية.

على سبيل المثال، لنفترض أن النموذج الخاص بك قدم 200 تنبؤ على أمثلة كانت الحقيقة الأساسية هي الفئة الموجبة. من بين 200 تنبؤ:

  • 180 كانت نتائج موجبة صحيحة.
  • و20 كانت نتائج سالبة خاطئة.

في هذه الحالة يكون:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

نظام التوصية

#recsystems

نظام يختار لكل مستخدم مجموعة صغيرة نسبيًا من العناصر المطلوبة من مجموعة كبيرة. على سبيل المثال، قد يقترح نظام اقتراحات الفيديوهات فيديوهَين من مجموعة تضم 100,000 فيديو، مع اختيار الدار البيضاء وقصة فيلادلفيا لمستخدم واحد، والمرأة الخارقة والنمر الأسود لفيديو آخر. قد يبني نظام اقتراحات الفيديوهات اقتراحاته على عوامل مثل:

  • الأفلام التي قيّمها أو شاهدها مستخدمون مشابهون.
  • النوع والمخرجون والممثلين والخصائص الديمغرافية المستهدفة...

وحدة خطية مصحّحة (ReLU)

#fundamentals

دالة تفعيل لها السلوك التالي:

  • إذا كان الإدخال سالبًا أو صفرًا، يكون الناتج 0.
  • إذا كان المُدخل موجبة، يكون المُخرج مساويًا للمُدخل.

مثال:

  • إذا كان المُدخل -3، يكون المُخرج 0.
  • إذا كان المُدخل +3، يكون المُخرج 3.0.

في ما يلي مخطط ReLU:

مخطط الديكارتي من سطرين. للسطر الأول قيمة ص ثابتة تساوي 0، ويمتد على المحور x من -لانهاية,0 إلى 0,-0.
          ويبدأ السطر الثاني من 0,0. هذا الخط له انحدار +1، ولذلك
          يتراوح من 0,0 إلى +لانهاية،+لانهاية.

تُعد ReLU دالة تنشيط شائعة للغاية. وعلى الرغم من سلوك ReLU البسيط، لا يزال بإمكان الشبكة العصبية التعرّف على العلاقات غير الخطية بين الميزات والتصنيف.

شبكة عصبية متكررة

#seq

يشير ذلك المصطلح إلى شبكة عصبية يتم تشغيلها عدة مرات عن قصد، يتم فيها تشغيل أجزاء من كل منها خلال المرة التالية. على وجه التحديد، توفر الطبقات المخفية من التشغيل السابق جزءًا من الإدخال إلى نفس الطبقة المخفية في التشغيل التالي. تعتبر الشبكات العصبية المتكررة مفيدة بشكل خاص لتقييم المتتاليات، بحيث يمكن للطبقات المخفية أن تتعلم من عمليات التشغيل السابقة للشبكة العصبية في الأجزاء السابقة من التسلسل.

على سبيل المثال، يوضح الشكل التالي شبكة عصبية متكررة تعمل أربع مرات. لاحظ أن القيم التي تم تعلمها في الطبقات المخفية من التشغيل الأول تصبح جزءًا من الإدخال إلى نفس الطبقات المخفية في التشغيل الثاني. وبالمثل، تصبح القيم التي يتم تعلمها في الطبقة المخفية عند التشغيل الثاني جزءًا من مدخل نفس الطبقة المخفية في التشغيل الثالث. بهذه الطريقة، تتدرب الشبكة العصبية المتكررة وتتنبأ تدريجيًا بمعنى التسلسل بالكامل بدلاً من مجرد معنى الكلمات الفردية.

اسم RNN يعمل أربع مرات لمعالجة أربع كلمات إدخال.

نموذج الانحدار

#fundamentals

بشكل غير رسمي، نموذج يقوم بإنشاء تنبؤ عددي. (على النقيض، يُنشئ نموذج التصنيف تنبؤًا بالفئة العمرية). على سبيل المثال، في ما يلي جميع نماذج الانحدار:

  • نموذج يتنبأ بقيمة منزل معين، مثل 423000 يورو.
  • نموذج يتنبأ بمتوسط العمر المتوقع لشجرة معينة، مثل 23.2 سنة.
  • نموذج يتنبأ بكمية الأمطار التي ستتساقط في مدينة معينة خلال الساعات الست القادمة، مثل 0.18 بوصة.

هناك نوعان شائعان من نماذج الانحدار:

ليس كل نموذج ينتج تنبؤات رقمية هو نموذج انحدار. في بعض الحالات، يكون التنبؤ الرقمي مجرد نموذج تصنيف يحدث لوجود أسماء فئات رقمية. على سبيل المثال، النموذج الذي يتنبأ برمز بريدي رقمي هو نموذج تصنيف وليس نموذج انحدار.

تسوية

#fundamentals

أي آلية تقلِّل من فرط التخصيص تشمل الأنواع الشائعة للتسوية ما يلي:

كما يمكن تعريف التسوية على أنها عقوبة على مدى تعقيد النموذج.

معدل التسوية

#fundamentals

رقم يحدد الأهمية النسبية للانتظام أثناء التدريب. ويؤدي رفع معدّل التنظيم إلى تقليل فرط التخصيص، ولكنه قد يقلل من القدرة التنبؤية للنموذج. وعلى العكس من ذلك، فإن تقليل معدل التسوية أو حذفه يزيد من فرط التخصيص.

التعلّم المعزّز (RL)

#rl

مجموعة من الخوارزميات التي تتعلّم سياسة مثالية، وتهدف إلى زيادة العائد إلى أقصى حدّ عند التفاعل مع بيئة. على سبيل المثال، إنّ المكافأة النهائية في معظم الألعاب هي الفوز. يمكن لأنظمة التعلّم المعزّز أن تصبح خبيرة في لعب الألعاب المعقّدة من خلال تقييم تتابعات الحركات السابقة التي أدّت في النهاية إلى المكاسب والتسلسلات التي أدّت في النهاية إلى الخسائر.

التعلّم المعزّز من الملاحظات البشرية (RLHF)

#generativeAI
#rl

استخدام الملاحظات الواردة من المصنِّفين لتحسين جودة ردود النموذج. على سبيل المثال، يمكن لآلية RLHF أن تطلب من المستخدمين تقييم جودة استجابة نموذج من خلال إضافة رمز تعبيري 👍 أو 👎. يمكن للنظام بعد ذلك تعديل ردوده المستقبلية بناءً على تلك الملاحظات.

ReLU

#fundamentals

اختصار الوحدة الخطية التي تم محوها

المورد الاحتياطي لإعادة التشغيل

#rl

في الخوارزميات المشابهة لـ DQN، الذاكرة التي يستخدمها الوكيل لتخزين عمليات انتقال الحالة لاستخدامها في إعادة تشغيل التجربة.

نسخة مطابقة

نسخة من مجموعة التدريب أو النموذج، عادةً على جهاز آخر. على سبيل المثال، يمكن أن يستخدم أحد الأنظمة الاستراتيجية التالية لتنفيذ الموازية للبيانات:

  1. وضع النسخ المكررة لنموذج موجود على أجهزة متعددة.
  2. أرسِل مجموعات فرعية مختلفة من مجموعة التدريب إلى كل نسخة طبق الأصل.
  3. جمِّع تعديلات المَعلمات.

الانحياز في إعداد التقارير

#fairness

حقيقة أن التكرار الذي يكتب به الأشخاص عن الإجراءات أو النتائج أو الخصائص لا يعكس تردداتهم في العالم الحقيقي أو درجة سمة إحدى الخصائص لفئة من الأفراد. يمكن أن يؤثر التحيز في إعداد التقارير في تكوين البيانات التي تتعلم منها أنظمة التعلم الآلي.

على سبيل المثال، في الكتب، تكون كلمة ضحك أكثر شيوعًا من تنفس. من المحتمل أن يحدد نموذج التعلم الآلي الذي يقدر المعدل النسبي للضحك والتنفس من مجموعة الكتب أن الضحك أكثر شيوعًا من التنفس.

التمثيل

عملية ربط البيانات بميزات مفيدة.

إعادة الترتيب

#recsystems

المرحلة الأخيرة من نظام الاقتراحات، وهي المرحلة التي يمكن خلالها إعادة تقييم العناصر المقيّمة وفقًا لبعض الخوارزميات الأخرى (التي لا تكون عادةً غير مستندة إلى تعلُّم الآلة). تعمل إعادة الترتيب على تقييم قائمة العناصر التي تم إنشاؤها في مرحلة تسجيل النتائج، واتخاذ إجراءات مثل:

  • استبعاد السلع التي اشتراها المستخدم من قبل
  • جارٍ رفع نتيجة العناصر الأحدث.

تكنولوجيا الجيل المعزز باسترداد البيانات (RAG)

#fundamentals

يشير ذلك المصطلح إلى أسلوب لتحسين جودة نتائج النموذج اللغوي الكبير (LLM) من خلال الاستعانة بمصادر المعرفة المستفادة بعد تدريب النموذج. وتساهم تقنية RAG في تحسين دقة الردود اللغوية الكبيرة من خلال توفير إمكانية الوصول إلى المعلومات المستخرَجة من قواعد معرفية أو مستندات موثوق بها للنموذج اللغوي الكبير.

تشمل الدوافع الشائعة لاستخدام الإنشاء المعزز باسترداد البيانات ما يلي:

  • زيادة الدقة الواقعية للردود التي ينشئها النموذج
  • منح النموذج إمكانية الوصول إلى المعرفة التي لم يتم تدريبها.
  • تغيير المعرفة التي يستخدمها النموذج.
  • تمكين النموذج من الاستشهاد بالمصادر.

على سبيل المثال، لنفترض أنّ أحد تطبيقات الكيمياء يستخدم PaLM API لإنشاء ملخّصات ذات صلة بطلبات بحث المستخدمين. عندما تتلقى الواجهة الخلفية للتطبيق طلب بحث، تكون الخلفية:

  1. للبحث عن ("استرداد") البيانات ذات الصلة بطلب بحث المستخدم.
  2. ترفق ("الزيادة") البيانات الكيميائية ذات الصلة بطلب بحث المستخدم.
  3. توجه النموذج اللغوي الكبير لإنشاء ملخص استنادًا إلى البيانات الملحقة.

return

#rl

في إطار التعلّم المعزّز، وفقًا لسياسة محدّدة وحالة معيّنة، يكون العائد هو مجموع كل المكافآت التي يتوقّع الوكيل أن يحصل عليها عند اتّباع السياسة من الولاية حتى نهاية الحلقة. ويراعي الوكيل الطبيعة المتأخرة للمكافآت المتوقّعة من خلال خصم المكافآت وفقًا لعمليات الانتقال المطلوبة للحصول على المكافأة في الولاية.

وبالتالي، إذا كان عامل الخصم هو \(\gamma\)، ويرمز \(r_0, \ldots, r_{N}\) إلى المكافآت حتى نهاية الحلقة، يتم احتساب العائد على النحو التالي:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

مكافأة

#rl

في التعلّم المعزّز، هي النتيجة الرقمية لاتخاذ إجراء في حالة على النحو المحدّد في البيئة.

تسوية تلال

مرادف لتسوية L2. يتم استخدام مصطلح انتظام السلسلة بشكل متكرر في سياقات الإحصاءات البحتة، في حين يتم استخدام L2 بانتظام بشكل أكبر في تعلُّم الآلة.

رقم RNN

#seq

اختصار الشبكات العصبونية المتكررة.

منحنى ROC (خاصية تشغيل المستقبِل)

#fundamentals

رسم بياني للمعدّل الموجبة الصحيح مقابل معدّل الحالات الموجبة الخاطئة لحدود التصنيف المختلفة في التصنيف الثنائي.

يشير شكل منحنى خاصية تشغيل جهاز الاستقبال إلى قدرة نموذج التصنيف الثنائي على فصل الفئات الموجبة عن الفئات السالبة. لنفترض على سبيل المثال أن نموذج التصنيف الثنائي يفصل تمامًا جميع الفئات السالبة عن جميع الفئات الإيجابية:

سطر أرقام يضم 8 أمثلة موجبة على الجانب الأيمن و7 أمثلة سالبة على اليسار.

يظهر منحنى خاصية تشغيل جهاز الاستقبال للنموذج السابق على النحو التالي:

منحنى خاصية تشغيل جهاز الاستقبال. المحور س هو المعدل الإيجابي الخاطئ والمحور
          الصادي هو معدل موجب صائب. يحتوي المنحنى على شكل L مقلوب. يبدأ المنحنى عند (0.0,0.0) ثم ينتقل مباشرة إلى (0.0,1.0). ثم ينتقل المنحنى من (0.0,1.0) إلى (1.0,1.0).

في المقابل، يرسم الرسم التوضيحي التالي قيم الانحدار اللوجستي الأولية لأي نموذج سيئ لا يمكنه الفصل بين الفئات السالبة والفئات الإيجابية على الإطلاق:

سطر أرقام يتضمن أمثلة إيجابية وفئات سلبية
          مختلط تمامًا.

يبدو منحنى خاصية تشغيل جهاز الاستقبال لهذا النموذج على النحو التالي:

منحنى خاصية تشغيل جهاز الاستقبال، وهو في الواقع خط مستقيم من (0.0,0.0)
          إلى (1.0,1.0).

في الوقت نفسه، في العالم الحقيقي، تعمل معظم نماذج التصنيف الثنائي على الفصل بين الفئات الإيجابية والسلبية إلى حدٍ ما، ولكن ليس بشكل مثالي عادةً. لذلك، يقع منحنى ROC النموذجي في مكان ما بين الطرفين:

منحنى خاصية تشغيل جهاز الاستقبال. المحور س هو المعدل الإيجابي الخاطئ والمحور
          الصادي هو معدل موجب صائب. يقترب منحنى خاصية تشغيل جهاز الاستقبال من قوس مهتز يتقاطع مع نقاط البوصلة من الغرب إلى الشمال.

تحدد النقطة على منحنى خاصية تشغيل جهاز الاستقبال الأقرب إلى (0.0,1.0) نظريًا عتبة التصنيف المثالية. ومع ذلك، تؤثر العديد من مشكلات العالم الواقعي على اختيار حد التصنيف المثالي. على سبيل المثال، ربما تسبب النتائج السالبة الخاطئة ألمًا أكبر بكثير من النتائج الموجبة الخاطئة.

يلخص مقياس عددي يسمى AUC منحنى خاصية تشغيل جهاز الاستقبال في قيمة نقطة عائمة واحدة.

المطالبة بالدور

#language
#generativeAI

هي جزء اختياري من طلب يحدّد الجمهور المستهدف من ردّ الذكاء الاصطناعي التوليدي. بدون طلب دور، يقدّم النموذج اللغوي الكبير إجابة قد تكون أو لا تكون مفيدة للشخص الذي يطرح الأسئلة. من خلال طلب دور معيّن، يمكن لنموذج لغوي كبير أن يجيب بطريقة أكثر ملاءمة وفائدة لجمهور مستهدف محدّد. على سبيل المثال، يظهر الجزء مطالبة الدور في الطلبات التالية بخط غامق:

  • لخص هذه المقالة للحصول على درجة الدكتوراه في الاقتصاد.
  • صِف كيفية عمل المد والجزر لطفل في سن العاشرة.
  • شرح الأزمة المالية 2008. تحدث من باب التحدث مع طفل صغير أو كلب غولدن ريتريفر.

الجذر

#df

عقدة البداية (أول شرط) في شجرة القرارات. حسب الاصطلاح، تضع المخططات البيانية الجذر في الجزء العلوي من شجرة القرار. مثال:

شجرة قرار مكونة من شرطين وثلاث أوراق. شرط البدء (x > 2) هو الجذر.

الدليل الجذري

#TensorFlow

الدليل الذي تحدّده لاستضافة الأدلة الفرعية لنقطة تحقق TensorFlow وملفات الأحداث لنماذج متعددة.

جذر الخطأ التربيعي المتوسّط (RMSE)

#fundamentals

الجذر التربيعي للخطأ التربيعي المتوسّط.

الثبات الدوراني

#image

في إحدى مشكلات تصنيف الصور، يشير ذلك المصطلح إلى قدرة الخوارزمية على تصنيف الصور بنجاح حتى عندما يتغيّر اتجاهها. على سبيل المثال، لا يزال بإمكان الخوارزمية تحديد مضرب التنس سواء كان متجهًا لأعلى أو جانبًا أو لأسفل. لاحظ أن الثبات الدوراني لا يكون مرغوبًا فيه دائمًا؛ على سبيل المثال، لا يجب تصنيف رقم 9 المقلوب على أنه 9.

يمكنك أيضًا الاطّلاع على الثبات الترجمة والثغرة الترجمة.

معامل التحديد

مقياس انحدار يشير إلى مقدار التباين في التصنيف الناتج عن ميزة فردية أو إلى مجموعة ميزات. معامل التحديد هو قيمة بين 0 و1، ويمكن تفسيرها على النحو التالي:

  • يعني مربع R من 0 أنه لا يوجد أي من تنوع التسمية بسبب مجموعة الميزات.
  • يعني مربع R من 1 أن كل تنوع التسمية يرجع إلى مجموعة الخصائص.
  • يشير معامل التحديد بين 0 و1 إلى مدى إمكانية التنبؤ بتنوع التسمية من ميزة معينة أو مجموعة خصائص. على سبيل المثال، يعني معامل التحديد لـ 0.10 أن 10 في المائة من التباين في التسمية يرجع إلى مجموعة الخصائص، في حين أن مربع R من 0.20 يعني أن 20 في المائة يرجع إلى مجموعة الخصائص، وهكذا.

معامل التحديد هو مربّع معامل ارتباط بيرسون بين القيم التي توقّعها النموذج والحقيقة الأرضية.

S

تحيز أخذ العينات

#fairness

يُرجى الاطّلاع على الانحياز في الاختيار.

أخذ العينات مع الاستبدال

#df

يشير ذلك المصطلح إلى طريقة لاختيار العناصر من مجموعة من العناصر المرشحة والتي يمكن فيها اختيار العنصر نفسه عدة مرات. تعني عبارة "مع الاستبدال" أنه بعد كل تحديد، يتم إرجاع العنصر المحدد إلى مجموعة العناصر المرشحة. تعني الطريقة العكسية، أخذ العيّنات بدون استبدال، أنّه لا يمكن اختيار العنصر المرشح سوى مرة واحدة.

فعلى سبيل المثال، ضع في الاعتبار مجموعة الفاكهة التالية:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

لنفرض أنّ النظام يختار fig عشوائيًا كأول عنصر. في حال استخدام أخذ العينات مع الاستبدال، يختار النظام العنصر الثاني من المجموعة التالية:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

نعم، هذه هي المجموعة نفسها كما في السابق، لذا بإمكان النظام اختيار fig مرة أخرى.

في حال استخدام أخذ العينات بدون استبدال، لا يمكن اختيار العيّنة مجددًا بعد اختيارها. على سبيل المثال، إذا اختار النظام fig بشكل عشوائي كعيّنة الأولى، لن تتمكّن من اختيار fig مرة أخرى. لذلك، يختار النظام العينة الثانية من المجموعة (المصغرة) التالية:

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

التنسيق المقترَح لحفظ نماذج TensorFlow واستردادها SaveModel هو تنسيق تسلسلي محايد في اللغة ويمكن استرداده، ويتيح للأنظمة والأدوات ذات المستوى الأعلى إنتاج نماذج TensorFlow واستخدامها وتحويلها.

يمكنك الاطّلاع على فصل الحفظ والاستعادة في دليل مبرمج TensorFlow للحصول على التفاصيل الكاملة.

موفّر

#TensorFlow

كائن TensorFlow المسئول عن حفظ نقاط فحص النموذج.

الكمية القياسية

رقم فردي أو سلسلة واحدة يمكن تمثيله كـمضرب للقيم الترتيب 0. على سبيل المثال، تُنشئ كل من سطور الرمز التالية مقياسًا واحدًا في TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

تحجيم

أي تحويل رياضي أو أسلوب يغير نطاق التسمية و/أو قيمة الميزة. تكون بعض أشكال التوسعة مفيدة جدًا في عمليات التحويل مثل تسوية المشكلة.

وتشمل الأشكال الشائعة لتوسيع نطاق الاستخدام في التعلّم الآلي ما يلي:

  • القياس الخطي، الذي يستخدم عادةً مزيجًا من الطرح والقسمة لاستبدال القيمة الأصلية برقم بين -1 و+1 أو بين 0 و1.
  • التحجيم اللوغاريتمي، الذي يستبدل القيمة الأصلية باللوغاريتم الخاص به.
  • تسوية الدرجة المعيارية (Z)، التي تستبدل القيمة الأصلية بقيمة نقطة عائمة تمثِّل عدد الانحرافات المعيارية عن متوسّط هذه الميزة

مكتبة ساي كيت ليرن

هي منصة رائجة ومفتوحة المصدر لتعلُّم الآلة. اطّلع على ساي كيت ليرن.org.

إحراز نقاط

#recsystems

جزء من نظام اقتراحات يوفّر قيمة أو ترتيبًا لكل عنصر أنتجته مرحلة إنشاء المرشحين

الانحياز في الاختيار

#fairness

يشير ذلك المصطلح إلى الأخطاء في الاستنتاجات المستخلصة من عيّنات من البيانات بسبب عملية اختيار تؤدي إلى إنشاء اختلافات منهجية بين العينات المرصودة في البيانات وتلك التي لم تتم ملاحظتها. توجد الأشكال التالية من تحيز الاختيار:

  • الانحياز في التغطية: لا تتطابق مجموعة السكان الممثَّلة في مجموعة البيانات مع المجتمع الإحصائي الذي يقدّم نموذج تعلُّم الآلة توقّعات بشأنه.
  • الانحياز في أخذ العينات: لا يتم جمع البيانات بشكل عشوائي من المجموعة المستهدفة.
  • الانحياز لعدم الاستجابة (يسمى أيضًا انحياز المشاركة): المستخدمون من مجموعات معيّنة يوقفون الاستطلاعات بمعدلات مختلفة عن المستخدمين من مجموعات أخرى.

على سبيل المثال، لنفترض أنك تقوم بإنشاء نموذج تعلم آلي يتنبأ باستمتاع الأشخاص بفيلم. لجمع بيانات التدريب، يمكنك توزيع استبيان على كل شخص في الصف الأمامي من المسرح الذي يعرض الفيلم. بشكل عرَضي، قد يبدو هذا طريقة معقولة لجمع مجموعة بيانات؛ ومع ذلك، قد يقدم هذا النوع من جمع البيانات الأشكال التالية من تحيز الاختيار:

  • الانحياز في التغطية: من خلال أخذ عيّنات من السكان الذين اختاروا مشاهدة الفيلم، قد لا يتم تعميم توقّعات نموذجك على الأشخاص الذين لم يعبّروا من قبل عن هذا المستوى من الاهتمام بالفيلم.
  • التحيز في أخذ العينات: بدلاً من أخذ عينات عشوائية من المجتمع المقصود (جميع الأشخاص في الفيلم)، قمت بأخذ عينة فقط من الأشخاص في الصف الأمامي. من الممكن أن يكون الأشخاص الذين يجلسون في الصف الأمامي أكثر اهتمامًا بالفيلم من أولئك الموجودين في صفوف أخرى.
  • التحيز لعدم الاستجابة: بشكل عام، يميل الأشخاص ذوو الآراء القوية إلى الرد على الاستبيانات الاختيارية بشكل متكرر أكثر من الأشخاص الذين لديهم آراء معتدلة. بما أنّ الاستطلاع حول الفيلم اختياري، من المرجّح أن تشكل الردود توزيعًا ثنائي الاتجاه مقارنةً بالتوزيع العادي (على شكل جرس).

الانتباه الذاتي (يسمى أيضًا طبقة الانتباه الذاتي)

#language

يشير ذلك المصطلح إلى طبقة شبكة عصبية تحوِّل سلسلة من عمليات التضمين (على سبيل المثال، عمليات تضمين الرمز المميّز) في سلسلة أخرى من عمليات التضمين. يتم إنشاء كل عملية تضمين في تسلسل الإخراج عن طريق دمج المعلومات من عناصر تسلسل الإدخال من خلال آلية الانتباه.

يشير جزء الذات من الانتباه الذاتي إلى التسلسل الذي يحض على نفسه بدلاً من بعض السياق الآخر. يُعدّ الانتباه الذاتي إحدى اللبنات الأساسية لأداة المحولات ويستخدم مصطلحات بحث المعجم، مثل "استعلام" و"مفتاح" و "قيمة".

تبدأ طبقة الانتباه الذاتي بسلسلة من تمثيلات الإدخال، واحدة لكل كلمة. يمكن أن يكون تمثيل الإدخال لكلمة ما تضمينًا بسيطًا. لكل كلمة في تسلسل الإدخال، تُقيّم الشبكة مدى صلة الكلمة بكل عنصر في التسلسل الكامل للكلمات. تحدد درجات مدى الصلة كيف يدمج التمثيل النهائي للكلمة تمثيلات الكلمات الأخرى.

على سبيل المثال، ضع في الاعتبار الجملة التالية:

لم يعبر الحيوان الشارع لأنّه كان مرهقًا جدًا.

من خلال الرسم التوضيحي التالي (من مقالة Transformer: A New new Network الهندسة لفهم اللغة)، يتم عرض نمط انتباه طبقة الانتباه الذاتي للضمير هو، حيث يشير الظلام في كل سطر إلى مدى مساهمة كل كلمة في تمثيل اللغة:

تظهر الجملة التالية مرتين: لم يعبر الحيوان
 الشارع لأنّه كان مُتعبًا جدًا. تربط الخطوط اسم الضمير في جملة واحدة بخمسة رموز مميّزة (مثلاً، الحيوان والشارع والنقطة) في الجملة الأخرى.  الخط بين الضمير وكلمة &quot;حيوان&quot; هو الأقوى.

تسلّط طبقة الانتباه الذاتي الضوء على الكلمات ذات الصلة بطبيعتها. في هذه الحالة، تعلمت طبقة الانتباه تمييز الكلمات التي قد تشير إليها، ما يؤدي إلى منح القيمة الأكبر للحيوان.

بالنسبة إلى تسلسل n من الرموز المميّزة، يحوِّل الانتباه الذاتي تسلسلاً من عمليات التضمين n مرات منفصلة، مرة في كل موضع في التسلسل.

راجِع أيضًا الانتباه والانتباه الذاتي لعدة أشخاص.

التعلُّم الذاتي

يشير ذلك المصطلح إلى مجموعة من أساليب تحويل مشكلة من التعلُّم الآلي غير الخاضع للإشراف إلى مشكلة في تعلُّم الآلة المراقَب من خلال إنشاء تصنيفات بديلة من أمثلة غير مصنَّفة.

تستخدم بعض النماذج المستندة إلى المحوِّل، مثل BERT التعلّم الخاضع للإشراف.

إنّ التدريب الخاضع للإشراف الذاتي هو أحد مناهج التعلّم شبه الخاضع للإشراف.

التدريب الذاتي

أحد خيارات التعلّم الذاتي الذي يكون مفيدًا بشكل خاص عند استيفاء جميع الشروط التالية:

يعمل التدريب الذاتي من خلال التكرار على الخطوتين التاليتين حتى يتوقف النموذج عن التحسن:

  1. استخدِم تعلُّم الآلة المراقَب لتدريب نموذج على الأمثلة المصنّفة.
  2. استخدِم النموذج الذي تم إنشاؤه في الخطوة 1 لإنشاء عبارات بحث مقترَحة (تصنيفات) على الأمثلة غير المصنَّفة، ونقل النماذج التي فيها ثقة كبيرة في الأمثلة المصنّفة التي تتضمّن التصنيف المتوقّع.

لاحظ أن كل تكرار للخطوة 2 يضيف المزيد من الأمثلة المصنفة للخطوة 1 للتدريب عليها.

تعلّم شبه خاضع للإشراف

تدريب نموذج على البيانات حيث تحتوي بعض أمثلة التدريب على تسميات، بينما لا يحتوي البعض الآخر على ذلك. تتمثل إحدى أساليب التعلم شبه المُوجه في استنتاج تسميات للأمثلة غير المُصنفة، ثم التدريب على التسميات المستنتَجة لإنشاء نموذج جديد. يمكن أن يكون التعلم شبه الخاضع للإشراف مفيدًا إذا كان الحصول على التسميات باهظ الثمن ولكن الأمثلة غير المصنفة وفيرة.

التدريب الذاتي هو أحد أساليب التعلّم شبه المُوجّه.

سمة حساسة

#fairness
سمة بشرية قد تُعطى مراعاة خاصة لأسباب قانونية أو أخلاقية أو اجتماعية أو شخصية.

تحليل المشاعر

#language

استخدام الخوارزميات الإحصائية أو التعلم الآلي لتحديد الموقف العام للمجموعة - الإيجابي أو السلبي - تجاه خدمة أو منتج أو مؤسسة أو موضوع. على سبيل المثال، باستخدام فهم اللغة الطبيعية، يمكن لخوارزمية إجراء تحليل الآراء حول الملاحظات النصية من دورة تدريبية جامعية لتحديد الدرجة التي أبدى فيها الطلاب إعجابهم أو عدم إعجابهم بالدورة التدريبية بشكل عام.

نموذج تسلسلي

#seq

يشير ذلك المصطلح إلى النموذج الذي تعتمد مدخلاته على اعتماد تسلسلي. على سبيل المثال، توقع الفيديو التالي الذي شاهدته من سلسلة مقاطع فيديو تمت مشاهدتها سابقًا.

مهمة من التسلسل إلى تسلسل

#language

مهمة تحوِّل تسلسل إدخال للرموز المميّزة إلى تسلسل ناتج للرموز المميّزة. على سبيل المثال، هناك نوعان شائعان من المهام من التسلسل إلى التسلسل هما:

  • المترجمون:
    • نموذج لتسلسل الإدخال: "أحبك".
    • نموذج تسلسل الإخراج: "Je t'aime"
  • الإجابة عن السؤال:
    • نموذج تسلسل الإدخال: "هل أحتاج إلى سيارة في دبي؟"
    • نموذج تسلسل الإخراج: "لا. يُرجى إبقاء سيارتك في المنزل".

حصة طعام

يشير ذلك المصطلح إلى عملية توفير نموذج مدرَّب لتقديم التوقّعات من خلال الاستنتاج على الإنترنت أو الاستنتاج بلا اتصال بالإنترنت.

الشكل (مستشعر)

عدد العناصر في كل بُعد للمتوتر. يتم تمثيل الشكل كقائمة من الأعداد الصحيحة. على سبيل المثال، يتخذ الموتر الثنائي الأبعاد التالي شكل [3،4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

يستخدم TensorFlow تنسيق الصف الرئيسي (النمط C) لتمثيل ترتيب الأبعاد، وهذا هو السبب في أن الشكل في TensorFlow هو [3,4] بدلاً من [4,3]. بمعنى آخر، في TensorFlow Tensor ثنائي الأبعاد، يكون الشكل [عدد الصفوف، وعدد الأعمدة].

جزء

#TensorFlow
#GoogleCloud

قسم منطقي لمجموعة التدريب أو النموذج. عادةً ما تنشئ بعض العمليات أجزاءً من خلال قسمة الأمثلة أو المعلَمات إلى أجزاء متساوية الحجم (عادةً). ثم يتم تعيين كل جزء لجهاز مختلف.

ويُطلق على النموذج إلى أجزاء اسم التوازي للنموذج، ويُعرف تقسيم البيانات إلى أجزاء بتوازي البيانات.

الانكماش

#df

مَعلمة فائقة في تعزيز التدرّج تتحكّم في فرط التخصيص. يشابه الانكماش في تعزيز التدرج مع معدّل التعلّم في خوارزمية انحدار التدرج. الانكماش قيمة عشرية بين 0.0 و1.0. تقلل قيمة الانكماش الأقل من فرط التخصيص وتقل قيمة الانكماش الأكبر.

الدالّة الإسية

#fundamentals

دالة رياضية "تقوم بضغط" قيمة الإدخال في نطاق مقيّد، عادةً 0 إلى 1 أو -1 إلى +1. وهذا يعني أنه يمكنك تمرير أي رقم (اثنان، مليون، مليار سالب، أيًا كان) إلى الدالة السينية، وسيظل الناتج في النطاق المقيد. يظهر مخطط دالة التفعيل السيني على النحو التالي:

رسم بياني منحنٍ ثنائي الأبعاد يحتوي على قيم x تمتد من النطاق - من لانهائي إلى + إيجابي، بينما تمتد قيم y إلى النطاق من 0 إلى 1 تقريبًا. عندما تكون x تساوي 0، تكون y تساوي 0.5. يكون انحدار المنحنى
 موجبًا دائمًا، مع ازدياد أعلى انحدار عند 0,0.5 وانخفاضًا تدريجيًّا مع زيادة القيمة المطلقة لـ x.

هناك عدة استخدامات للدالة السينية في التعلم الآلي، بما في ذلك:

مقياس التشابه

#clustering

في خوارزميات التجميع، يتم استخدام المقياس المستخدَم لتحديد مدى تشابه (مدى تشابه) أي مثالَين.

برنامج واحد / بيانات متعددة (SPMD)

يشير ذلك المصطلح إلى أسلوب التوازي الذي يتم فيه إجراء العملية الحسابية نفسها على بيانات إدخال مختلفة بالتوازي على أجهزة مختلفة. الهدف من SPMD هو الحصول على النتائج بسرعة أكبر. إنه النمط الأكثر شيوعًا للبرمجة المتوازية.

الثبات الحجمي

#image

في إحدى مشكلات تصنيف الصور، يشير ذلك المصطلح إلى قدرة الخوارزمية على تصنيف الصور بنجاح حتى عندما يتغيّر حجم الصورة. على سبيل المثال، لا يزال بإمكان الخوارزمية تحديد قطة سواء كانت تستهلك 2 ميغا بكسل أو 200 ألف بكسل. تجدر الإشارة إلى أنّه حتى أفضل خوارزميات تصنيف الصور لا تزال لديها حدود عملية على تباين الحجم. على سبيل المثال، من غير المحتمل أن تصنف خوارزمية (أو إنسان) بشكل صحيح صورة قطة لا يتجاوز طولها 20 بكسل.

يمكنك الاطّلاع أيضًا على الثبات الترجمة والثبات الدوراني.

رسم

#clustering

في التعلم الآلي غير المُوجّه، يشير ذلك المصطلح إلى فئة من الخوارزميات التي تُجري تحليلاً أوليًا للتشابه على الأمثلة. تستخدم خوارزميات الرسومات دالة تجزئة حساسة للمناطق المحلية لتحديد النقاط التي يُحتمل أن تكون متشابهة، ثم تجمعها في مجموعات.

يقلل الرسم التخطيطي من العملية الحسابية المطلوبة لحسابات التشابه على مجموعات البيانات الكبيرة. وبدلاً من حساب التشابه لكل زوج فردي من الأمثلة في مجموعة البيانات، فإننا نحسب التشابه فقط لكل زوج من النقاط داخل كل مجموعة.

تخطي الغرام

#language

n-gram والذي قد يحذف (أو "يتخطى") الكلمات من السياق الأصلي، مما يعني أن الكلمات N قد لا تكون مجاورة في الأصل. بشكل أكثر دقة، k-skip-n-gram" عبارة عن n-غرام ربما يتم تخطي ما يصل إلى ألف كلمة.

على سبيل المثال، يحتوي "الثعلب البني السريع" على الغرامَين التاليَين المحتملَين:

  • "سريع"
  • "بني سريع"
  • "ثعلب بني"

"1-skip-2-غرام" هو زوج من الكلمات التي تحتوي على كلمة واحدة على الأكثر. لذلك، يحتوي "الثعلب البني السريع" على 2 غرام من التخطي التالي:

  • "البني"
  • "ثعلب سريع"

بالإضافة إلى ذلك، كل 2 غرام أيضًا 1 - 2 غرام، حيث قد يتم تخطي أقل من كلمة واحدة.

تعد رموز التخطي مفيدة لفهم المزيد عن السياق المحيط بالكلمة. وفي هذا المثال، ارتبطت كلمة "ثعلب" مباشرةً بكلمة "سريع" في مجموعة 1-skip-2-غرام، ولكن ليس في مجموعة 2 غرام.

تساعد رموز التخطي في تدريب نماذج تضمين الكلمات.

softmax

#fundamentals

دالة تحدِّد الاحتمالات لكل فئة محتملة في نموذج تصنيف متعدد الفئات. تضيف الاحتمالات ما يصل إلى 1.0 بالضبط. على سبيل المثال، يوضح الجدول التالي كيفية توزيع softmax للاحتمالات المختلفة:

الصورة هي... الاحتمالية
كلب .85
هرّ .13
حصان .02

يُطلق على Softmax أيضًا اسم full softmax.

التباين مع عيّنات المرشحين:

توليف بسيط

#language
#generativeAI

يشير ذلك المصطلح إلى أسلوب لضبط نموذج لغوي كبير لمهمة معيّنة بدون الحاجة إلى ضبط الموارد الدقيقة. بدلاً من إعادة تدريب كل القيم التقديرية في النموذج، يؤدي الضبط البسيط للإشعار إلى تعديل الطلب تلقائيًا لتحقيق الهدف نفسه.

عند تقديم طلب نصي، يؤدي الضبط الأولي للطلب عادةً إلى إلحاق المزيد من عمليات تضمين الرموز المميّزة في الطلب واستخدام الانتشار العكسي لتحسين الإدخال.

تحتوي المطالبة "الصعبة" على رموز مميزة فعلية بدلاً من تضمينات الرموز المميزة.

خاصية متفرقة

#language
#fundamentals

ميزة تكون قيمها في الغالب صفرية أو فارغة. على سبيل المثال، تكون الميزة التي تحتوي على قيمة 1 واحدة ومليون 0 متفرقة. في المقابل، تحتوي الميزة الكثيفة على قيم ليست صفرًا أو فارغة في الأساس.

في التعلم الآلي، هناك عدد مذهل من الميزات عبارة عن ميزات متفرقة. عادةً ما تكون السمات الفئوية متفرقة. على سبيل المثال، من بين 300 نوع محتمل من الأشجار في الغابة، هناك مثال واحد قد يحدد شجرة قيقب فقط. أو من بين الملايين من مقاطع الفيديو المحتملة في مكتبة الفيديو، قد يحدد مثال واحد "Casablanca" فقط.

في النموذج، أنت تمثّل عادةً ميزات متفرقة باستخدام ترميز واحد فعال. إذا كان الترميز الأحادي كبيرًا، يمكنك وضع طبقة تضمين أعلى الترميز الأحادي لتحسين الكفاءة.

تمثيل متفرق

#language
#fundamentals

تخزين مواضع العناصر غير الصفرية فقط في ميزة متفرقة.

على سبيل المثال، لنفترض أنّ ميزة فئوية تُعرف باسم species تحدد 36 نوعًا من الأشجار في غابة معيّنة. افترض أيضًا أن كل مثال يحدد نوعًا واحدًا فقط.

يمكنك استخدام متجه ساخن لتمثيل أنواع الأشجار في كل مثال. سيحتوي الخط المتجه أحادي اللون على حرف 1 واحد (لتمثيل أنواع الأشجار المحدّدة في هذا المثال) و35 ثانية 0 (لتمثيل 35 نوعًا من الأشجار وليس في هذا المثال). لذلك، قد يبدو التمثيل الحار لـ maple كما يلي:

خط متّجه يحمل فيه المواضع من 0 إلى 23 القيمة 0، ويحمل الموضع 24 القيمة 1، ويحمل الموضع من 25 إلى 35 القيمة 0.

بدلاً من ذلك، سيحدد التمثيل المتفرق ببساطة موضع أنواع معينة. إذا كان maple في الموضع 24، سيكون تمثيل maple المتفرق ببساطة:

24

لاحظ أن التمثيل المتفرق أكثر إحكامًا بكثير من التمثيل الساخن.

متّجه متفرق

#fundamentals

يشير ذلك المصطلح إلى متجه تكون قيمه في الغالب أصفار. راجِع أيضًا الميزة المتناثرة والتنوّع.

الندرة

عدد العناصر المضبوطة على صفر (أو فارغ) في الخط المتجه أو المصفوفة مقسومًا على إجمالي عدد الإدخالات في ذلك المتجه أو المصفوفة. على سبيل المثال، ضع في اعتبارك مصفوفة من 100 عنصر فيها 98 خلية تحتوي على صفر. يكون حساب الندرة على النحو التالي:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

وتشير ندرة الميزات إلى ندرة الخط المتجه للخصائص، بينما تشير ندرة النماذج إلى ندرة ترجيح النموذج.

التجميع المكاني

#image

يمكنك الاطّلاع على تجميع البيانات.

split

#df

في شجرة القرار، اسم آخر لشرط.

مقسِّم

#df

أثناء تدريب شجرة قرارات، يتم تحديد سلسلة الإجراءات (والخوارزمية) المسؤولة عن العثور على أفضل شرط في كل عقدة.

بروتوكول SPMD

اختصار برنامج واحد / بيانات متعددة.

تربيع الخسارة المفصلية

تمثّل هذه السمة مربّع فقدان التفاصيل. تؤدي خسارة المفصلات المربعة إلى عقوبة القيم الاستثنائية بشكل أقوى من خسارة المفصلات المعتادة.

الخسارة التربيعية

#fundamentals

مرادف لمصطلح L2 shopping.

تدريب مدرّج

#language

يشير ذلك المصطلح إلى أسلوب لتدريب نموذج ضمن سلسلة من المراحل المنفصلة. يمكن أن يكون الهدف إما تسريع عملية التدريب أو تحقيق جودة نموذج أفضل.

في ما يلي صورة توضيحية لنهج التجميع التدريجي:

  • تحتوي المرحلة 1 على 3 طبقات مخفية، وتحتوي المرحلة 2 على 6 طبقات مخفية، وتحتوي المرحلة 3 على 12 طبقة مخفية.
  • تبدأ المرحلة 2 التدريب باستخدام الأوزان التي تعلمتها في الطبقات الثلاث المخفية من المرحلة 1. تبدأ المرحلة 3 التدريب باستخدام الأوزان التي تعلمتها في الطبقات الست المخفية من المرحلة 2.

ثلاث مراحل، والتي تحمل اسم المرحلة 1، والمرحلة 2، والمرحلة 3.
          تحتوي كل مرحلة على عدد مختلف من الطبقات: تحتوي المرحلة 1 على 3 طبقات، بينما تحتوي المرحلة 2 على 6 طبقات، وتحتوي المرحلة 3 على 12 طبقة.
          تصبح الطبقات الثلاث من المرحلة 1 أول 3 طبقات من المرحلة 2.
          وبالمثل، تصبح الطبقات الست من المرحلة 2 هي أول 6 طبقات من المرحلة 3.

راجِع أيضًا المسارات.

state

#rl

في التعلّم المعزّز، يشير ذلك إلى قيم المعلَمات التي تصف الضبط الحالي للبيئة، والتي يستخدمها agent لاختيار إجراء.

دالة قيمة إجراء الحالة

#rl

مرادف دالة Q.

ثابتة

#fundamentals

شيء ما تم إجراؤه مرة واحدة وليس بشكل مستمر. المصطلحان ثابت وبلا إنترنت مرادفان. في ما يلي الاستخدامات الشائعة للوضعَين الثابت وبلا إنترنت في تعلُّم الآلة:

  • نموذج ثابت (أو نموذج بلا إنترنت) هو نموذج يتم تدريبه مرة واحدة ثم استخدامه لفترة من الوقت.
  • التدريب الثابت (أو التدريب بلا إنترنت) هو عملية تدريب نموذج ثابت.
  • الاستنتاج الثابت (أو الاستنتاج بلا اتصال بالإنترنت) هو عملية ينشئ من خلالها النموذج مجموعة من التوقّعات في كل مرة.

قارِنها باستخدام ديناميكي.

استنتاج ثابت

#fundamentals

مرادف الاستنتاج بلا إنترنت

استقرارية

#fundamentals

يشير ذلك المصطلح إلى ميزة لا تتغيّر قيمها على مستوى سمة واحدة أو أكثر، وعادةً ما تكون وقتًا. على سبيل المثال، إحدى الميزات التي تبدو قيمها متشابهة تقريبًا في 2021 و2023 تعرض الاتساق.

في العالم الحقيقي، عدد قليل جدًا من الميزات تُظهر الثبات. كما أن الميزات التي تتشابه مع الاستقرار (مثل مستوى سطح البحر) تتغير بمرور الوقت.

يتناقض مع عدم التوقُّف بعد ذلك.

الخطوة

تمرير أمامي وتمرير خلفي لدفعة واحدة واحدة.

راجع الانتشار العكسي للحصول على مزيد من المعلومات حول التمرير الأمامي والخلفي.

حجم الخطوة

مرادف معدّل التعلّم.

خورازمية انحدار التدرج العشوائي (SGD)

#fundamentals

خوارزمية انحدار التدرج يكون فيها حجم الدفعة واحدًا. بعبارة أخرى، يتدرب SGD على مثال واحد يتم اختياره بشكل عشوائي من مجموعة تدريب.

خطوة

#image

في العملية الالتفافية أو التجميع، تشير الدلتا في كل بُعد من السلسلة التالية من شرائح الإدخال. على سبيل المثال، توضح الرسوم المتحركة التالية خطوة (1,1) أثناء العملية الالتفافية. لذلك، تبدأ شريحة الإدخال التالية موضعًا واحدًا على يمين شريحة الإدخال السابقة. عندما تصل العملية إلى الحافة اليمنى، تكون الشريحة التالية في أقصى اليسار بموضع واحد لأسفل.

مصفوفة إدخال 5×5 وفلتر التفافي 3×3. بما أنّ مقدار المقدار الموسّع (1،1)، سيتم تطبيق فلتر التفافي 9 مرات. تقيّم الشريحة الالتفافية الأولى المصفوفة الفرعية 3×3 في أعلى اليسار لمصفوفة الإدخال. تقيّم الشريحة الثانية المصفوفة الفرعية 3×3 العلوية في المنتصف. تقيّم الشريحة الالتفافية الثالثة المصفوفة الفرعية بحجم 3×3 في أعلى يمين الشاشة.  تقيّم الشريحة الرابعة المصفوفة الفرعية 3×3 في منتصف اليسار.
     تقيّم الشريحة الخامسة المصفوفة الفرعية الوسطى 3×3. تقيِّم الشريحة السادسة المصفوفة الفرعية 3×3 في منتصف اليمين. تقيّم الشريحة السابعة المصفوفة الفرعية 3×3 أسفل اليسار.  تقيّم الشريحة الثامنة المصفوفة الفرعية 3×3 أسفل المنتصف. تقيّم الشريحة التاسعة المصفوفة الفرعية 3×3 أسفل اليمين.

يوضح المثال السابق خطوة ثنائية الأبعاد. إذا كانت مصفوفة الإدخال ثلاثية الأبعاد، فستكون الخطوة ثلاثية الأبعاد أيضًا.

تقليص المخاطر الهيكلية (SRM)

خوارزمية توازن بين هدفين:

  • الحاجة إلى وضع النموذج الأكثر تنبؤًا (على سبيل المثال، أدنى خسارة).
  • الحاجة إلى الحفاظ على بساطة النموذج قدر الإمكان (على سبيل المثال، الانتظام القوي).

على سبيل المثال، الدالة التي تقلل من الخسارة+الانتظام في مجموعة التدريب هي خوارزمية هيكلية للحد من المخاطر.

قارِنها مع الحدّ من المخاطر التجريبية.

جمع عيّنات فرعية

#image

يمكنك الاطّلاع على تجميع البيانات.

رمز مميّز للكلمة الفرعية

#language

في النماذج اللغوية، يكون رمزًا مميزًا عبارة عن سلسلة فرعية من الكلمة، والتي قد تكون الكلمة بأكملها.

على سبيل المثال، يمكن تقسيم كلمة مثل "itemize" إلى القسمين "item" (كلمة جذر) و "ize" (لاحقة)، ويتم تمثيل كلّ منهما بالرمز المميّز الخاص به. يسمح تقسيم الكلمات غير الشائعة إلى مثل هذه الأجزاء، المسماة بالكلمات الفرعية، للنماذج اللغوية بالعمل على الأجزاء المكوّنة الأكثر شيوعًا للكلمة، مثل البادئات واللاحقات.

وعلى النقيض، قد لا يتم تقسيم الكلمات الشائعة مثل "الذهاب" وقد يتم تمثيلها برمز مميز واحد.

الملخّص

#TensorFlow

في TensorFlow، هي قيمة أو مجموعة قيم يتم احتسابها عند خطوة معيّنة، وتُستخدَم عادةً لتتبُّع مقاييس النماذج أثناء التدريب.

تعلُّم الآلة المراقَب

#fundamentals

يمكنك تدريب model من model وmodel المقابلة. يشبه التعلم الآلي المراقَب تعلم موضوعٍ ما من خلال دراسة مجموعة من الأسئلة وإجاباتها المقابلة. بعد إتقان الربط بين الأسئلة والإجابات، يمكن للطالب بعد ذلك تقديم إجابات للأسئلة الجديدة (لم تتم رؤيتها من قبل) حول نفس الموضوع.

المقارنة مع تعلّم الآلة غير الخاضع للإشراف

ميزة اصطناعية

#fundamentals

ميزة غير موجودة بين ميزات الإدخال، ولكن مجمّعة من واحدة أو أكثر منها. وتشمل طرق إنشاء الميزات الاصطناعية ما يلي:

  • تجميع ميزة مستمرة في سلال النطاقات.
  • إنشاء عنصر مشترك للميزات.
  • ضرب (أو قسمة) قيمة واحدة في قيمة(قيم) ميزة أخرى أو في نفسها. على سبيل المثال، إذا كان a وb هما ميزتا الإدخال، في ما يلي أمثلة على الميزات الاصطناعية:
    • ab
    • أ2
  • تطبيق دالة متتالية على قيمة ميزة على سبيل المثال، إذا كان c ميزة إدخال، في ما يلي أمثلة على الميزات الاصطناعية:
    • sin(c)
    • ln(c)

لا تُعتبر الميزات التي يتم إنشاؤها من خلال تسوية أو تحجيم وحده ميزات اصطناعية.

T

T5

#language

هو نموذج تحويل يستند إلى تحويل النص إلى نص، طرحه تكنولوجيات الذكاء الاصطناعي من Google في عام 2020. إنّ النموذج T5 هو نموذج برنامج ترميز لفك الترميز يستند إلى بنية Transformer التي تم تدريبه على مجموعة بيانات كبيرة للغاية. كما أنها فعالة في مجموعة متنوعة من مهام معالجة اللغات الطبيعية، مثل إنشاء النص وترجمة اللغات والإجابة على الأسئلة بطريقة محادثة.

يشتق T5 اسمه من أحرف T الخمسة في "محول نقل النص إلى نص".

T5X

#language

هو إطار عمل مفتوح المصدر لتعلُّم الآلة تم تصميمه لإنشاء وتدريب نماذج معالجة اللغات الطبيعية واسعة النطاق (NLP). يتم تنفيذ T5 على قاعدة رموز T5X (التي تستند إلى JAX وFlax).

نموذج Q- Learning الجدولي

#rl

في التعلُّم التعززي، يمكن تنفيذ التعلّم القائم على Q باستخدام جدول لتخزين الدوالّ Q لكل مزيج من ما يلي: الدوال والإجراء.

الاستهداف

مرادف label.

الشبكة المستهدفة

#rl

في التعلم Q المتعمق، هي شبكة عصبية تكون تقريبية ثابتة من الشبكة العصبية الرئيسية، حيث تنفّذ الشبكة العصبية الرئيسية إما دالة Q أو سياسة. بعد ذلك، يمكنك تدريب الشبكة الرئيسية على قيم Q التي تنتهجها الشبكة المستهدفة. وبالتالي، فإنك تمنع حلقة الملاحظات التي تحدث عندما تتدرب الشبكة الرئيسية على قيم Q التي تنبأ بها نفسها. من خلال تجنب هذه الملاحظات، يزداد استقرار التدريب.

مَهَمَّة

مشكلة يمكن حلها باستخدام أساليب التعلم الآلي، مثل:

درجة الحرارة

#language
#image
#generativeAI

معلَمة فائقة تتحكّم في درجة العشوائية لناتج النموذج. تؤدي درجات الحرارة الأعلى إلى ناتج عشوائي أكثر، بينما تؤدي درجات الحرارة المنخفضة إلى ناتج عشوائي أقل.

يعتمد اختيار أفضل درجة حرارة على التطبيق المحدد والخصائص المفضلة لناتج النموذج. على سبيل المثال، من المحتمل أن ترفع درجة الحرارة عند إنشاء تطبيق ينشئ مخرجات إبداعية. والعكس صحيح، من المحتمل أن تقلل درجة الحرارة عند إنشاء نموذج يصنف الصور أو النصوص من أجل تحسين دقة النموذج واتساقه.

غالبًا ما تُستخدَم درجة الحرارة مع softmax.

بيانات حسب الوقت

يشير ذلك المصطلح إلى البيانات المُسجَّلة في نقاط زمنية مختلفة. على سبيل المثال، ستكون مبيعات معاطف الشتاء المسجلة لكل يوم من أيام السنة بيانات زمنية.

موت

#TensorFlow

يشير ذلك المصطلح إلى بنية البيانات الأساسية في برامج TensorFlow. الموتّرات عبارة عن أبعاد ن (حيث يمكن أن تكون N كبيرة جدًا) هياكل بيانات، غالبًا ما تكون مقاييس أو متجهات أو المصفوفات. يمكن أن تحتوي عناصر Tensor على قيم عدد صحيح أو نقطة عائمة أو قيم سلسلة.

TensorBoard

#TensorFlow

لوحة البيانات التي تعرض الملخّصات المحفوظة أثناء تنفيذ برنامج واحد أو أكثر من برامج TensorFlow.

TensorFlow

#TensorFlow

هي منصة موزّعة وواسعة النطاق لتعلُّم الآلة. يشير المصطلح أيضًا إلى طبقة واجهة برمجة التطبيقات الأساسية في مكدس TensorFlow، والتي تدعم الحوسبة العامة على الرسوم البيانية لتدفق البيانات.

على الرغم من أنّ TensorFlow يُستخدم بشكل أساسي في التعلم الآلي، يمكنك أيضًا استخدام TensorFlow للمهام غير المستندة إلى تعلُّم الآلة التي تتطلب عملية حسابية رقمية باستخدام الرسوم البيانية لتدفق البيانات.

ملعب TensorFlow

#TensorFlow

برنامج يصور مدى تأثير المعلَمات الفائقة المختلفة في تدريب النموذج (الشبكة العصبونية بشكل أساسي). يمكنك الانتقال إلى http://playground.أحرفflow.org لإجراء تجربة باستخدام منصة TensorFlow Playground.

عرض TensorFlow

#TensorFlow

يشير ذلك المصطلح إلى نظام أساسي لنشر النماذج المدرَّبة في مرحلة الإنتاج.

وحدة معالجة الموتّر (TPU)

#TensorFlow
#GoogleCloud

يشير ذلك المصطلح إلى دائرة متكاملة (ASIC) خاصة بالتطبيق تعمل على تحسين أداء مهام تعلُّم الآلة. يتم نشر شبكات ASIC هذه على شكل شرائح TPU متعددة على جهاز TPU.

ترتيب الموتّر

#TensorFlow

اطّلِع على الترتيب (Tensor).

شكل الموتّر

#TensorFlow

عدد العناصر التي يحتوي عليها أداة استشعار بأبعاد مختلفة. على سبيل المثال، يتخذ شكل Tens [5, 10] شكل 5 في بُعد و10 في بُعد آخر.

حجم الموتّر

#TensorFlow

إجمالي عدد الكميات القياسية التي تحتوي عليها Tensor. على سبيل المثال، يبلغ حجم [5, 10] Tensor 50.

TensorStore

مكتبة لقراءة وكتابة مصفوفات كبيرة متعددة الأبعاد بكفاءة.

شرط إنهاء الاتفاقية

#rl

في التعلُّم التعززي، هي الشروط التي تحدِّد وقت انتهاء الحلقة، مثل وصول الوكيل إلى حالة معيّنة أو تجاوز الحدّ الأقصى لعمليات الانتقال بين هذه الحالات. على سبيل المثال، في لعبة tic-tac-toe (المعروفة أيضًا باسم noughts وcres)، تنتهي الحلقة إما عندما يضع اللاعب علامة على ثلاث مسافات متتالية أو عند وضع علامة على جميع المسافات.

الاختبار

#df

في شجرة القرار، اسم آخر لشرط.

اختبار فقدان البيانات

#fundamentals

مقياس يمثّل خسارة النموذج مقابل مجموعة الاختبار. عند إنشاء model، فإنك تحاول عادةً تقليل فقدان الاختبار. ويرجع ذلك إلى أنّ خسارة الاختبار المنخفض تكون إشارة أقوى من انخفاض التدريب أو انخفاض فقدان التحقّق.

في بعض الأحيان، تشير الاختلافات الكبيرة بين فقدان الاختبار وفقدان التدريب أو فقدان عملية التحقق إلى أنّك بحاجة إلى زيادة معدّل الحفاظ على الصحة.

مجموعة اختبار

مجموعة فرعية من مجموعة البيانات محجوزة لاختبار نموذج مدرَّب.

عادةً، تقوم بتقسيم الأمثلة في مجموعة البيانات إلى المجموعات الفرعية الثلاث المميزة التالية:

يجب أن ينتمي كل مثال في مجموعة البيانات إلى مجموعة واحدة فقط من المجموعات الفرعية السابقة. على سبيل المثال، ينبغي ألا ينتمي مثال واحد إلى كل من مجموعة التدريب ومجموعة الاختبار.

ترتبط كل من مجموعة التدريب ومجموعة التحقق ارتباطًا وثيقًا بتدريب أحد النماذج. نظرًا لأن مجموعة الاختبار مرتبطة بالتدريب بشكل غير مباشر فقط، فإن فقدان الاختبار أقل تحيزًا وأعلى جودة من فقدان التدريب أو فقدان التحقق من الصحة.

امتداد النص

#language

مدى فهرس الصفيف المرتبط بقسم فرعي محدد من سلسلة نصية. على سبيل المثال، تشغل الكلمة good في سلسلة بايثون s="Be good now" مساحة النص من 3 إلى 6.

tf.Example

#TensorFlow

مرجع احتياطي للبروتوكول القياسي لوصف بيانات الإدخال لأغراض تدريب نموذج تعلُّم الآلة أو استنتاجه.

tf.keras

#TensorFlow

تم دمج Keras في TensorFlow.

حد (في أشجار القرارات)

#df

في شرط محاذاة المحور، القيمة التي تتمّ مقارنة ميزة بها. على سبيل المثال، 75 هي قيمة الحد في الشرط التالي:

grade >= 75

تحليل المتسلسلات الزمنية

#clustering

هو حقل فرعي من تعلُّم الآلة والإحصاءات التي تحلل البيانات المؤقتة. تتطلب العديد من أنواع مشكلات التعلم الآلي تحليل السلاسل الزمنية، بما في ذلك التصنيف والتجميع العنقودي والتنبؤ ورصد القيم الشاذة. على سبيل المثال، يمكنك استخدام تحليل السلسلة الزمنية للتنبؤ بالمبيعات المستقبلية للمعاطف الشتوية حسب الشهر استنادًا إلى بيانات المبيعات التاريخية.

خطوة زمنية

#seq

خلية "غير مدرجة" في شبكة عصبية متكررة. على سبيل المثال، يوضح الشكل التالي ثلاث خطوات زمنية (مصنفة بالخطوط السفلية t-1 وt وt+1):

ثلاث خطوات زمنية في شبكة عصبية متكررة. ويصبح ناتج الخطوة الزمنية الأولى إدخالاً للخطوة الزمنية الثانية. ويصبح ناتج الخطوة الزمنية الثانية إدخالاً للخطوة الزمنية الثالثة.

رمز مميّز

#language

في النموذج اللغوي، يشير ذلك إلى الوحدة الذرية التي يتدرب النموذج عليها ويقدم توقّعات بشأنها. يكون الرمز المميز عادةً واحدًا مما يلي:

  • كلمة - على سبيل المثال، تتكون عبارة "كلاب مثل القطط" من ثلاث كلمات مميزة: "كلاب" و"أعجبني" و "قطط".
  • حرف - على سبيل المثال، تتكون عبارة "سمكة دراجة" من تسعة أحرف. (لاحظ أن المساحة الفارغة تُحتسب كإحدى الرموز المميزة).
  • كلمات فرعية - يمكن أن تكون فيها كلمة واحدة رمزًا واحدًا أو رموزًا مميزة متعددة. تتكون الكلمة الفرعية من كلمة جذر أو بادئة أو لاحقة. على سبيل المثال، قد يعرض النموذج اللغوي الذي يستخدم الكلمات الفرعية كرموز مميزة كلمة "كلاب" كرمزين مميزين (كلمة الجذر "كلب" ولاحقة الجمع "s"). قد يعرض نموذج اللغة نفسه الكلمة المفردة "أطول" ككلمتين فرعيتين (الكلمة الجذر "طويل" واللاحقة "er").

في النطاقات خارج النماذج اللغوية، يمكن أن تمثل الرموز المميزة أنواعًا أخرى من الوحدات الذرية. على سبيل المثال، في رؤية الكمبيوتر، قد يكون الرمز المميز مجموعة فرعية من صورة.

tower

أحد مكونات شبكة عصبية عميقة وهي في حد ذاتها شبكة عصبية عميقة. في بعض الحالات، يقرأ كل برج من مصدر بيانات مستقل، وتظل هذه الأبراج مستقلة إلى أن يتم دمج مخرجاتها في طبقة نهائية. في حالات أخرى، (على سبيل المثال، في مكدس/برج برنامج الترميز وبرنامج فك الترميز في العديد من المحوّلات)، يكون للأبراج صلات متبادلة ببعضها.

TPU

#TensorFlow
#GoogleCloud

اختصار وحدة معالجة أجهزة الاستشعار

شريحة بولي يورثان متلدّن بالحرارة

#TensorFlow
#GoogleCloud

مسرِّع أعمال جبر خطّي قابل للبرمجة مع ذاكرة ذات نطاق ترددي عالي على الرقاقة يتم تحسينها لتتناسب مع أعباء عمل تعلُّم الآلة. يتم نشر عدة شرائح TPU على جهاز TPU.

جهاز بولي يورثان متلدّن بالحرارة

#TensorFlow
#GoogleCloud

لوحة دارة كهربائية (PCB) تتضمن عدة شرائح TPU وواجهات شبكة ذات معدل نقل بيانات عالٍ وأجهزة تبريد النظام.

وحدة معالجة الموتّرات الرئيسية

#TensorFlow
#GoogleCloud

يشير ذلك المصطلح إلى عملية التنسيق المركزية التي يتم تنفيذها على جهاز مضيف يُرسل البيانات والنتائج والبرامج والأداء ومعلومات عن سلامة النظام ويستقبلها إلى العاملين في وحدة معالجة الموتّرات. يدير وحدة المعالجة المركزية الرئيسية أيضًا عملية إعداد أجهزة معالجة الموتّرات وإيقافها.

عقدة وحدة معالجة الموتّرات

#TensorFlow
#GoogleCloud

مورد وحدة معالجة الموتّرات في Google Cloud مع نوع وحدة معالجة الموتّرات محدّد تتصل عقدة وحدة معالجة الموتّرات بشبكة VPC من شبكة VPC المشابهة. عُقد وحدة معالجة الموتّرات هي مورد يتم تحديده في Cloud TPU API.

كبسولة بولي يورثان متلدّن بالحرارة

#TensorFlow
#GoogleCloud

هو إعداد محدد لأجهزة TPU في مركز بيانات Google. تتصل جميع الأجهزة الموجودة في كبسولة TPU بعضها ببعض عبر شبكة مخصصة عالية السرعة. وحدة TPU Pod هي أكبر عملية ضبط لأجهزة TPU المتاحة لإصدار معيّن من TPU.

مورد وحدة معالجة الموتّرات

#TensorFlow
#GoogleCloud

وحدة معالجة الموتّرات الفائقة (TPU) على Google Cloud التي تنشئها أو تديرها أو تستخدمها على سبيل المثال، عُقد وحدة معالجة الموتّرات وأنواع وحدات معالجة الموتّرات هي موارد وحدة معالجة الموتّرات.

شريحة بولي يورثان متلدّن بالحرارة

#TensorFlow
#GoogleCloud

شريحة TPU هي جزء جزئي من أجهزة TPU المضمّنة في حافظة TPU. تتصل جميع الأجهزة الموجودة في شريحة TPU ببعضها البعض عبر شبكة مخصصة عالية السرعة.

نوع بولي يورثان متلدّن بالحرارة

#TensorFlow
#GoogleCloud

ضبط جهاز TPU واحد أو أكثر مع إصدار محدّد من أجهزة TPU. عليك اختيار نوع TPU عند إنشاء عقدة TPU على Google Cloud. على سبيل المثال، v2-8 نوع TPU هو جهاز واحد من نوع TPU v2 مزوّد بـ 8 أنوية. يحتوي نوع TPU v3-2048 على 256 جهازًا متصلاً بالشبكة من الإصدار 3 من TPU وبإجمالي 2048 نواة. أنواع وحدات معالجة الموتّرات هي مورد يتم تحديده في Cloud TPU API.

عامل TPU

#TensorFlow
#GoogleCloud

يشير ذلك المصطلح إلى عملية يتم تشغيلها على جهاز مضيف وتنفيذ برامج تعلُّم الآلة على أجهزة معالجة الموتّرات الفائقة (TPU).

التدريب

#fundamentals

يشير ذلك المصطلح إلى عملية تحديد المَعلمات المثالية (القِيم والانحيازات) التي تتألّف من نموذج. أثناء التدريب، يقرأ النظام الأمثلة ويعدّل المَعلمات تدريجيًا. يستخدم التدريب كل مثال في أي مكان من عدة مرات إلى مليارات المرات.

خسارة التدريب

#fundamentals

مقياس يمثّل خسارة النموذج أثناء تكرار تدريبي خاص. على سبيل المثال، لنفترض أن دالة الخسارة هي Mean Squared error. ربما تكون خسارة التدريب (متوسط الخطأ التربيعي) للتكرار العاشر هي 2.2، وخسارة التدريب للتكرار المائة 1.9.

يوضِّح منحنى الخسارة خسارة التدريب مقابل عدد التكرارات. يقدم منحنى الخسارة التلميحات التالية حول التدريب:

  • يشير الانحدار لأسفل إلى أن النموذج يتحسن.
  • يشير الانحدار لأعلى إلى أن النموذج يزداد سوءًا.
  • يشير الانحدار المستوي إلى أنّ النموذج قد وصل إلى التقارب.

على سبيل المثال، يوضح منحنى الخسارة المثالي إلى حد ما:

  • يشير هذا المصطلح إلى انحدار شديد الانحدار أثناء التكرارات الأولية، ما يشير إلى تحسين سريع للنموذج.
  • الانحدار التدريجي (ولكنه لا يزال للأسفل) حتى قُرب نهاية التدريب، ما يعني مواصلة تحسين النموذج بوتيرة أبطأ نوعًا ما ثم أثناء التكرارات الأولية.
  • انحدار مستوٍ نحو نهاية التدريب، مما يشير إلى التقارب.

مخطط خسارة التدريب مقابل التكرارات. ويبدأ منحنى الخسارة هذا بمنحدر حاد إلى أسفل. يستقر الميل تدريجيًا إلى أن يصبح الميل صفرًا.

على الرغم من أهمية خسارة التدريب، يمكنك الاطّلاع أيضًا على التعميم.

انحراف عرض التدريب

#fundamentals

الفرق بين أداء النموذج أثناء التدريب وأداء النموذج نفسه أثناء العرض.

مجموعة تدريب

#fundamentals

هي مجموعة فرعية من مجموعة البيانات المستخدَمة لتدريب نموذج.

عادةً، يتم تقسيم الأمثلة في مجموعة البيانات إلى المجموعات الفرعية الثلاث التالية:

من الناحية المثالية، يجب أن ينتمي كل مثال في مجموعة البيانات إلى مجموعة واحدة فقط من المجموعات الفرعية السابقة. على سبيل المثال، لا ينبغي أن ينتمي مثال واحد إلى كل من مجموعة التدريب ومجموعة التحقق من الصحة.

مسار

#rl

في التعلُّم المعزّز، يشير تسلسل الصفوف إلى سلسلة من انتقالات الحالة للوكيل agent، حيث يتجاوب كل صف مع الحالة والإجراء والمكافأة والحالة التالية لحالة انتقال معيّنة.

نقل التعلُّم

نقل المعلومات من مهمة تعلُّم الآلة إلى أخرى. على سبيل المثال، في التعلُّم المتعدد المهام، يحل نموذج واحد مهام متعددة، مثل النموذج العميق الذي يحتوي على عقد نتائج مختلفة لمهام مختلفة. قد يتضمن التعلم عملية نقل المعرفة من حل مهمة أبسط إلى مهمة أكثر تعقيدًا، أو تتضمن نقل المعرفة من مهمة يوجد فيها المزيد من البيانات إلى مهمة تحتوي على بيانات أقل.

وتحلّ معظم أنظمة تعلُّم الآلة مهمة واحدة. إنّ نقل التعلُّم هو خطوة صغيرة نحو استخدام الذكاء الاصطناعي يمكن من خلاله لبرنامج واحد حلّ مهام متعددة.

المحوّل

#language

يشير ذلك المصطلح إلى بنية لشبكة عصبية تم تطويرها في Google وتستند إلى آليات الانتباه الذاتي لتحويل تسلسل عمليات تضمين المدخلات إلى سلسلة من عمليات تضمين الإخراج بدون الاعتماد على الالتفافات أو الشبكات العصبية المتكررة. يمكن عرض المحول كحزمة من طبقات الانتباه الذاتي.

يمكن أن يتضمن المحول أيًا مما يلي:

يحوّل برنامج الترميز سلسلة من عمليات التضمين إلى تسلسل جديد بنفس الطول. يشتمل برنامج الترميز على N طبقات متطابقة، تحتوي كل منها على طبقتين فرعيتين. يتم تطبيق هاتَين الطبقتَين الفرعيتَين في كل موضع من تسلسل تضمين الإدخال، ما يؤدي إلى تحويل كل عنصر من عناصر التسلسل إلى عملية تضمين جديدة. تُجمِّع الطبقة الفرعية الأولى لبرنامج الترميز المعلومات من تسلسل الإدخال. تعمل الطبقة الفرعية لبرنامج الترميز الثانية على تحويل المعلومات المجمعة إلى تضمين للمخرجات.

يحوّل برنامج فك الترميز سلسلة من عمليات تضمين المدخلات إلى سلسلة من تضمينات الإخراج، ومن المحتمل أن يكون طولها مختلفًا. يحتوي برنامج فك الترميز أيضًا على عدد N طبقات متطابقة ذات ثلاث طبقات فرعية، اثنان منها مشابهان للطبقات الفرعية لبرنامج الترميز. تأخذ الطبقة الفرعية الثالثة لفك الترميز نتائج برنامج الترميز وتطبّق آلية الانتباه الذاتي لجمع المعلومات منه.

ونقدّم في مشاركة المدونة Transformer: A New Neular Network Engineering for Language Format مقدمة جيدة عن المحولات.

الثبات الانتقالي

#image

في إحدى مشكلات تصنيف الصور، يشير ذلك المصطلح إلى قدرة الخوارزمية على تصنيف الصور بنجاح حتى عندما يتغيّر موضع العناصر داخل الصورة. على سبيل المثال، لا يزال بإمكان الخوارزمية تحديد كلب، سواء كان في منتصف الإطار أو في الطرف الأيسر منه.

يمكنك الاطّلاع أيضًا على ثابت الحجم والثبات الدوراني.

صورة ثلاثية الأبعاد

#seq
#language

N-gram حيث N=3.

سالب صحيح (TN)

#fundamentals

مثال الذي يتوقّع فيه النموذج بشكل صحيح الفئة السالبة. على سبيل المثال، يستنتج النموذج أنّ رسالة إلكترونية معيّنة ليست رسالة غير مرغوب فيها، وأنّ هذه الرسالة الإلكترونية ليست رسالة غير مرغوب فيها في الواقع.

موجب صائب (TP)

#fundamentals

مثال حيث يتوقّع النموذج بشكل صحيح الفئة الإيجابية. على سبيل المثال، يستنتج النموذج أن رسالة بريد إلكتروني معينة عبارة عن رسالة غير مرغوب فيها، وأن هذه الرسالة الإلكترونية هي في الواقع رسالة غير مرغوب فيها.

معدل الموجب الصحيح (TPR)

#fundamentals

مرادف لكلمة recall. والمقصود:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

المعدل الموجبة الصائب هو المحور الصادي في منحنى خاصية تشغيل جهاز الاستقبال.

U

عدم الوعي (بسمة حساسة)

#fairness

يشير ذلك المصطلح إلى حالة تتوفّر فيها سمات حسّاسة، ولكن لا يتم تضمينها في بيانات التدريب. بما أنّ السمات الحساسة غالبًا ما ترتبط بسمات أخرى لبيانات الشخص، قد يكون للنموذج الذي تم تدريبه بدون وعي بسمة حساسة تأثيرًا متباينًا في ما يتعلق بهذه السمة، أو قد ينتهك قيود الإنصاف الأخرى.

فرط التعميم

#fundamentals

إنشاء model ذي قدرة توقّعية ضعيفة لأنّ النموذج لم يعبّر بشكل كامل عن مدى تعقيد بيانات التدريب. يمكن أن تتسبب العديد من المشكلات في فرط التعميم، بما في ذلك:

عدم دقّة العينات

إزالة أمثلة من فئة الأغلبية في مجموعة بيانات غير متوازنة في الفئة لإنشاء مجموعة تدريب أكثر توازنًا.

على سبيل المثال، ضع في الاعتبار مجموعة بيانات تكون فيها نسبة الفئة الأغلبية إلى فئة الأقلية 20:1. للتغلب على هذا عدم التوازن في الفئات، يمكنك إنشاء مجموعة تدريب تتكون من كل أمثلة فئة الأقليات ولكن فقط عشر أمثلة فئات الأغلبية، الأمر الذي سينشئ نسبة فئة مجموعة التدريب 2:1. بفضل ضعف العينات، قد تنتج مجموعة التدريب الأكثر توازنًا هذه نموذجًا أفضل. بدلاً من ذلك، قد تحتوي مجموعة التدريب الأكثر توازنًا على أمثلة غير كافية لتدريب نموذج فعال.

قارِنها مع زيادة العيّنات.

أحادي الاتجاه

#language

يشير ذلك المصطلح إلى نظام يقيّم فقط النص الذي يسبق قسمًا مستهدَفًا من النص. في المقابل، يقيّم النظام الثنائي الاتجاه كلاً من النص الذي يسبق ويتبع القسم المستهدَف من النص. يمكنك الاطّلاع على ثنائي الاتجاه للحصول على مزيد من التفاصيل.

نموذج لغوي أحادي الاتجاه

#language

نموذج لغوي يستند في احتمالاته إلى الرموز المميّزة التي تظهر قبل الرموز المميّزة المستهدفة، وليس بعدها قارِنها مع النموذج اللغوي ثنائي الاتجاه.

مثال غير مصنّف

#fundamentals

مثال يحتوي على ميزات ولكن بدون تصنيف. على سبيل المثال، يعرض الجدول التالي ثلاثة أمثلة غير مصنفة من نموذج تقييم المنزل، ولكل منها ثلاث ميزات ولكن بدون قيمة منزل:

عدد غرف النوم عدد الحمّامات عمر المنزل
3 2 15
2 1 72
4 2 34

في تعلُّم الآلة المراقَب، تتدرب النماذج على الأمثلة المُصنَّفة وتقدِّم توقّعات على الأمثلة غير المصنَّفة.

في التعلّم شبه الخاضع للإشراف وغير الخاضع للإشراف، يتم استخدام أمثلة غير مصنَّفة أثناء التدريب.

قارِن بين المثال غير المصنّف والمثال المُصنَّف.

تعلُّم الآلة غير الخاضع للإشراف

#clustering
#fundamentals

تدريب model للعثور على أنماط في مجموعة بيانات، عادة مجموعة بيانات غير مصنفة.

إنّ الاستخدام الأكثر شيوعًا للتعلّم الآلي غير المُوجّه هو تجميع البيانات في مجموعات من الأمثلة المتشابهة. على سبيل المثال، يمكن لخوارزمية التعلم الآلي غير المُوجّهة تجميع الأغاني بناءً على خصائص مختلفة للموسيقى. ويمكن أن تصبح المجموعات العنقودية الناتجة مدخلات لخوارزميات التعلم الآلي الأخرى (على سبيل المثال، لخدمة اقتراح الموسيقى). يمكن أن يساعد التجميع العنقودي عندما تكون التسميات المفيدة نادرة أو غير موجودة. على سبيل المثال، في مجالات مثل مكافحة إساءة الاستخدام والاحتيال، يمكن للمجموعات أن تساعد المستخدمين على فهم البيانات بشكل أفضل.

على عكس التعلُّم الآلي الخاضع للإشراف

نمذجة التحسين

يشير ذلك المصطلح إلى أسلوب نمذجة يشيع استخدامه في مجال التسويق، ويتم من خلاله إنشاء نموذج لـ "التأثير السببي" (المعروف أيضًا باسم "التأثير المتزايد") لـ "العلاج" في "العلاج" على "فرد". وإليك مثالان:

  • قد يستخدم الأطباء نمذجة التحسّن للتنبؤ بانخفاض معدل الوفيات (التأثير السببي) لإجراء طبي (علاج) اعتمادًا على عمر المريض وتاريخه الطبي (الفرد).
  • قد تستخدم جهات التسويق نمذجة التحسين للتنبؤ بالزيادة في احتمالية إجراء عملية شراء (التأثير السببي) بسبب إعلان (تجربة) على شخص (فرد).

تختلف نماذج تحسين الأداء عن التصنيف أو الانحدار في أنّ بعض التصنيفات (على سبيل المثال، نصف التصنيفات في المعالجات الثنائية) غير متوفّرة دائمًا في نماذج التحسين. على سبيل المثال، يمكن للمريض إما تلقي علاج أو عدم تلقيه؛ لذلك، يمكننا فقط معرفة ما إذا كان المريض سوف يتعافى أم لا يشفى في حالة واحدة فقط من هاتين الحالتين (ولكن ليس في كلتا الحالتين مطلقًا). تتمثل الميزة الرئيسية لنموذج التحسين في أنه يمكنه إنشاء تنبؤات للموقف غير الملحوظ (المعارِض) واستخدامه لحساب التأثير السببي.

زيادة الوزن

تطبيق ترجيح على الفئة المستنِدة إلى عيّنة مساوية للعامل الذي قلّلت منه العيّنة من خلاله.

مصفوفة المستخدمين

#recsystems

في أنظمة الاقتراحات، متجه تضمين تم إنشاؤه من خلال تحليل عوامل المصفوفة ويحمل إشارات كامنة حول الإعدادات المفضّلة للمستخدم. يحتوي كل صف من مصفوفة المستخدمين على معلومات حول القوة النسبية للإشارات الكامنة المختلفة لمستخدم واحد. على سبيل المثال، فكّر في نظام توصية الأفلام. في هذا النظام، قد تمثل الإشارات الكامنة في مصفوفة المستخدمين اهتمام كل مستخدم بأنواع معينة، أو قد تكون إشارات يصعب تفسيرها تتضمن تفاعلات معقدة عبر عوامل متعددة.

تحتوي مصفوفة المستخدمين على عمود لكل ميزة كامنة وصف لكل مستخدم. أي أن مصفوفة المستخدم تحتوي على نفس عدد الصفوف مثل المصفوفة المستهدفة التي يتم تحليلها. على سبيل المثال، إذا كان هناك نظام توصية بالأفلام لعدد 1,000,000 مستخدم، ستحتوي مصفوفة المستخدمين على 1,000,000 صف.

V

التحقّق من الصحة

#fundamentals

تمثّل هذه السمة التقييم الأولي لجودة النموذج. يتحقّق التحقق من جودة توقّعات النموذج وفقًا لمجموعة التحقّق.

نظرًا لاختلاف مجموعة التحقق عن مجموعة التدريب، يساعد التحقق من الصحة في الحماية من فرط التخصيص.

قد تفكر في تقييم النموذج مقابل مجموعة التحقق التي تم تعيينها على أنها الجولة الأولى من الاختبار وتقييم النموذج في مقابل مجموعة الاختبار باعتبارها الجولة الثانية من الاختبار.

فقدان التحقّق من الصحة

#fundamentals

مقياس يمثّل خسارة النموذج في مجموعة التحقّق أثناء تكرار للتدريب

راجِع أيضًا منحنى التعميم.

مجموعة التحقق

#fundamentals

المجموعة الفرعية من مجموعة البيانات التي تُجري تقييمًا أوليًا مقابل نموذج مدرَّب. عادةً ما يتم تقييم النموذج المدرَّب مقابل مجموعة التحقق عدة مرات قبل تقييم النموذج مقارنةً بمجموعة الاختبار.

عادةً، تقوم بتقسيم الأمثلة في مجموعة البيانات إلى المجموعات الفرعية الثلاث المميزة التالية:

من الناحية المثالية، يجب أن ينتمي كل مثال في مجموعة البيانات إلى مجموعة واحدة فقط من المجموعات الفرعية السابقة. على سبيل المثال، لا ينبغي أن ينتمي مثال واحد إلى كل من مجموعة التدريب ومجموعة التحقق من الصحة.

احتساب القيمة

عملية استبدال قيمة مفقودة ببديل مقبول. عند عدم وجود قيمة، يمكنك إما تجاهل المثال بأكمله أو يمكنك استخدام حساب القيمة لإنقاذ المثال.

على سبيل المثال، ضع في اعتبارك مجموعة بيانات تحتوي على ميزة temperature يُفترَض تسجيلها كل ساعة. ومع ذلك، كانت قراءة درجة الحرارة غير متاحة لمدة ساعة معينة. فيما يلي قسم من مجموعة البيانات:

الطابع الزمني درجة الحرارة
1680561000 10
1680564600 12
1680568200 غير متاحة
1680571800 20
1680575400 21
1680579000 21

ويمكن للنظام إما حذف المثال المفقود أو تقدير درجة الحرارة المفقودة على أنها 12 أو 16 أو 18 أو 20، اعتمادًا على خوارزمية الحساب.

مشكلة التلاشي للتدرج

#seq

يشير ذلك المصطلح إلى ميل تدرجات الطبقات المخفية في بعض الشبكات العصبية العميقة لتصبح مسطَّحة (منخفضة) بشكل مفاجئ. وتؤدي التدرجات المنخفضة بشكل متزايد إلى حدوث تغييرات أصغر بشكل متزايد في الأوزان على النقاط في الشبكة العصبية العميقة، ما يؤدي إلى القليل من التعلم أو انعدامه. يصبح تدريب النماذج التي تعاني من مشكلة التدرج المتلاشي صعبًا أو مستحيلاً. تعالج خلايا الذاكرة الطويلة المدى هذه المشكلة.

المقارنة مع مشكلة التدرج المتفجّرة.

الأهمية المتغيّرة

#df

مجموعة من النتائج التي تشير إلى الأهمية النسبية لكل ميزة للنموذج.

على سبيل المثال، انظر إلى شجرة القرار التي تقدِّر أسعار المنازل. افترض أن شجرة القرار هذه تستخدم ثلاث ميزات: الحجم والعمر والأسلوب. إذا تم حساب مجموعة من الأهمية المتغيرة للميزات الثلاث على أنها {size=5.8, age=2.5, style=4.7}, فإن الحجم أكثر أهمية لشجرة القرار من العمر أو النمط.

توجد مقاييس أهمية متغيرة مختلفة، والتي يمكن أن تُعلم خبراء التعلم بالجوانب المختلفة للنماذج.

برنامج الترميز التلقائي المتغير (VAE)

#language

يشير ذلك المصطلح إلى نوع من برامج الترميز التلقائي يستفيد من التناقض بين المدخلات والمخرجات لإنشاء نُسخ معدَّلة من المدخلات. تُعدّ برامج الترميز التلقائية المتعدّدة مفيدة للذكاء الاصطناعي التوليدي.

تستند VAEs إلى الاستدلال المتغير: تقنية لتقدير معلمات نموذج الاحتمال.

المتّجه

مصطلح مثقل للغاية والذي يختلف معناه باختلاف المجالات الرياضية والعلمية. وفي التعلم الآلي، يحتوي الخط المتجه على خاصيتين:

  • نوع البيانات: عادةً ما تحتوي المتجهات في التعلم الآلي على أرقام نقاط عائمة.
  • عدد العناصر: هذا هو طول المتجه أو أبعاده.

على سبيل المثال، ضع في الاعتبار متّجه الميزة الذي يحتوي على ثمانية أرقام نقاط عائمة. طول أو بُعد هذا الخط المتجه للميزة هو ثمانية. لاحظ أن متجهات التعلم الآلي غالبًا ما يكون لها عدد كبير من الأبعاد.

يمكنك تمثيل العديد من أنواع المعلومات المختلفة كمتجه. مثال:

  • يمكن تمثيل أي موضع على سطح الأرض كمتجه ثنائي الأبعاد، حيث يكون أحد البعدين خط العرض والآخر خط الطول.
  • يمكن تمثيل الأسعار الحالية لكل سهم من بين 500 سهم كمتّجه 500 بُعد.
  • يمكن تمثيل توزيع الاحتمال على عدد محدود من الفئات كمتجه. على سبيل المثال، يمكن لنظام التصنيف متعدد الفئات الذي يتوقع أحد ألوان الإخراج الثلاثة (الأحمر أو الأخضر أو الأصفر) إخراج الخط المتجه (0.3, 0.2, 0.5) بما يعني P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

يمكن إنشاء المتجهات في تسلسل، وبالتالي، يمكن تمثيل مجموعة متنوعة من الوسائط المختلفة كمتجه واحد. تعمل بعض النماذج مباشرةً على تسلسل العديد من الترميزات الأحادية اللون.

تم تحسين المعالجات المتخصصة مثل وحدات معالجة الموتّرات لتنفيذ عمليات رياضية على المتجهات.

والمتّجه هو منظّم للترتيب الترتيب 1.

واط

خسارة "فاسيرشتاين"

إحدى وظائف الخسارة الشائعة الاستخدام في الشبكات الخادعة التوليدية، استنادًا إلى مسافة المحرك الأرضي بين توزيع البيانات التي يتم إنشاؤها والبيانات الحقيقية.

الوزن

#fundamentals

يشير ذلك المصطلح إلى قيمة يضربها النموذج في قيمة أخرى. التدريب هو عملية تحديد الأوزان المثالية للنموذج، الاستنتاج هو عملية استخدام تلك الأوزان المستفادة لإجراء تنبؤات.

المربعات الصغرى البديلة المرجحة (WALS)

#recsystems

يشير ذلك المصطلح إلى خوارزمية للحدّ من الدالة الموضوعية أثناء تحليل المصفوفة في أنظمة الاقتراح، ما يتيح خفض عدد الأمثلة غير المتوفّرة. يقلل WALS من الخطأ التربيعي المرجح بين المصفوفة الأصلية وإعادة الإنشاء عن طريق التبديل بين إصلاح تحليل الصفوف وتحلُّل الأعمدة. يمكن حل كل من هذه التحسينات من خلال استخدام المربعات الصغرى تحسين التحويل. للاطّلاع على التفاصيل، يُرجى مراجعة الدورة التدريبية حول أنظمة الاقتراحات.

المجموع المرجح

#fundamentals

مجموع كل قيم الإدخال ذات الصلة مضروبة بالتقديرات المقابلة لها. على سبيل المثال، لنفترض أنّ المدخلات ذات الصلة تتألف مما يلي:

قيمة الإدخال وزن الإدخال
2 -1.3
-1 0.6
3 0.4

وبالتالي يكون المجموع المرجح:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

المجموع المرجح هو وسيطة الإدخال لدالة تفعيل.

نموذج واسع

نموذج خطي يتضمّن عادةً العديد من ميزات الإدخال المتفرقة. نشير إليه باسم "واسع" لأنّ هذا النموذج هو نوع خاص من الشبكات العصبونية مع عدد كبير من المدخلات التي تتصل مباشرةً بعقدة الإخراج. غالبًا ما تكون النماذج الواسعة أسهل في تصحيح الأخطاء وفحصها مقارنةً بالنماذج التفصيلية. على الرغم من أنّ النماذج العريضة لا يمكنها التعبير عن الخطوط غير الخطية من خلال الطبقات المخفية، يمكن للنماذج الواسعة أن تستخدم تحوّلات مثل تداخل الميزات والتجميع لوضع نماذج للخطوط غير الخطية بطرق مختلفة.

تباين مع النموذج العميق.

العرض

عدد الخلايا العصبية في طبقة معيّنة من شبكة عصبية.

حكمة الجمهور

#df

فكرة أن متوسط آراء أو تقديرات مجموعة كبيرة من الأشخاص ("الجمهور") غالبًا ما ينتج عنها نتائج جيدة بشكل مدهش. على سبيل المثال، فكّر في لعبة يخمن فيها الأشخاص عدد حبوب البن المعبأة في وعاء كبير. على الرغم من أن معظم التخمينات الفردية ستكون غير دقيقة، إلا أن متوسط جميع التخمينات قد ثبت تجريبيًا أنه قريب بشكل مفاجئ من العدد الفعلي لحبوب الجيلي في الوعاء.

المجموعات هي تناظرية برمجية لحكمة الجمهور. حتى إذا قدمت النماذج الفردية تنبؤات غير دقيقة إلى حد كبير، فإن متوسط تنبؤات العديد من النماذج غالبًا ما ينتج عنه توقعات جيدة بشكل مدهش. على سبيل المثال، على الرغم من أنّ شجرة القرارات الفردية قد تتوقّع توقّعات سيئة، إلا أنّ مجموعة القرارات المتبّعة غالبًا ما تتوقّع نتائج جيدة جدًا.

تضمين الكلمات

#language

تمثيل كل كلمة في مجموعة كلمات ضمن متجه تضمين، أي تمثيل كل كلمة كمتجه لقيم النقطة العائمة بين 0.0 و1.0. الكلمات ذات المعاني المتشابهة لها تمثيلات أكثر تشابهًا من الكلمات ذات المعاني المختلفة. على سبيل المثال، قد يكون لكل من الجزر والكرفس والخيار أشكال متشابهة نسبيًا، وبالتالي ستكون مختلفة جدًا عن أشكال الطائرة والنظارات الشمسية ومعجون الأسنان.

X

الجبر الخطي المتسارع (XLA)

هي أداة مفتوحة المصدر لتعلُّم الآلة مخصّصة لوحدات معالجة الرسومات ووحدات المعالجة المركزية (CPU) ومسرِّعات تعلُّم الآلة.

يأخذ المحول البرمجي لـ XLA نماذج من أُطر عمل تعلُّم الآلة الشائعة مثل PyTorch وTensorFlow وJAX، ويُحسِّنها لتنفيذها بجودة عالية على الأنظمة الأساسية المختلفة للأجهزة، بما في ذلك وحدات معالجة الرسومات، ووحدات المعالجة المركزية (CPU)، مسرّعات تعلُّم الآلة.

Z

التعلّم بدون لقطات

يشير ذلك المصطلح إلى نوع من التدريب لتعلُّم الآلة يستنتج فيه النموذج توقّعًا لمهمة لم يتم تدريبه عليها تحديدًا. بعبارة أخرى، لم يتم توفير أمثلة للتدريب الخاص بالمهمة للنموذج، ولكن تم طلب استنتاج لهذه المهمة.

إرسال طلب بلقطة شاشة

#language
#generativeAI

طلب لا يقدّم مثالاً حول طريقة استجابة النموذج اللغوي الكبير مثال:

أجزاء من طلب واحد Notes
ما هي العملة الرسمية للبلد المحدّد؟ السؤال الذي تريد الإجابة عنه من خلال النموذج اللغوي الكبير
الهند: الاستعلام الفعلي.

قد يتجاوب النموذج اللغوي الكبير مع أيٍّ مما يلي:

  • روبية
  • INR
  • الروبية الهندية
  • الروبية
  • الروبية الهندية

جميع الإجابات صحيحة، على الرغم من أنك قد تفضل تنسيقًا معينًا.

قارِن بين المطالبة باللقطة صفرية والمصطلحات التالية:

تسوية الدرجة المعيارية

#fundamentals

يشير ذلك المصطلح إلى أسلوب scaling يستبدل قيمة feature الأولية بقيمة نقطة عائمة تمثِّل عدد الانحرافات المعيارية عن متوسّط هذه الميزة. على سبيل المثال، ضع في الاعتبار ميزة يبلغ متوسطها 800 وانحرافها المعياري 100. يوضح الجدول التالي كيف يمكن لتسوية الدرجة Z تعيين القيمة الأولية إلى الدرجة Z:

قيمة أساسية الدرجة المعيارية
800 0
950 +1.5
575 -2.25

ثم يتدرب نموذج التعلم الآلي على درجات Z لهذه الميزة بدلاً من القيم الأولية.