مسرد مصطلحات التعلم الآلي: نماذج الصور

تحتوي هذه الصفحة على مصطلحات مسرد مصطلحات نماذج الصور. للاطّلاع على جميع مصطلحات مسرد المصطلحات، انقر هنا.

جيم

الواقع المعزّز

#image

يشير ذلك المصطلح إلى تكنولوجيا تتراكب مع صورة يتم إنشاؤها باستخدام الكمبيوتر من خلال رؤية المستخدم للعالم الواقعي، وتوفّر بالتالي عرضًا مركّبًا.

برنامج الترميز التلقائي

#language
#image

نظام يتعلم استخراج أهم المعلومات من المدخلات. تجمع برامج الترميز التلقائية بين برنامج ترميز وبرنامج فك الترميز. تعتمد برامج الترميز التلقائي على العملية التالية المكونة من خطوتَين:

  1. يعيّن برنامج الترميز المدخلات (عادةً) بتنسيق منخفض الأبعاد (متوسط) مع فقدان البيانات.
  2. ينشئ برنامج فك الترميز نسخة مفقودة من المدخل الأصلي عن طريق ربط التنسيق المنخفض الأبعاد بتنسيق الإدخال الأصلي ذات الأبعاد الأعلى.

يتم تدريب برامج الترميز التلقائية بشكل تام من خلال محاولة برنامج فك الترميز لإعادة إنشاء المدخل الأصلي من التنسيق المتوسط لبرنامج الترميز بأقرب شكل ممكن. بما أنّ التنسيق المتوسط أصغر (أقل أبعادًا) من التنسيق الأصلي، يصبح برنامج الترميز التلقائي مضطرًا إلى التعرّف على المعلومات الضرورية الواردة في المدخل، ولن يكون المُخرج مطابقًا تمامًا للمُدخل.

مثال:

  • إذا كانت بيانات الإدخال رسمًا، فإن النسخة غير الدقيقة ستكون مشابهة للرسم الأصلي، ولكن تم تعديلها إلى حد ما. ربما تزيل النسخة غير الدقيقة التشويش من الرسم الأصلي أو تملأ بعض وحدات البكسل المفقودة.
  • إذا كانت بيانات الإدخال نصية، فسينشئ برنامج الترميز التلقائي نصًا جديدًا يحاكي النص الأصلي (ولكنه ليس مطابقًا له).

راجِع أيضًا برامج الترميز التلقائية المختلفة.

نموذج الانحدار التلقائي

#language
#image
#generativeAI

model يستنتج توقعًا بناءً على تنبؤاته السابقة. على سبيل المثال، تتوقّع نماذج اللغة الانحدارية التلقائي الرمز المميّز التالي استنادًا إلى الرموز المميّزة التي كان توقّعها سابقًا. وتعتمد جميع نماذج المحول على النماذج اللغوية الكبيرة المستندة إلى الانحدار التلقائي.

وفي المقابل، لا تتبع نماذج الصور المستندة إلى GAN انحدارًا تلقائيًا لأنها تنشئ صورة في تمريرة أمامية واحدة وليس تكرارًا على خطوات. مع ذلك، تتراجعبعض نماذج إنشاء الصور تلقائيًا لأنّها تنشئ صورًا بخطوات.

B

مربّع الحدود

#image

في إحدى الصور، الإحداثيات (x وy) لمستطيل حول منطقة اهتمام، مثل الكلب في الصورة أدناه.

صورة كلب يجلس على أريكة. يحيط مربع إحاطة أخضر
          يحتوي على إحداثيات في أعلى اليسار للرمز (275، 1271) وإحداثيات أسفل يمين (2954، 2761) بجسم الكلب

C

التفاف

#image

في الرياضيات، يرمز إلى مزيج من دالّتين. في التعلّم الآلي، يمزج الالتفاف بين الفلتر الالتفافي ومصفوفة الإدخال من أجل تدريب القيم المرجحة.

غالبًا ما يكون مصطلح "الالتفاف" في التعلّم الآلي طريقة مختصرة للإشارة إلى العملية الالتفافية أو الطبقة الالتفافية.

بدون الالتفاف، سيتعين على خوارزمية التعلم الآلي تعلُّم وزن منفصل لكل خلية في م نطاق كبير. على سبيل المثال، ستضطر خوارزمية التعلم الآلي التي تتدرب على صور بدقة 2K x 2K إلى إيجاد ترجيحات منفصلة بحجم 4 أمتار. وبفضل الالتفافات، تحتاج خوارزمية التعلّم الآلي فقط إلى إيجاد القيم التقديرية لكل خلية في الفلتر الالتفافي، ما يقلّل بشكل كبير من الذاكرة اللازمة لتدريب النموذج. عند تطبيق عامل التصفية الالتفافي، يتم نسخه ببساطة عبر الخلايا بحيث يتم ضرب كل منها في عامل التصفية.

فلتر التفافي

#image

أحد الممثلين في عملية التفافية. (الممثل الآخر هو شريحة من مصفوفة الإدخال.) الفلتر الالتفافي هو مصفوفة لها الترتيب نفسه في مصفوفة الإدخال، ولكنها شكل أصغر. على سبيل المثال، وفقًا لمصفوفة إدخال 28x28، يمكن أن يكون الفلتر أي مصفوفة ثنائية الأبعاد أصغر من 28x28.

في المعالجة الفوتوغرافية، يتم عادةً ضبط جميع الخلايا في عامل تصفية التفافي على نمط ثابت يتكون من الآحاد والأصفار. في التعلّم الآلي، عادةً ما تظهر الفلاتر الالتفافية بأرقام عشوائية ثم القيم المثالية على تدريب الشبكة.

طبقة التفافية

#image

طبقة من الشبكة العصبية العميقة يتم فيها تمرير فلتر التفافي على مصفوفة الإدخال. على سبيل المثال، ضع في الاعتبار الفلتر الالتفافي 3×3 التالي:

مصفوفة 3×3 تتضمّن القيم التالية: [[0,1,0]، [1,0,1]، [0,1,0]]

تُظهر الصورة المتحركة التالية طبقة التفافية تتكون من 9 عمليات التفافية تشمل مصفوفة إدخال 5×5. لاحظ أن كل عملية التفافية تعمل على شريحة 3×3 مختلفة من مصفوفة الإدخال. وتتكون مصفوفة 3×3 الناتجة (على اليمين) من نتائج العمليات الالتفافية التسع:

صورة متحركة تعرض مصفوفتين. المصفوفة الأولى هي المصفوفة 5×5: [[128,97,53,201,198], [35,22,25,200,195],
 [37,24,28,197,182], [33,28,92,195,101,9], [.
          والمصفوفة الثانية هي مصفوفة 3×3:
          [[181,303,618]، [115,338,605]، [169,351,560]].
          يتم احتساب المصفوفة الثانية من خلال تطبيق الفلتر الالتفافي [[0، 1، 0]، [1، 0، 1]، [0، 1، 0]] على
 المجموعات الفرعية المختلفة 3×3 في مصفوفة 5×5.

شبكة عصبية التفافية

#image

شبكة عصبية تكون فيها طبقة واحدة على الأقل طبقة التفافية. تتكون الشبكة العصبية الالتفافية النموذجية من مجموعة من الطبقات التالية:

حققت الشبكات العصبية الالتفافية نجاحًا كبيرًا في أنواع معيّنة من المشاكل، مثل التعرّف على الصور.

عملية التفافية

#image

العملية الرياضية التالية المكونة من خطوتين:

  1. يشير ذلك إلى ضرب الفلتر الالتفافي وشريحة من مصفوفة الإدخال. (لشريحة مصفوفة الإدخال نفس الترتيب والحجم مثل الفلتر الالتفافي).
  2. مجموع كل القيم في مصفوفة المنتج الناتجة.

على سبيل المثال، ضع في الاعتبار مصفوفة إدخال 5×5 التالية:

مصفوفة 5×5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [21,910]

تخيل الآن عامل التصفية الالتفافي 2×2 التالي:

مصفوفة 2×2: [[1، 0]، [0، 1]]

وتضم كل عملية التفافية شريحة واحدة 2×2 من مصفوفة الإدخال. على سبيل المثال، لنفترض أننا نستخدم شريحة 2×2 في الجزء العلوي الأيسر من مصفوفة الإدخال. إذن، تبدو عملية الالتفاف في هذه الشريحة على النحو التالي:

تطبيق الفلتر الالتفافي [[1, 0] و[0, 1]] على القسم 2×2 أعلى اليسار من مصفوفة الإدخال، وهو [[128,97]، [35,22]].
          يترك الفلتر الالتفافي العمودين 128 و22 بدون تغيير، لكنّه ينتج عنه أصفار
 و97 و35. وبالتالي، يكون لعملية الالتفاف القيمة 150 (128+22).

تتكون الطبقة الالتفافية من سلسلة من العمليات الالتفافية، وتعمل كل منها على شريحة مختلفة من مصفوفة الإدخال.

D

زيادة البيانات

#image

تعزيز نطاق أمثلة التدريب بشكل مصطنع عن طريق تحويل الأمثلة الحالية لإنشاء أمثلة إضافية على سبيل المثال، افترض أنّ الصور هي إحدى الميزات، لكن مجموعة البيانات لا تحتوي على أمثلة كافية عن الصور للنموذج من أجل معرفة الارتباطات المفيدة. يُنصح بإضافة عدد كافٍ من الصور المصنَّفة إلى مجموعة البيانات للسماح بتدريب نموذجك بشكل صحيح. وإذا لم يكن ذلك ممكنًا، يمكن لميزة زيادة البيانات تدوير كل صورة وتوسيعها وعكسها لإنشاء العديد من المتغيرات للصورة الأصلية، ما قد ينتج عنه بيانات مصنفة كافية لتوفير تدريب ممتاز.

الشبكة العصبية الالتفافية القابلة للفصل بشكل عمق (sepCNN)

#image

يشير هذا المصطلح إلى بنية الشبكة العصبونية الالتفافية استنادًا إلى Inception، ولكن يتم فيها استبدال وحدات Inception بلفّات يمكن الفصل بينها بعمق. وتُعرف أيضًا باسم Xception.

يعمل اللفائف القابلة للفصل بعمق مضاعفة (ويُختصر أيضًا على أنه التفاف قابل للفصل) في إنشاء عمليتَي التفاف منفصلتين أكثر كفاءة من الناحية الحسابية: أولًا، التفاف حكيم بعمق 1 (ن مضاعفة مضاعفة مرة)، ثم ثانية، التفاف طولي 1 (وعرض نقطة 1)

للمزيد من المعلومات، يمكنك الاطّلاع على مقالة Xception: Deep Learning with Depthwise Separable Convolutions.

تصغير نطاق العيّنات

#image

مصطلح محمَّل فوق الحد الأقصى يمكن أن يعني أيًا مما يلي:

  • تقليل كم المعلومات في ميزة من أجل تدريب نموذج أكثر كفاءة. على سبيل المثال، قبل التدريب على نموذج التعرف على الصور، قم بتقليل عيّنات الصور العالية الدقة إلى تنسيق أقل دقة.
  • التدريب على نسبة منخفضة غير متناسبة من أمثلة الصفوف ذات التمثيل الزائد لتحسين تدريب النموذج على الفئات محدودة التمثيل. على سبيل المثال، في مجموعة البيانات غير المتوازنة، تميل النماذج إلى تعلّم الكثير عن فئة الأغلبية ولا تعرِف معلومات كافية عن فئة الأقليات. يساعد تضييق نطاق العينات في تحقيق التوازن بين مقدار التدريب على فصول الأغلبية والأقليات.

F

توليف دقيق

#language
#image
#generativeAI

يشير ذلك المصطلح إلى بطاقة تدريبية ثانية خاصة بمهمة يتم إجراؤها على نموذج مدرّب مسبقًا لتحسين معلَماته المتعلّقة بحالة استخدام معيّنة. على سبيل المثال، في ما يلي خطوات التدريب الكامل لبعض النماذج اللغوية الكبيرة:

  1. تدريب مسبق: يمكنك تدريب نموذج لغوي كبير على مجموعة بيانات عامة واسعة، مثل جميع صفحات ويكيبيديا باللغة الإنجليزية.
  2. تحسين الأداء: يمكنك تدريب النموذج المدرَّب مسبقًا لتنفيذ مهمة محدّدة، مثل الردّ على الطلبات الطبية. يتضمن الضبط الدقيق عادةً مئات أو آلاف الأمثلة التي تركز على مهمة محددة.

مثال آخر، يكون تسلسل التدريب الكامل لنموذج الصور الكبيرة على النحو التالي:

  1. تدريب مسبق: يمكنك تدريب نموذج صورة كبير على مجموعة بيانات صور عامة واسعة، مثل جميع الصور في Wikimediacommons.
  2. الضبط الدقيق: يمكنك تدريب النموذج المدرَّب مسبقًا لأداء مهمة محددة، مثل إنشاء صور حوت أوركا.

يمكن أن يستلزم الضبط الدقيق مجموعة من الإستراتيجيات التالية:

  • تعديل جميع المَعلمات الحالية للنموذج المدرَّب مسبقًا. وهذا ما يسمى أحيانًا بالضبط الدقيق.
  • تعديل بعض المَعلمات الحالية فقط في النموذج المدرَّب مسبقًا (عادةً الطبقات الأقرب إلى طبقة الإخراج)، مع الإبقاء على المَعلمات الحالية الأخرى بدون تغيير (عادةً ما تكون الطبقات الأقرب إلى طبقة الإدخال). اطّلِع على ضبط فعّال للمعلَمات.
  • إضافة المزيد من الطبقات، عادةً فوق الطبقات الحالية الأقرب إلى طبقة الإخراج.

الضبط الدقيق هو شكل من أشكال نقل المحتوى. بناءً على ذلك، قد يستخدم الضبط الدقيق دالة خسارة مختلفة أو نوع نموذج مختلف عن تلك المستخدمة لتدريب النموذج المدرَّب مسبقًا. على سبيل المثال، يمكنك ضبط نموذج صورة كبير مدرب مسبقًا لإنتاج نموذج انحدار يعرض عدد الطيور في صورة إدخال.

قارِن بين الضبط الدقيق والمصطلحات التالية:

G

الذكاء الاصطناعي التوليدي

#language
#image
#generativeAI

هو حقل تحويلي صاعد بدون تعريف رسمي. يتفق معظم الخبراء على أنّ نماذج الذكاء الاصطناعي التوليدي يمكنها إنشاء ("إنشاء") محتوى ينطبق عليه كل ما يلي:

  • معقد
  • متماسك
  • الصورة الأصلية

على سبيل المثال، يمكن لنموذج الذكاء الاصطناعي التوليدي إنشاء مقالات أو صور معقدة.

يمكن أيضًا لبعض التكنولوجيات السابقة، بما في ذلك LSTMs وRNN، إنشاء محتوى أصلي ومتّسق. ينظر بعض الخبراء إلى هذه التكنولوجيات السابقة على أنّها الذكاء الاصطناعي التوليدي، بينما يشعر البعض الآخر أنّ الذكاء الاصطناعي التوليدي الحقيقي يتطلب نتائج أكثر تعقيدًا من تلك التي يمكن أن تنتجها التكنولوجيات السابقة.

تتعارض مع تعلُّم الآلة القائم على التوقّعات.

I

التعرّف على الصورة

#image

يشير ذلك المصطلح إلى عملية تصنّف العناصر أو الأنماط أو المفاهيم في إحدى الصور. ويُعرف التعرّف على الصور أيضًا باسم تصنيف الصور.

لمزيد من المعلومات، يُرجى الاطّلاع على مقالة تدريب تعلُّم الآلة: تصنيف الصور.

تقاطع عبر الاتحاد (IoU)

#image

يشير ذلك المصطلح إلى التقاطع بين مجموعتَين مقسومًا على اتحادهما. وفي مهام رصد الصور المستنِدة إلى تعلُّم الآلة، يتم استخدام وحدة IoU لقياس دقة مربّع الحدود المتوقّع للنموذج في ما يتعلق بمربّع حدود الحقيقة الأساسية. في هذه الحالة، يكون وحدة IoU للمربعين هي النسبة بين مساحة التداخل والمنطقة الإجمالية، وتتراوح قيمتها من 0 (لا يوجد تداخل بين مربع الحدود المتوقع ومربع حدود الحقيقة الأرضية) إلى 1 (مربع الحدود المتوقع ومربع حدود الحقيقة الأرضية لهما الإحداثيات نفسها).

على سبيل المثال، في الصورة أدناه:

  • يتم تحديد مربع الحدود المتنبأ به (الإحداثيات التي تحدد المكان الذي يتنبأ فيه النموذج بوجود الطاولة الليلية في اللوحة) باللون الأرجواني.
  • يتم تحديد مربع حدود الحقيقة (الإحداثيات التي تحدد مكان وجود الطاولة الليلية في اللوحة) باللون الأخضر.

لوحة "فان غوخ" لغرفة نوم "فنسنت" في "آرليس" مع مربعَين مختلفَين حول الطاولة الليلية بجانب السرير. ويحيط المربّع الخاص بحدود الحقيقة (باللون الأخضر) على الطاولة الليلية بشكل مثالي. يحاكي مربّع الحدود المتوقَّع (باللون البنفسجي) بنسبة% 50 إلى أسفل وعلى يمين
 مربّع حدود الحقيقة، وهو يضمّ الربع السفلي الأيمن
 من الجدول الليلي، لكنّه يفتقد إلى باقي الجدول.

هنا، يساوي تقاطع مربّعات الحدود للتنبؤ وحقيقة الأرض (أسفل اليسار) 1، واتحاد مربعات الحدود للتنبؤ وحقيقة الأرض (أسفل اليمين) يساوي 7، وبالتالي فإن IoU يساوي \(\frac{1}{7}\).

الصورة نفسها كما هو موضح أعلاه، ولكن مع تقسيم كل مربع حدود إلى أربعة أرباع. ويكون الإجمالي هو سبعة أرباع، حيث يتداخل الربع السفلي الأيمن
 من مربّع حدود الحقيقة الأرضية والربع العلوي الأيسر
 لمربّع الحدود المتوقَّع. يمثّل هذا القسم المتداخل (المميّز باللون الأخضر) التقاطع، ومساحة العرض 1. الصورة نفسها كما هو موضح أعلاه، ولكن مع تقسيم كل مربع حدود إلى أربعة أرباع. ويكون الإجمالي هو سبعة أرباع، حيث يتداخل الربع السفلي الأيمن
 من مربّع حدود الحقيقة الأرضية والربع العلوي الأيسر
 لمربّع الحدود المتوقَّع.
          ويمثّل الجزء الداخلي بأكمله المحاط بمربّعات محيطة (مميّز باللون الأخضر) الوحدة الاتحادية، ويحتوي على 7 مساحة.

K

نقاط رئيسية

#image

إحداثيات ميزات معيّنة في الصورة. على سبيل المثال، إذا أردت استخدام نموذج التعرّف على الصور الذي يميّز أنواع الزهور، قد تكون النقاط الرئيسية هي مركز كل بتلة أو ساق أو سداة، وهكذا.

L

معالم

#image

مرادف نقاط رئيسية.

ن

المعهد الوطني للمعايير والتكنولوجيا (MNIST)

#image

مجموعة بيانات في النطاق العام تم جمعها من قبل LeCun وCortes وBurges تحتوي على 60,000 صورة، وتوضح كل صورة كيف كتب الإنسان يدويًا رقمًا معيّنًا من 0 إلى 9. يتم تخزين كل صورة كصفيف من الأعداد الصحيحة بحجم 28×28، حيث يكون كل عدد صحيح عبارة عن قيمة تدرّج رمادي بين 0 و255، بشكل شامل.

تُعدّ MNIST مجموعة بيانات أساسية لتعلُّم الآلة، وغالبًا ما تُستخدم لاختبار أساليب تعلُّم الآلة الجديدة. للحصول على التفاصيل، راجِع قاعدة بيانات MNIST للأرقام المكتوبة بخط اليد.

P

تجميع

#image

اختزال المصفوفة (أو المصفوفات) التي تم إنشاؤها بواسطة طبقة التفافية سابقة إلى مصفوفة أصغر. عادة ما يتضمن التجميع أخذ إما القيمة القصوى أو المتوسطة عبر المنطقة المجمّعة. على سبيل المثال، لنفترض أن لدينا مصفوفة 3×3 التالية:

مصفوفة 3×3 [[5،3,1]، [8،2،5]، [9،4،3]].

تعمل عملية التجميع، تمامًا مثل العملية الالتفافية، على تقسيم تلك المصفوفة إلى شرائح ثم شرائح تلك العملية الالتفافية على خطوات. على سبيل المثال، لنفترض أن عملية التجميع تقسم المصفوفة الالتفافية إلى شرائح 2×2 بخطوة 1×1. وكما يوضِّح الرسم البياني التالي، تحدث أربع عمليات تجميع. تخيل أن كل عملية تجميع تختار القيمة القصوى للأربعة في تلك الشريحة:

وتكون مصفوفة الإدخال هي 3×3 والقيم التالية: [[5,3,1]، [8,2,5]، [9,4,3]].
          المصفوفة الفرعية أعلى اليسار 2×2 لمصفوفة الإدخال هي [[5,3] و[8,2]]، وبالتالي ينتج عن عملية التجميع في أعلى اليسار القيمة 8 (وهي
 الحد الأقصى البالغ 5 و3 و8 و2). المصفوفة الفرعية أعلى اليمين 2x2 لمصفوفة الإدخال هي [[3,1] و[2,5]]، وبالتالي ينتج عن عملية التجميع في أعلى اليمين القيمة 5. المصفوفة الفرعية أسفل اليسار 2×2 لمصفوفة الإدخال هي [[8,2] و[9,4]]، وبالتالي ينتج عن عملية التجميع أسفل اليسار القيمة 9. المصفوفة الفرعية 2x2 أسفل اليمين لمصفوفة الإدخال هي
          [[2,5]، [4,3]]، وبالتالي ينتج عن عملية التجميع في أسفل اليمين القيمة
          5. باختصار، يُنتج عن عملية التجميع مصفوفة 2×2
          [[8،5]، [9،5]].

يساعد التجميع في فرض التباين الترجمةي في مصفوفة الإدخال.

وتُعرف عملية التجميع لتطبيقات الرؤية بشكل رسمي أكثر باسم التجميع المكاني. تشير تطبيقات السلسلة الزمنية عادةً إلى التجميع باسم التجميع المؤقت. بشكل أقل رسمية، يُعرف التجميع باسم أخذ العينات أو تقليل العيّنات.

نموذج مدرَّب مسبقًا

#language
#image
#generativeAI

النماذج أو مكوّنات النماذج (مثل متّجه التضمين) الذي سبق أن تم تدريبه في بعض الأحيان، يتم تغذية متّجهات تضمين مدربة مسبقًا في شبكة عصبية. في أحيان أخرى، سيقوم النموذج الخاص بك بتدريب متجهات التضمين نفسها بدلاً من الاعتماد على التضمينات المدرّبة مسبقًا.

يشير مصطلح نموذج لغوي مدرّب مسبقًا إلى نموذج لغوي كبير خضع لتدريب مسبق.

التدريب المُسبَق

#language
#image
#generativeAI

يشير ذلك المصطلح إلى التدريب الأولي على مجموعة بيانات كبيرة ضِمن نموذج معيّن. بعض النماذج المدرّبة مسبقًا هي نماذج عملاقة أخرق يجب تحسينها عادةً من خلال تدريب إضافي. على سبيل المثال، قد يدرّب خبراء تعلُّم الآلة مسبقًا نموذجًا لغويًا كبيرًا على مجموعة بيانات نصية كبيرة، مثل جميع الصفحات الإنجليزية في ويكيبيديا. وبعد التدريب المسبق، يمكن تحسين النموذج الناتج بشكل أكبر من خلال أي من الأساليب التالية:

R

الثبات الدوراني

#image

في إحدى مشكلات تصنيف الصور، يشير ذلك المصطلح إلى قدرة الخوارزمية على تصنيف الصور بنجاح حتى عندما يتغيّر اتجاهها. على سبيل المثال، لا يزال بإمكان الخوارزمية تحديد مضرب التنس سواء كان متجهًا لأعلى أو جانبًا أو لأسفل. لاحظ أن الثبات الدوراني لا يكون مرغوبًا فيه دائمًا؛ على سبيل المثال، لا يجب تصنيف رقم 9 المقلوب على أنه 9.

يمكنك أيضًا الاطّلاع على الثبات الترجمة والثغرة الترجمة.

S

الثبات الحجمي

#image

في إحدى مشكلات تصنيف الصور، يشير ذلك المصطلح إلى قدرة الخوارزمية على تصنيف الصور بنجاح حتى عندما يتغيّر حجم الصورة. على سبيل المثال، لا يزال بإمكان الخوارزمية تحديد قطة سواء كانت تستهلك 2 ميغا بكسل أو 200 ألف بكسل. تجدر الإشارة إلى أنّه حتى أفضل خوارزميات تصنيف الصور لا تزال لديها حدود عملية على تباين الحجم. على سبيل المثال، من غير المحتمل أن تصنف خوارزمية (أو إنسان) بشكل صحيح صورة قطة لا يتجاوز طولها 20 بكسل.

يمكنك الاطّلاع أيضًا على الثبات الترجمة والثبات الدوراني.

التجميع المكاني

#image

يمكنك الاطّلاع على تجميع البيانات.

خطوة

#image

في العملية الالتفافية أو التجميع، تشير الدلتا في كل بُعد من السلسلة التالية من شرائح الإدخال. على سبيل المثال، توضح الرسوم المتحركة التالية خطوة (1,1) أثناء العملية الالتفافية. لذلك، تبدأ شريحة الإدخال التالية موضعًا واحدًا على يمين شريحة الإدخال السابقة. عندما تصل العملية إلى الحافة اليمنى، تكون الشريحة التالية في أقصى اليسار بموضع واحد لأسفل.

مصفوفة إدخال 5×5 وفلتر التفافي 3×3. بما أنّ مقدار المقدار الموسّع (1،1)، سيتم تطبيق فلتر التفافي 9 مرات. تقيّم الشريحة الالتفافية الأولى المصفوفة الفرعية 3×3 في أعلى اليسار لمصفوفة الإدخال. تقيّم الشريحة الثانية المصفوفة الفرعية 3×3 العلوية في المنتصف. تقيّم الشريحة الالتفافية الثالثة المصفوفة الفرعية بحجم 3×3 في أعلى يمين الشاشة.  تقيّم الشريحة الرابعة المصفوفة الفرعية 3×3 في منتصف اليسار.
     تقيّم الشريحة الخامسة المصفوفة الفرعية الوسطى 3×3. تقيِّم الشريحة السادسة المصفوفة الفرعية 3×3 في منتصف اليمين. تقيّم الشريحة السابعة المصفوفة الفرعية 3×3 أسفل اليسار.  تقيّم الشريحة الثامنة المصفوفة الفرعية 3×3 أسفل المنتصف. تقيّم الشريحة التاسعة المصفوفة الفرعية 3×3 أسفل اليمين.

يوضح المثال السابق خطوة ثنائية الأبعاد. إذا كانت مصفوفة الإدخال ثلاثية الأبعاد، فستكون الخطوة ثلاثية الأبعاد أيضًا.

جمع عيّنات فرعية

#image

يمكنك الاطّلاع على تجميع البيانات.

T

درجة الحرارة

#language
#image
#generativeAI

معلَمة فائقة تتحكّم في درجة العشوائية لناتج النموذج. تؤدي درجات الحرارة الأعلى إلى ناتج عشوائي أكثر، بينما تؤدي درجات الحرارة المنخفضة إلى ناتج عشوائي أقل.

يعتمد اختيار أفضل درجة حرارة على التطبيق المحدد والخصائص المفضلة لناتج النموذج. على سبيل المثال، من المحتمل أن ترفع درجة الحرارة عند إنشاء تطبيق ينشئ مخرجات إبداعية. والعكس صحيح، من المحتمل أن تقلل درجة الحرارة عند إنشاء نموذج يصنف الصور أو النصوص من أجل تحسين دقة النموذج واتساقه.

غالبًا ما تُستخدَم درجة الحرارة مع softmax.

الثبات الانتقالي

#image

في إحدى مشكلات تصنيف الصور، يشير ذلك المصطلح إلى قدرة الخوارزمية على تصنيف الصور بنجاح حتى عندما يتغيّر موضع العناصر داخل الصورة. على سبيل المثال، لا يزال بإمكان الخوارزمية تحديد كلب، سواء كان في منتصف الإطار أو في الطرف الأيسر منه.

يمكنك الاطّلاع أيضًا على ثابت الحجم والثبات الدوراني.