قد تكون بعض الميزات قيمًا منفصلة وليست تابعة للترتيب. وتشمل الأمثلة سلالات الكلاب أو الكلمات أو الرموز البريدية. تُعرَف هذه الميزات باسم فئوية وتُسمّى كل قيمة فئة. يمكنك تمثيل القيم الفئوية كسلاسل أو أرقام، ولكن لن تتمكن من مقارنة هذه الأرقام أو طرحها من بعضها البعض.
في كثير من الأحيان، عليك تمثيل الميزات التي تحتوي على قيم الأعداد الصحيحة كبيانات تصنيفية بدلاً من بيانات عددية. على سبيل المثال، ننصحك باستخدام ميزة رمز بريدي تكون فيها القيم أعدادًا صحيحة. في حال تمثيل هذه الميزة رقميًا عن طريق الخطأ، أنت تطلب من النموذج العثور على علاقة رقمية بين الرموز البريدية المختلفة، على سبيل المثال، تتوقع أن يحدّد النموذج أن الرمز البريدي 20004 هو ضعف (أو نصف) الإشارة كرمز بريدي 10002. ومن خلال تمثيل الرموز البريدية كبيانات تصنيفية، عليك تفعيل النموذج للعثور على إشارات منفصلة لكل رمز بريدي فردي.
إذا كان عدد فئات حقل البيانات صغيرًا، مثل يوم الأسبوع أو لوحة ألوان محدودة، يمكنك إنشاء ميزة فريدة لكل فئة. مثلاً:
الشكل 1: ميزة فريدة لكل فئة.
ويمكن عندئذٍ للنموذج معرفة وزن منفصل لكل لون. على سبيل المثال، يمكن أن يعرف النموذج أن السيارات الحمراء أغلى من السيارات الخضراء.
يمكن بعد ذلك فهرسة الميزات.
الشكل 2: الميزات المفهرسة.
ويُطلق على هذا النوع من الربط اسم المفردات.
مفردات
في المفردات، تمثّل كل قيمة ميزة فريدة.
Index Number | Category |
---|---|
0 | Red |
1 | Orange |
2 | Blue |
... | ... |
يبحث النموذج عن المؤشر من السلسلة، مع تخصيص 1.0 إلى الخانة المقابلة في متّجه الميزة و0.0 إلى جميع الخانات الأخرى في متّجه الميزة.
الشكل 3: العملية الشاملة لربط الفئات بالمتّجهين
ملاحظة حول التمثيل البسيط
إذا كانت فئاتك هي أيام الأسبوع، مثلاً، يمكن أن يمثّل يوم الجمعة متّجه الميزة [0، 0، 0، 0، 1، 0، 0]. ومع ذلك، ستمثّل معظم عمليات تنفيذ أنظمة تعلُّم الآلة هذا المتّجه في الذاكرة بتمثيل ضئيل. التمثيل المشترك هو قائمة من القيم غير الفارغة والمؤشرات المرتبطة بها، على سبيل المثال، 1.0 للقيمة و[4] للمؤشر. ويسمح لك ذلك بقضاء مساحة أقل من الذاكرة في تخزين كمية هائلة من 0 ثانية ويسمح بضرب مصفوفة أكثر كفاءة. من حيث الرياضيات، تكون [4] تساوي [0، 0، 0، 0، 1، 0، 0].
خارج نطاق Vocab (OOV)
مثلما تحتوي البيانات العددية على قيم شاذّة، كذلك هناك بيانات فئوية. على سبيل المثال، جرّب مجموعة بيانات تحتوي على أوصاف السيارات. يمكن أن تكون إحدى ميزات مجموعة البيانات هذه هي لون السيارة. لنفترض أن ألوان السيارة الشائعة (أسود، أبيض، رمادي، وما إلى ذلك) يجب تمثيلها جيدًا في مجموعة البيانات هذه، ثمّ جعلت كل لون منها في فئة لتتمكّن من معرفة مدى تأثير هذه الألوان المختلفة في القيمة. لنفترض أن مجموعة البيانات هذه تحتوي على عدد من السيارات الصغيرة ذات الألوان الغريبة (الموون والحليب والأفوكادو). وبدلاً من منح كل لون من هذه الألوان فئة منفصلة، يمكنك تجميعها في فئة استقبال الرسائل الخاطئة التي تُسمى خارج خارج Vocab (OOV). وباستخدام OOV، لن يضيّع النظام الوقت في التدريب على كل من هذه الألوان النادرة.
التجزئة
ويمكنك أيضًا تجزئة كل سلسلة (فئة) إلى مساحة الفهرسة المتاحة. كثيرًا ما تتسبب التجزئة في حدوث تصادمات، ولكنك تعتمد على النموذج الذي تعرّف على بعض التمثيل المشترك للفئات في الفهرس نفسه الذي يعمل بشكلٍ جيد مع المشكلة المحددة.
بالنسبة إلى المصطلحات المهمة، يمكن أن تكون التجزئة أسوأ من اختيار مفردات، بسبب تعارضات. من ناحية أخرى، لا تتطلّب التجزئة منك تجميع مفردات، ما يُعدّ مفيدًا إذا تغيّر توزيع الميزات بشكل كبير بمرور الوقت.
الشكل 4: ربط العناصر بمفردات
مختلطة من التجزئة والمفردات
يمكنك اتّباع نهج مختلط ودمج التجزئة مع مفردات. يمكنك استخدام مفردات للفئات الأكثر أهمية في بياناتك، ولكن يمكنك استبدال مجموعة حزم OOV بعدة مجموعات OOV، واستخدام التجزئة لتخصيص الفئات لحزم البيانات.
يجب أن تشارك الفئات في حِزم التجزئة فهرسًا، ومن المحتمل ألا يقدّم النموذج توقّعات جيدة، ولكننا خصّصنا جزءًا من الذاكرة لمحاولة معرفة الفئات خارج مفرداتنا.
الشكل 5: أسلوب مختلط يجمع بين المصطلحات والتجزئة.
ملاحظة حول التضمينات
تذكّر من خلال الدورة التدريبية لتعلّم الآلة أنّ التضمين هو ميزة تصنيفية تمثّل ميزة مستمرة. وكثيرًا ما تحوّل النماذج العميقة المؤشرات من فهرس إلى عملية تضمين.
الشكل 6: متّجهات متفرقة من خلال تضمين
يمكن تخزين التغييرات الأخرى التي ناقشناها على القرص، ولكن التضمينات مختلفة. بما أنّ عمليات التضمين ليست تدريبًا عمليًّا على البيانات، فهي ليست جزءًا من النموذج. يتم تدريبها على استخدام أوزان النماذج الأخرى، وتُعتبر موازية لطبقة من الأوزان.
ماذا عن التضمينات المدرّبة مسبقًا؟ لا تزال عمليات التضمين المضمّنة مسبقًا قابلة للتعديل أثناء التدريب، لذا لا تزال جزءًا من نموذجيًا.