تحويل البيانات القاطعة

قد تكون بعض الميزات قيمًا منفصلة وليست تابعة للترتيب. وتشمل الأمثلة سلالات الكلاب أو الكلمات أو الرموز البريدية. تُعرَف هذه الميزات باسم فئوية وتُسمّى كل قيمة فئة. يمكنك تمثيل القيم الفئوية كسلاسل أو أرقام، ولكن لن تتمكن من مقارنة هذه الأرقام أو طرحها من بعضها البعض.

في كثير من الأحيان، عليك تمثيل الميزات التي تحتوي على قيم الأعداد الصحيحة كبيانات تصنيفية بدلاً من بيانات عددية. على سبيل المثال، ننصحك باستخدام ميزة رمز بريدي تكون فيها القيم أعدادًا صحيحة. في حال تمثيل هذه الميزة رقميًا عن طريق الخطأ، أنت تطلب من النموذج العثور على علاقة رقمية بين الرموز البريدية المختلفة، على سبيل المثال، تتوقع أن يحدّد النموذج أن الرمز البريدي 20004 هو ضعف (أو نصف) الإشارة كرمز بريدي 10002. ومن خلال تمثيل الرموز البريدية كبيانات تصنيفية، عليك تفعيل النموذج للعثور على إشارات منفصلة لكل رمز بريدي فردي.

إذا كان عدد فئات حقل البيانات صغيرًا، مثل يوم الأسبوع أو لوحة ألوان محدودة، يمكنك إنشاء ميزة فريدة لكل فئة. مثلاً:

ويتم تمثيل كل لون في اللوحة كميزة منفصلة.
بمعنى أنه كل لون هو ميزة منفصلة في متّجه الميزة.
على سبيل المثال، اللون الأحمر هو ميزة، والبرتقالي هو ميزة منفصلة، وهكذا. الشكل 1: ميزة فريدة لكل فئة.

 

ويمكن عندئذٍ للنموذج معرفة وزن منفصل لكل لون. على سبيل المثال، يمكن أن يعرف النموذج أن السيارات الحمراء أغلى من السيارات الخضراء.

يمكن بعد ذلك فهرسة الميزات.

ينتمي كل لون في اللوحة الآن إلى الميزة نفسها. 
وهذا يعني أن اللون أصبح الآن ميزة واحدة في متّجه الميزة.
وكل لون له قيمة فريدة. على سبيل المثال، يحتوي اللون الأحمر على القيمة 0، والبرتقالي يحتوي على القيمة 1، وهكذا. الشكل 2: الميزات المفهرسة.

 

ويُطلق على هذا النوع من الربط اسم المفردات.

مفردات

في المفردات، تمثّل كل قيمة ميزة فريدة.

Index NumberCategory
0Red
1Orange
2Blue
......

يبحث النموذج عن المؤشر من السلسلة، مع تخصيص 1.0 إلى الخانة المقابلة في متّجه الميزة و0.0 إلى جميع الخانات الأخرى في متّجه الميزة.

مخطّط لعملية الدمج التام بين الفئات لتحديد المتّجهَين.
في الرسم البياني، تظهر سمات الإدخال باللون الأصفر والبرتقالي والأزرق والأزرق. يستخدم النظام مفردات مخزّنة (اللون الأحمر هو 0،
والبرتقالي هو 1، والأزرق هو 2، والأصفر هو 3، وما إلى ذلك) لربط قيمة الإدخال
برقم تعريف. وبالتالي، يتم ربط النظام باللون الأصفر أو البرتقالي أو الأزرق أو الأزرق إلى 3 أو 1 أو 2 أو 2. بعد ذلك، يحوّل النظام هذه القيم إلى متّجه ميزة واحد. على سبيل المثال،
نظرًا إلى نظام يتضمن سبعة ألوان محتملة، يصبح الثلاثة 0.0 أو 0.0 أو 0.0 أو 1.0 أو 0.0 أو
0.0 أو 0.0. الشكل 3: العملية الشاملة لربط الفئات بالمتّجهين

ملاحظة حول التمثيل البسيط

إذا كانت فئاتك هي أيام الأسبوع، مثلاً، يمكن أن يمثّل يوم الجمعة متّجه الميزة [0، 0، 0، 0، 1، 0، 0]. ومع ذلك، ستمثّل معظم عمليات تنفيذ أنظمة تعلُّم الآلة هذا المتّجه في الذاكرة بتمثيل ضئيل. التمثيل المشترك هو قائمة من القيم غير الفارغة والمؤشرات المرتبطة بها، على سبيل المثال، 1.0 للقيمة و[4] للمؤشر. ويسمح لك ذلك بقضاء مساحة أقل من الذاكرة في تخزين كمية هائلة من 0 ثانية ويسمح بضرب مصفوفة أكثر كفاءة. من حيث الرياضيات، تكون [4] تساوي [0، 0، 0، 0، 1، 0، 0].

خارج نطاق Vocab (OOV)

مثلما تحتوي البيانات العددية على قيم شاذّة، كذلك هناك بيانات فئوية. على سبيل المثال، جرّب مجموعة بيانات تحتوي على أوصاف السيارات. يمكن أن تكون إحدى ميزات مجموعة البيانات هذه هي لون السيارة. لنفترض أن ألوان السيارة الشائعة (أسود، أبيض، رمادي، وما إلى ذلك) يجب تمثيلها جيدًا في مجموعة البيانات هذه، ثمّ جعلت كل لون منها في فئة لتتمكّن من معرفة مدى تأثير هذه الألوان المختلفة في القيمة. لنفترض أن مجموعة البيانات هذه تحتوي على عدد من السيارات الصغيرة ذات الألوان الغريبة (الموون والحليب والأفوكادو). وبدلاً من منح كل لون من هذه الألوان فئة منفصلة، يمكنك تجميعها في فئة استقبال الرسائل الخاطئة التي تُسمى خارج خارج Vocab (OOV). وباستخدام OOV، لن يضيّع النظام الوقت في التدريب على كل من هذه الألوان النادرة.

التجزئة

ويمكنك أيضًا تجزئة كل سلسلة (فئة) إلى مساحة الفهرسة المتاحة. كثيرًا ما تتسبب التجزئة في حدوث تصادمات، ولكنك تعتمد على النموذج الذي تعرّف على بعض التمثيل المشترك للفئات في الفهرس نفسه الذي يعمل بشكلٍ جيد مع المشكلة المحددة.

بالنسبة إلى المصطلحات المهمة، يمكن أن تكون التجزئة أسوأ من اختيار مفردات، بسبب تعارضات. من ناحية أخرى، لا تتطلّب التجزئة منك تجميع مفردات، ما يُعدّ مفيدًا إذا تغيّر توزيع الميزات بشكل كبير بمرور الوقت.

رسم بياني يوضّح قائمتَي الكلمات. تتألّف قائمة واحدة من 10 كلمات. تعرض القائمة الأخرى 10 كلمات مقسّمة إلى 8 حزم تجزئة. وبالتالي، تحتوي 6 مجموعات بيانات في التجزئة على كلمة واحدة، في حين أنّ حِزمتَي تجزئة تحتويان على كلمتين.  ويتم تحديد كل حزمة تجزئة برقم يتراوح من 1 إلى 8، بما يشمل هذين الرقمين. الشكل 4: ربط العناصر بمفردات

مختلطة من التجزئة والمفردات

يمكنك اتّباع نهج مختلط ودمج التجزئة مع مفردات. يمكنك استخدام مفردات للفئات الأكثر أهمية في بياناتك، ولكن يمكنك استبدال مجموعة حزم OOV بعدة مجموعات OOV، واستخدام التجزئة لتخصيص الفئات لحزم البيانات.

يجب أن تشارك الفئات في حِزم التجزئة فهرسًا، ومن المحتمل ألا يقدّم النموذج توقّعات جيدة، ولكننا خصّصنا جزءًا من الذاكرة لمحاولة معرفة الفئات خارج مفرداتنا.

رسم بياني يعرض ثلاث قوائم من الكلمات. تتألف قائمة واحدة من 10 كلمات يمكن تصنيفها. تُدرج القائمةتان الأخريان هذه الكلمات العشرة في مفردات وحزم تجزئة. وهذا يعني أن 5 كلمات يتم ربطها مباشرةً
بالمفرد، في حين يتم تعيين 5 كلمات أخرى بمجموعتي تجزئة. تحتوي إحدى حزم التجزئة
على كلمتين، تحتوي حزمة التجزئة الأخرى على ثلاث كلمات.  تحتوي مفردات
الكلمات على كلمات شائعة، وتحتوي حزمة التجزئة على كلمات نادرة. الشكل 5: أسلوب مختلط يجمع بين المصطلحات والتجزئة.

ملاحظة حول التضمينات

تذكّر من خلال الدورة التدريبية لتعلّم الآلة أنّ التضمين هو ميزة تصنيفية تمثّل ميزة مستمرة. وكثيرًا ما تحوّل النماذج العميقة المؤشرات من فهرس إلى عملية تضمين.

مخطّط يوضّح العملية الشاملة لفئات الربط لإبراز المتّجهين عبر تضمينها. يتكون جدول التضمين من مجموعة مرقّمة من الصفوف. يتألّف كل صف من مجموعة من قيم النقاط العائمة بين 0.0 و1.0. لتحويل فئة، ينسخ النظام الصف المقابل من جدول التضمين.
على سبيل المثال، إذا كانت فئة الإدخال هي 0، ينسخ النظام الصف الأول من جدول التضمين إلى متّجه الميزة. إذا كانت فئة الإدخال 1،
ينسخ النظام الصف الثاني من جدول التضمين إلى متّجه الميزة. الشكل 6: متّجهات متفرقة من خلال تضمين

يمكن تخزين التغييرات الأخرى التي ناقشناها على القرص، ولكن التضمينات مختلفة. بما أنّ عمليات التضمين ليست تدريبًا عمليًّا على البيانات، فهي ليست جزءًا من النموذج. يتم تدريبها على استخدام أوزان النماذج الأخرى، وتُعتبر موازية لطبقة من الأوزان.

ماذا عن التضمينات المدرّبة مسبقًا؟ لا تزال عمليات التضمين المضمّنة مسبقًا قابلة للتعديل أثناء التدريب، لذا لا تزال جزءًا من نموذجيًا.