إعداد البيانات

على الرغم من أن الدورة التدريبية تحضير البيانات وهندسة الميزات لتعلُّم الآلة تغطي التحضير العام للبيانات، تفحص هذه الدورة التدريبية التحضير الخاص بتجميع البيانات.

في التجميع، تحسب التشابه بين مثالين من خلال الجمع بين جميع بيانات الميزات لهذه الأمثلة في قيمة رقمية. يتطلب دمج بيانات الميزات أن تستخدم البيانات المقياس نفسه. يستعرض هذا القسم القيم العادية للتحويل والإنشاء والكميات، كما يناقش أسباب استخدام الكميات التلقائية أفضل خيار لتحويل أي توزيع للبيانات. ويتيح لك الخيار التلقائي إمكانية تحويل بياناتك بدون فحص توزيع البيانات.

تسوية البيانات

يمكنك تحويل البيانات لميزات متعددة إلى المقياس نفسه من خلال تسوية البيانات. وعلى وجه الخصوص، تُعدّ عملية التسوية مناسبة جدًا لمعالجة توزيع البيانات الأكثر شيوعًا، وهو التوزيع الغاوسي . مقارنةً بالربع، تتطلب عملية التسوية بيانات أقل بكثير لحسابها. قم بتسوية البيانات من خلال حساب نتيجة z الخاصة بها على النحو التالي:

\[x'=(x-\mu)/\sigma\\ \begin{align*} \text{where:}\quad \mu &= \text{mean}\\ \sigma &= \text{standard deviation}\\ \end{align*} \]

لنلقِ نظرة على التشابه بين الأمثلة باستخدام تعديلات أو بدونها. في الشكل 1، تبيّن أنّ اللون الأحمر يبدو مشابهًا للون الأزرق أكثر من الأصفر. ومع ذلك، لا تتضمّن الميزات على المحورَين "س" و"ص" المقياس نفسه. وبالتالي، قد يكون التشابه الذي تم رصده أمرًا فنيًا للبيانات غير المعدَّلة. بعد الدمج باستخدام z-score، يجب استخدام المقياس نفسه في كل الميزات. ستلاحظ الآن أنّ الأحمر أكثر تشابهًا مع الأصفر. وبالتالي، بعد تسوية البيانات، يمكنك حساب التشابه بدقة أكبر.

رسمان بيانيان يقارنان بيانات الميزات قبل التسوية وبعدها
الشكل 1: مقارنة لبيانات الميزات قبل التسوية وبعدها.

باختصار، يمكنك تطبيق التسوية عند استيفاء أي مما يلي:

  • تحتوي بياناتك على توزيع غاوس.
  • تفتقر مجموعة بياناتك إلى بيانات كافية لإنشاء كميات.

استخدام تحويل السجلّ

في بعض الأحيان، تتوافق مجموعة البيانات مع توزيع قانون الطاقة الذي يجمع البيانات عند النهاية المنخفضة. في الشكل 2، يكون اللون الأحمر أقرب إلى الأصفر من الأزرق.

مخطط شريطي يحتوي على معظم البيانات في النهاية المنخفضة
الشكل 2: توزيع قانون الطاقة

معالجة توزيع قانون الطاقة باستخدام تحويل سجلّ في الشكل 3، يؤدي تحويل السجلّ إلى إنشاء توزيع أكثر سلاسة، ويكون اللون الأحمر أقرب إلى الأزرق من الأصفر.

رسم بياني يعرض التوزيع العادي (غاوسي)
الشكل 3: توزيع عادي (غاوسي).

استخدام الكميات

تعالج تعديلات التسوية والسجلات توزيعات البيانات المحدّدة. ماذا لو كانت البيانات لا تتوافق مع توزيع غاوس أو قانون السلطة؟ هل هناك نهج عام ينطبق على أي توزيع للبيانات؟

لنجرّب المعالجة المسبقة لهذا التوزيع.

رسم بياني يعرض توزيع البيانات قبل أي معالجة مسبقة
الشكل 4: توزيع بلا فئة قبل أي معالجة مسبقة.

في حد ذاته، إذا كان المثالان متشابهين فقط، فإن هذين المثالين متشابهان بغض النظر عن قيمهما. وبالعكس، إذا كان هناك مثالان بينهما، سيكون المثالان أقل تشابهًا. وبالتالي، ينخفض التشابه بين هذين المثالين مع زيادة عدد الأمثلة بينهما.

يؤدي تعديل البيانات إلى إعادة إنتاج توزيع البيانات، لأن التسوية هي تحويل خطي. لا يعكس تطبيق تحويل السجلّ حدسك على آلية عمل التشابه أيضًا، كما هو موضّح في الشكل 5 أدناه.

رسم بياني يعرض توزيع البيانات بعد تحويل السجلّ
الشكل 5: التوزيع بعد تحويل السجلّ

بدلاً من ذلك، قسِّم البيانات إلى فواصل زمنية تحتوي فيها كل فاصل زمني على عدد مساوٍ من الأمثلة. وتُعرف هذه الحدود الزمنية باسم الكميات.

حوِّل بياناتك إلى أربعة أجزاء عن طريق تنفيذ الخطوات التالية:

  1. حدِّد عدد الفواصل الزمنية.
  2. حدِّد الفواصل الزمنية بحيث يكون لكل فاصل زمني عدد متساوٍ من الأمثلة.
  3. استبدل كل مثال بفهرس الفاصل الزمني الذي يقع فيه.
  4. جلب الفهارس إلى النطاق نفسه كبيانات الميزات الأخرى من خلال تغيير قيم الفهرس إلى [0،1].
رسم بياني يعرض البيانات بعد التحويل
  إلى أربعة أقسام. يمثل الخط 20 فاصلاً.]
الشكل 6: التوزيع بعد التحويل إلى أربعة أقسام.

بعد تحويل البيانات إلى مقدارين، يتم قياس التشابه بين مثالين عكسيًا لعدد الأمثلة بين هذين المثالين. رياضيًا، حيث تشير العبارة "x" إلى أي مثال في مجموعة البيانات:

  • \(sim(A,B) \approx 1 − | \text{prob}[x > A] − \text{prob}[x > B] |\)
  • \(sim(A,B) \approx 1 − | \text{quantile}(A) − \text{quantile}(B) |\)

الخيار Quantis هو أفضل خيار تلقائي لتحويل البيانات. ولكن لإنشاء كميات تشكّل مؤشرات موثوقة لتوزيع البيانات الأساسية، ستحتاج إلى الكثير من البيانات. كقاعدة عامة، لإنشاء \(n\) وحدات، يجب أن يكون لديك \(10n\) أمثلة على الأقل. وإذا لم تكن لديك بيانات كافية، التزم بالتسوية.

التحقّق من مدى فهمك

بالنسبة إلى الأسئلة التالية، لنفترض أنّ لديك بيانات كافية لإنشاء كميات.

السؤال الأول

رسم بياني يعرض ثلاثة توزيعات للبيانات
كيف ستتم معالجة توزيع البيانات هذا؟
أنشئ كميات.
إجابتك صحيحة. بما أنّ التوزيع لا يتطابق مع توزيع عادي للبيانات، عليك إعادة إنشاء كميات بكميات.
تمت التسوية.
يمكنك عادةً تعديل البيانات في الحالات التالية:
  • توزيع البيانات هو غاوسي.
  • لديك معلومات دقيقة عن ما تمثله البيانات، ما يخبرك بأنّه يجب عدم تحويل البيانات بدون قياس خطي. ونتيجةً لذلك، تتجنّب الكميات وتختار التسوية بدلاً من ذلك.
لا تنطبق أي من الحالتَين هنا. توزيع البيانات ليس Gaussian لأنه غير متماثل. وليس لديك إحصاءات حول ما تمثله هذه القيم على أرض الواقع.
سجِّل التحويل.
لا يُعدّ هذا الخيار هو الخيار الأفضل لأنه لا يُعدّ توزيعًا مثاليًا لقانون الحماية.

السؤال الثاني

رسم بياني يعرض ثلاثة توزيعات للبيانات
كيف ستتم معالجة توزيع البيانات هذا؟
تمت التسوية.
إجابتك صحيحة. هذا توزيع غاوسي.
أنشئ كميات.
إجابتك غير صحيحة. ولأن هذا التوزيع غاوسي، فإن التحويل المفضَّل هو التسوية.
سجِّل التحويل.
إجابتك غير صحيحة. لا تطبِّق تحويل السجلّ إلا على توزيعات قانون الطاقة.

البيانات المفقودة

إذا كانت مجموعة البيانات تضمّ قيمًا لا تتضمّن ميزة معيّنة، ولكن هذه الأمثلة غير نادرة، يمكنك إزالة هذه الأمثلة. وفي حال تكرار حدوث هذه الأمثلة، لدينا خيار إزالة هذه الميزة تمامًا، أو توقع القيم غير المتوفّرة من الأمثلة الأخرى باستخدام نموذج لتعلُّم الآلة. على سبيل المثال، يمكنك استنتاج البيانات الرقمية المفقودة باستخدام نموذج التراجع الذي تم تدريبه على بيانات الميزة الحالية.