تغيير البيانات: التحقّق من فهمك

بالنسبة إلى الأسئلة التالية، انقر على السهم المطلوب للتحقق من إجابتك:

أنت تعالج البيانات مسبقًا لنموذج التراجع. ما هي التغييرات الإلزامية؟ حدّد كل ما ينطبق.
تحويل جميع الميزات غير الرقمية إلى ميزات رقمية.
إجابتك صحيحة. وهذا أمر إلزامي. يجب تحويل السلاسل إلى تمثيل رقمي لأنه لا يمكنك إجراء ضرب في مصفوفة على سلسلة.
تسوية البيانات الرقمية.
يمكن أن يكون تسوية البيانات الرقمية أمرًا مفيدًا، ولكنّها تقدّم تحويلاً اختياريًا للجودة.

 

ننصحك باستخدام الرسم البياني أدناه. ما هو أسلوب تحويل البيانات الذي من المحتمل أن يكون الأكثر إنتاجية في البداية ولماذا؟ لنفترض أن هدفك هو العثور على علاقة خطية بين الغرف للشخص الواحد وسعر المنزل.
درجة ع
وتُعدّ نتيجة Z خيارًا جيدًا إذا لم تكن القيم الحدودية متطرفة. ولكن القيم الشاذّة متطرفة هنا.
قص
تشكّل ميزة الاقتصاص خيارًا جيدًا هنا لأنّ مجموعة البيانات تتضمّن قيمًا خارجة عن النطاق. يجب إصلاح القيم الشاذّة قبل تطبيق تعديلات أخرى.
تحجيم السجلات
يكون تغيير حجم السجلّ جيدًا إذا كانت بياناتك تؤكّد توزيع قانون الطاقة. ومع ذلك، تتوافق هذه البيانات مع التوزيع العادي بدلاً من توزيع قانون الطاقة.
إنشاء مجموعات البيانات (بربطها) بحدود ربعية
يمكن أن يكون تجميع الشريحة الربعية أسلوبًا جيدًا للبيانات المائلة، ولكن في هذه الحالة، يرجع هذا الانحراف جزئيًا إلى عدد من القيم الشاذّة. ومن المفيد أيضًا أن يتعلّم النموذج العلاقة الخطية. لذلك، عليك الحفاظ على تنسيق سجلّ PerPerPerson بدلاً من تحويله إلى فئات، ما يؤدّي إلى تجميع البيانات. جرّب بدلاً من ذلك أسلوب التسوية.

رسم بياني يعرض معدل التكرار النسبي لمختلف RoomsPerPerson، حيث
RoomsPerPerson هو عدد الغرف في إقامة مقسومًا على عدد الأشخاص
في ذلك السكن.  يتم توزيع معظم البيانات بين 0 و5
مع تقليل عدد النقاط من 5 إلى 55.

 

ننصحك باستخدام الرسم البياني أدناه. ما هو أسلوب تحويل البيانات الذي من المحتمل أن يكون الأكثر إنتاجية في البداية ولماذا؟
درجة ع
وتُعدّ نتيجة Z خيارًا جيدًا إذا كانت القيم الشاذّة ليست على درجة عالية من الدقة لدرجة أنك تحتاج إلى اقتصاصها. وهذا ليس صحيحًا هنا. ويجب أن تكون الطريقة المائلة هي تلميحًا.
قص
تشكّل الاقتصاص خيارًا جيدًا عندما تكون هناك قيم متطرفة. ويُظهر هذا الرسم البياني توزيع قانون الطاقة، وهناك أسلوب آخر لتعديل المحتوى يكون أفضل لحلّ هذه المشكلة.
تحجيم السجلات
ويُفضّل تحديد حجم السجلّ هنا لأنّ البيانات تتوافق مع توزيع قانون الطاقة.
إنشاء مجموعات البيانات (بربطها) بحدود ربعية
يمكن أن تكون عملية تجميع البيانات الربعية منهجًا جيدًا للبيانات المائلة. في المقابل، أنت تبحث عن النموذج لمعرفة علاقة خطية. لذا، عليك الاحتفاظ ببياناتك وتجنّب وضعها في مجموعات. جرِّب أسلوب التسوية بدلاً من ذلك.

رسم بياني شريطي تتمركز أشرطةه بشكل مكتوب في الطرف السفلي. يبلغ حجم الشريط الأول 1200 درجة، والشريط الثاني بحجم 460، ويبلغ حجم الشريط الثالث 300. وِبِالْحَدِّ الْخَامِسْ عَلَى الشَّاشَة، قُلْ قُوَّةِ الْحَدّْ لِحَدِّ
30 دَرَجَة. ويستمر شريط ذيل طويل جدًا في 90 شريطًا آخر مع حجم ذيل طويل لا يتجاوز ارتفاعه 10 أعوام.

 

ننصحك باستخدام الرسم البياني أدناه. هل يمكن أن يشكّل النموذج الخطي توقعًا جيدًا حول العلاقة بين نسبة الضغط وم ضغط الاستهلاك لكل ألف ظهور في المدينة؟ وإذا لم يكن الأمر كذلك، كيف يمكنك تحويل البيانات لتدريب النموذج بشكل أفضل؟
نعم، من المحتمل أن يعثر النموذج على علاقة خطية ويقدّم توقعات دقيقة جدًا.
وعلى الرغم من أن النموذج سيعثر على علاقة خطيّة، لن ينشئ النموذج توقّعات دقيقة للغاية. يمكنك محاولة تدريب مجموعة البيانات هذه في تمرين وضع نماذج البيانات للتعرّف بشكلٍ أفضل على السبب.
كلا، لأنه من المحتمل أن يكون النموذج أكثر دقةً بعد التوسّع.
يمكنك تطبيق المقياس الخطي، ولكن ستبدو انحدار العلاقة بين نسبة الضغط وميغتر المدينة بمعدّل مطابقة واحدة. وأكثر ما سيساعدك في ذلك هو رؤية منحدرَين منفصلَين، أحدهما لمجموعة النقاط في نسبة الضغط المنخفضة والأخرى للأعلى.
لا، يبدو أنّ هناك سلوكَين مختلفَين يحدثان. قد يساعدك ضبط الحدّ الأدنى في الوسط واستخدام ميزة مجمّعة في فهم ما يحدث في هاتين المنطقتَين بشكل أفضل.
إجابتك صحيحة. من المهم أن تكون واضحًا بشأن سبب وضع الحدود وكيفية وضعها. في ممارسة وضع نماذج البيانات، ستتعرّف على مزيد من المعلومات عن الطريقة التي يمكن أن تساعدك بها هذه المنهجية في إنشاء نموذج أفضل.

رسم بياني بالنقاط المبعثرة يعرض مستوى السرعة لكل ألف ظهور على أساس نسبة الضغط. تظهر نقطتان مختلفتان من البيانات، وهما مجموعة كبيرة جدًا من الأخرى، على طرفَي المحور النسبي للضغط. تغطي المجموعة الأكبر نطاقًا
نطاق نسبة الضغط من 7 إلى 12، وتغطّي المجموعة الصغيرة حجم نطاق الضغط
21-23. عادةً ما يكون معدل الاستهلاك لكل ألف طاولة على الطريق السريع أقل قليلاً في المجموعة الأكبر
من المجموعة الصغيرة.

 

يخبرك فريق التطبيقات المشابهة عن التقدم الذي أحرزه في مشروع تعلُّم الآلة. لقد تمكّنوا من حساب مفردات اللغة وتدريب النموذج بلا اتصال بالإنترنت. ولهذا السبب يريد الفريق تجنّب المشاكل القديمة، لذلك نحن بصدد تدريب نموذج مختلف على الإنترنت. الإجراءات التالية التي يمكن اتّخاذها
وسيظل النموذج محدّثًا عند وصول بيانات جديدة. وسيكون على الفريق الآخر مراقبة بيانات الإدخال باستمرار.
على الرغم من أنّ تجنّب مدى حداثة النموذج هو الميزة الرئيسية للتدريب الديناميكي، سيؤدي استخدام مفردات ذات نموذج مدرّب بلا اتصال بالإنترنت إلى حدوث مشاكل.
وقد يتبيّن لهم أن الفهارس التي يستخدمونها لا تتوافق مع التعبير بالأحرف الإنجليزية.
إجابتك صحيحة. حذِّر زملائك في ما يتعلق بمخاطر التدريب/العرض، ثم اقترح عليهم المشاركة في الدورة التدريبية من Google حول تحضير البيانات وهندسة الميزات في تعلُّم الآلة.