يمكن ضرب البيانات الرقمية
الصحيحة بشكلٍ ذي مغزى. على سبيل المثال، ضع في اعتبارك
يتنبأ بقيمة أي منزل بناءً على مساحته.
يُرجى العِلم أنّ النموذج المفيد لتقييم أسعار المنازل يعتمد عادةً على
مئات السمات. ومع ذلك، مع تساوى جميع الأمور الأخرى، من المفترض أن يكون سعر منزل مساحته 200
متر تقريبًا ضعف سعر منزل مماثل مساحته 100
متر.
في كثير من الأحيان، يجب تمثيل العناصر التي تحتوي على قيم صحيحة على أنّها
بيانات تصنيفية بدلاً من بيانات رقمية. على سبيل المثال، ضع في الاعتبار الرمز البريدي
ميزة التعليمات البرمجية التي تكون فيها القيم أعدادًا صحيحة. إذا تمثّلت هذه
السمة رقميًا بدلاً من تصنيفها، يعني ذلك أنّك تطلب من النموذج
العثور على علاقة رقمية
بين الرموز البريدية المختلفة. وهذا يعني أنّك تطلب من النموذج
التعامل مع الرمز البريدي 20004 على أنّه إشارة أكبر مرتين (أو نصف) من الرمز البريدي
10002. من خلال تمثيل الرموز البريدية كبيانات تصنيفية، يمكن للنموذج تحديد تقييم لكل رمز بريدي فردي بشكل منفصل.
الترميز
التشفير يعني تحويل البيانات الفئوية أو غيرها إلى متجهات رقمية
يمكن للنموذج التدريب عليها. هذه العملية ضرورية لأنّه لا يمكن تدريب النماذج سوى على قيم الكسور العشرية، ولا يمكن تدريبها على سلاسل مثل
"dog" أو "maple". توضّح هذه الوحدة METHODS مختلفًا لترميز البيانات الفئوية.
تاريخ التعديل الأخير: 2025-07-27 (حسب التوقيت العالمي المتفَّق عليه)
[[["يسهُل فهم المحتوى.","easyToUnderstand","thumb-up"],["ساعَدني المحتوى في حلّ مشكلتي.","solvedMyProblem","thumb-up"],["غير ذلك","otherUp","thumb-up"]],[["لا يحتوي على المعلومات التي أحتاج إليها.","missingTheInformationINeed","thumb-down"],["الخطوات معقدة للغاية / كثيرة جدًا.","tooComplicatedTooManySteps","thumb-down"],["المحتوى قديم.","outOfDate","thumb-down"],["ثمة مشكلة في الترجمة.","translationIssue","thumb-down"],["مشكلة في العيّنات / التعليمات البرمجية","samplesCodeIssue","thumb-down"],["غير ذلك","otherDown","thumb-down"]],["تاريخ التعديل الأخير: 2025-07-27 (حسب التوقيت العالمي المتفَّق عليه)"],[[["This module focuses on differentiating between categorical and numerical data within machine learning."],["You will learn how to represent categorical data using one-hot vectors and address common issues associated with it."],["The module covers encoding techniques for converting categorical data into numerical vectors suitable for model training."],["Feature crosses, a method for combining categorical features to capture interactions, are also discussed."],["It is assumed you have prior knowledge of introductory machine learning and working with numerical data."]]],[]]