نمایندگی

یک مدل یادگیری ماشینی نمی‌تواند مستقیماً نمونه‌های ورودی را ببیند، بشنود یا حس کند. در عوض، شما باید نمایشی از داده ها ایجاد کنید تا مدل را با یک نقطه برتری مفید در مورد کیفیت های کلیدی داده ها ارائه دهید. یعنی برای آموزش یک مدل باید مجموعه ای از ویژگی هایی را انتخاب کنید که داده ها را به بهترین شکل نشان می دهد.

نمایندگی

ایده این است که هر قسمت از بردار سمت چپ را به یک یا چند فیلد در بردار ویژگی سمت راست نگاشت کنیم.

داده های خام از طریق فرآیندی به نام مهندسی ویژگی به بردار ویژگی نگاشت می شوند.
نمونه ای از ویژگی هایی که می توان مستقیماً از داده های خام کپی کرد
نمونه ای از یک ویژگی رشته ای (نام خیابان) که نمی تواند مستقیماً از داده های خام کپی شود
نگاشت یک مقدار رشته (
  • فرهنگ لغت نام هر خیابان را به یک int در {0، ...، V-1} ترسیم می کند.
  • اکنون بردار تک داغ در بالا را به صورت < i > نشان دهید

مقادیر مشخصه باید بیش از چند بار در مجموعه داده با مقدار غیر صفر ظاهر شوند.

my_device_id:8SK982ZZ1242Z

device_model:galaxy_s6

ویژگی ها باید معنای روشن و واضحی داشته باشند.

user_age:23

user_age:123456789

ویژگی ها نباید مقادیر "جادویی" به خود بگیرند

(به جای آن از یک ویژگی بولی اضافی مانند watch_time_is_defined استفاده کنید!)

watch_time: -1.0

watch_time: 1.023

watch_time_is_defined: 1.0

تعریف یک ویژگی نباید در طول زمان تغییر کند.

(مراقب وابستگی به سایر سیستم های ML باشید!)

city_id:"br/sao_paulo"

inferred_city_cluster_id:219

توزیع نباید دارای نقاط پرت شدید باشد

در حالت ایده‌آل، همه ویژگی‌ها به یک محدوده مشابه تبدیل می‌شوند، مانند (-1، 1) یا (0، 5).

توزیع با نقاط پرت و توزیع با کلاهک
نموداری که توزیعی را با منحنی برازش بر اساس مکان نشان می دهد
نموداری که توزیعی را با منحنی برازش بر اساس مکان نشان می دهد
  • چندین bin boolean ایجاد کنید که هر کدام به یک ویژگی منحصر به فرد جدید نگاشت می شوند
  • به مدل اجازه می‌دهد تا مقدار متفاوتی را برای هر bin مناسب کند

داده های خود را بدانید

  • تجسم : هیستوگرام‌ها را رسم کنید، رتبه‌بندی بیشترین تا کم‌معمول‌ترین.
  • اشکال زدایی : نمونه های تکراری؟ ارزش از دست رفته؟ موارد پرت؟ داده ها با داشبورد موافق هستند؟ داده های آموزشی و اعتبارسنجی مشابه است؟
  • مانیتور : چندک ویژگی، تعداد نمونه در طول زمان؟