تغییر داده های خود: درک خود را بررسی کنید

برای سوالات زیر، روی فلش مورد نظر کلیک کنید تا پاسخ خود را بررسی کنید:

شما در حال پیش پردازش داده ها برای یک مدل رگرسیونی هستید. چه تغییراتی اجباری است؟ همه موارد اعمال شده را بررسی کنید.
تبدیل تمام ویژگی های غیر عددی به ویژگی های عددی.
درست. این یک تحول اجباری است. شما باید رشته ها را به تعدادی نمایش عددی تبدیل کنید زیرا نمی توانید ضرب ماتریس را روی یک رشته انجام دهید.
عادی سازی داده های عددی
عادی سازی داده های عددی می تواند کمک کند، اما یک تغییر کیفیت اختیاری است.

نمودار زیر را در نظر بگیرید. کدام تکنیک تبدیل داده احتمالاً برای شروع کارآمدترین خواهد بود و چرا؟ فرض کنید هدف شما یافتن رابطه خطی بین RoomPerPerson و قیمت خانه است.
امتیاز Z
اگر نقاط پرت افراطی نباشند، امتیاز Z انتخاب خوبی است. با این حال، نقاط پرت در اینجا افراطی هستند.
بریدن
Clipping در اینجا انتخاب خوبی است زیرا مجموعه داده حاوی مقادیر پرت است. قبل از اعمال نرمال سازی های دیگر، باید نقاط پرت شدید را برطرف کنید.
مقیاس گذاری ورود به سیستم
در صورتی که داده‌های شما با توزیع قانون قدرت تأیید شود، مقیاس‌بندی گزارش انتخاب خوبی است. با این حال، این داده ها به جای توزیع قانون توان، با توزیع نرمال مطابقت دارند.
سطل (binning) با مرزهای کمیت
سطل کوانتیل می تواند یک رویکرد خوب برای داده های کج باشد، اما در این مورد، این انحراف تا حدی به دلیل چند نقطه پرت شدید است. همچنین، شما می خواهید مدل یک رابطه خطی را یاد بگیرد. بنابراین، شما باید RoomPerPerson را عددی نگه دارید نه اینکه آن را به دسته بندی تبدیل کنید، کاری که سطل کردن انجام می دهد. در عوض، یک تکنیک عادی سازی را امتحان کنید.

نموداری که فراوانی نسبی RoomsPerPerson مختلف را نشان می دهد، که در آن RoomsPerPerson تعداد اتاق های یک اقامتگاه تقسیم بر تعداد افراد در آن اقامتگاه است. بیشتر داده ها بین 0 و 5 با تعداد نقاط از 5 تا 55 توزیع می شوند.

نمودار زیر را در نظر بگیرید. کدام تکنیک تبدیل داده احتمالاً برای شروع کارآمدترین خواهد بود و چرا؟
امتیاز Z
اگر نقاط پرت آنقدر افراطی نباشند که نیاز به برش داشته باشید، امتیاز Z انتخاب خوبی است. اینجا اینطور نیست. نحوه انحراف داده ها باید یک اشاره باشد.
بریدن
زمانی که نقاط پرت شدید وجود دارد، برش انتخاب خوبی است. با این حال، این نمودار توزیع قانون توان را نشان می دهد، و یک تکنیک عادی سازی دیگری وجود دارد که برای پرداختن به آن بهتر است.
مقیاس گذاری ورود به سیستم
مقیاس لاگ در اینجا انتخاب خوبی است زیرا داده ها با توزیع قانون توان مطابقت دارند.
سطل (binning) با مرزهای کمیت
کوانتیل سطل می تواند یک رویکرد خوب برای داده های ناهموار باشد. با این حال، شما به دنبال مدلی برای یادگیری یک رابطه خطی هستید. بنابراین، باید داده های خود را عددی نگه دارید و از قرار دادن آنها در سطل خودداری کنید. به جای آن یک تکنیک عادی سازی را امتحان کنید.

یک نمودار میله ای که میله های آن به شدت در انتهای پایین متمرکز شده اند. میله اول دارای قدر 1200، میله دوم قدر 460، میله سوم قدر 300 است. در میله پانزدهم، قدر به حدود 30 کاهش می یابد. یک دم بسیار بلند تا 90 میله دیگر ادامه می یابد. قدر دم بلند هرگز از 10 بالاتر نمی رود.

نمودار زیر را در نظر بگیرید. آیا یک مدل خطی می تواند پیش بینی خوبی در مورد رابطه بین نسبت تراکم و شهر-mpg داشته باشد؟ اگر نه، چگونه می‌توانید داده‌ها را برای آموزش بهتر مدل تغییر دهید؟
بله، مدل احتمالاً یک رابطه خطی پیدا می کند و پیش بینی های بسیار دقیقی انجام می دهد.
در حالی که مدل یک رابطه خطی پیدا می کند، مدل پیش بینی های خیلی دقیقی انجام نمی دهد. برای درک بهتر چرایی، می توانید این مجموعه داده را در تمرین Data Modeling آموزش دهید.
نه. احتمالاً مدل پس از مقیاس بندی دقیق تر خواهد بود.
شما می توانید مقیاس بندی خطی را اعمال کنید، اما شیب رابطه بین نسبت فشرده سازی و شهر-mpg یکسان به نظر می رسد. چیزی که بیشتر به شما کمک می کند دیدن دو شیب مجزا است - یکی برای دسته ای از نقاط در نسبت تراکم پایین تر و دیگری برای شیب بالاتر.
نه. به نظر می رسد دو رفتار متفاوت در حال وقوع است. تنظیم یک آستانه در وسط و استفاده از یک ویژگی سطلی ممکن است به شما کمک کند تا بهتر بفهمید در این دو منطقه چه اتفاقی می افتد.
درست. این مهم است که چرا و چگونه مرزها را تعیین می کنید. در تمرین مدل‌سازی داده ، در مورد اینکه دقیقاً چگونه این رویکرد می‌تواند به شما در ایجاد مدل بهتر کمک کند، بیشتر خواهید آموخت.

یک نمودار پراکنده که بزرگراه-mpg را در برابر نسبت تراکم نشان می دهد. دو توده متمایز از داده ها، یک دسته بسیار بزرگتر از دیگری، در انتهای مخالف محور نسبت تراکم ظاهر می شوند. توده بزرگتر محدوده نسبت تراکم 7-12 را پوشش می دهد. توده کوچکتر محدوده نسبت تراکم 21-23 را پوشش می دهد. به طور کلی، mpg بزرگراه در توده بزرگتر کمی کمتر از توده کوچکتر است.

یک تیم همتا در مورد پیشرفتی که در پروژه ML خود داشته اند به شما می گوید. آنها یک واژگان را محاسبه کردند و یک مدل را به صورت آفلاین آموزش دادند. با این حال، آن‌ها می‌خواهند از مشکلات کهنگی اجتناب کنند، بنابراین اکنون در حال آموزش آنلاین مدل متفاوتی هستند. بعد ممکن است چه اتفاقی بیفتد؟
با رسیدن اطلاعات جدید، مدل به روز خواهد ماند. تیم دیگر باید به طور مداوم داده های ورودی را نظارت کند.
اگرچه اجتناب از کهنگی مدل مزیت اصلی آموزش پویا است، اما استفاده از واژگان با مدل آموزش آفلاین به مشکلاتی منجر می شود.
آنها ممکن است متوجه شوند که شاخص هایی که استفاده می کنند با واژگان مطابقت ندارند.
درست. به همکاران خود در مورد خطرات ناهنجاری آموزشی/ارائه خدمات هشدار دهید و سپس توصیه کنید که دوره Google را در زمینه آماده‌سازی داده و مهندسی ویژگی برای ML بگذرانند تا بیشتر بدانند.