برای سوالات زیر، روی فلش مورد نظر کلیک کنید تا پاسخ خود را بررسی کنید:
شما در حال پیش پردازش داده ها برای یک مدل رگرسیونی هستید. چه تغییراتی اجباری است؟ همه موارد اعمال شده را بررسی کنید.
تبدیل تمام ویژگی های غیر عددی به ویژگی های عددی.
درست. این یک تحول اجباری است. شما باید رشته ها را به تعدادی نمایش عددی تبدیل کنید زیرا نمی توانید ضرب ماتریس را روی یک رشته انجام دهید.
عادی سازی داده های عددی
عادی سازی داده های عددی می تواند کمک کند، اما یک تغییر کیفیت اختیاری است.
نمودار زیر را در نظر بگیرید. کدام تکنیک تبدیل داده احتمالاً برای شروع کارآمدترین خواهد بود و چرا؟ فرض کنید هدف شما یافتن رابطه خطی بین RoomPerPerson و قیمت خانه است.
امتیاز Z
اگر نقاط پرت افراطی نباشند، امتیاز Z انتخاب خوبی است. با این حال، نقاط پرت در اینجا افراطی هستند.
بریدن
Clipping در اینجا انتخاب خوبی است زیرا مجموعه داده حاوی مقادیر پرت است. قبل از اعمال نرمال سازی های دیگر، باید نقاط پرت شدید را برطرف کنید.
مقیاس گذاری ورود به سیستم
در صورتی که دادههای شما با توزیع قانون قدرت تأیید شود، مقیاسبندی گزارش انتخاب خوبی است. با این حال، این داده ها به جای توزیع قانون توان، با توزیع نرمال مطابقت دارند.
سطل (binning) با مرزهای کمیت
سطل کوانتیل می تواند یک رویکرد خوب برای داده های کج باشد، اما در این مورد، این انحراف تا حدی به دلیل چند نقطه پرت شدید است. همچنین، شما می خواهید مدل یک رابطه خطی را یاد بگیرد. بنابراین، شما باید RoomPerPerson را عددی نگه دارید نه اینکه آن را به دسته بندی تبدیل کنید، کاری که سطل کردن انجام می دهد. در عوض، یک تکنیک عادی سازی را امتحان کنید.
نمودار زیر را در نظر بگیرید. کدام تکنیک تبدیل داده احتمالاً برای شروع کارآمدترین خواهد بود و چرا؟
امتیاز Z
اگر نقاط پرت آنقدر افراطی نباشند که نیاز به برش داشته باشید، امتیاز Z انتخاب خوبی است. اینجا اینطور نیست. نحوه انحراف داده ها باید یک اشاره باشد.
بریدن
زمانی که نقاط پرت شدید وجود دارد، برش انتخاب خوبی است. با این حال، این نمودار توزیع قانون توان را نشان می دهد، و یک تکنیک عادی سازی دیگری وجود دارد که برای پرداختن به آن بهتر است.
مقیاس گذاری ورود به سیستم
مقیاس لاگ در اینجا انتخاب خوبی است زیرا داده ها با توزیع قانون توان مطابقت دارند.
سطل (binning) با مرزهای کمیت
کوانتیل سطل می تواند یک رویکرد خوب برای داده های ناهموار باشد. با این حال، شما به دنبال مدلی برای یادگیری یک رابطه خطی هستید. بنابراین، باید داده های خود را عددی نگه دارید و از قرار دادن آنها در سطل خودداری کنید. به جای آن یک تکنیک عادی سازی را امتحان کنید.
نمودار زیر را در نظر بگیرید. آیا یک مدل خطی می تواند پیش بینی خوبی در مورد رابطه بین نسبت تراکم و شهر-mpg داشته باشد؟ اگر نه، چگونه میتوانید دادهها را برای آموزش بهتر مدل تغییر دهید؟
بله، مدل احتمالاً یک رابطه خطی پیدا می کند و پیش بینی های بسیار دقیقی انجام می دهد.
در حالی که مدل یک رابطه خطی پیدا می کند، مدل پیش بینی های خیلی دقیقی انجام نمی دهد. برای درک بهتر چرایی، می توانید این مجموعه داده را در تمرین Data Modeling آموزش دهید.
نه. احتمالاً مدل پس از مقیاس بندی دقیق تر خواهد بود.
شما می توانید مقیاس بندی خطی را اعمال کنید، اما شیب رابطه بین نسبت فشرده سازی و شهر-mpg یکسان به نظر می رسد. چیزی که بیشتر به شما کمک می کند دیدن دو شیب مجزا است - یکی برای دسته ای از نقاط در نسبت تراکم پایین تر و دیگری برای شیب بالاتر.
نه. به نظر می رسد دو رفتار متفاوت در حال وقوع است. تنظیم یک آستانه در وسط و استفاده از یک ویژگی سطلی ممکن است به شما کمک کند تا بهتر بفهمید در این دو منطقه چه اتفاقی می افتد.
درست. این مهم است که چرا و چگونه مرزها را تعیین می کنید. در تمرین مدلسازی داده ، در مورد اینکه دقیقاً چگونه این رویکرد میتواند به شما در ایجاد مدل بهتر کمک کند، بیشتر خواهید آموخت.
یک تیم همتا در مورد پیشرفتی که در پروژه ML خود داشته اند به شما می گوید. آنها یک واژگان را محاسبه کردند و یک مدل را به صورت آفلاین آموزش دادند. با این حال، آنها میخواهند از مشکلات کهنگی اجتناب کنند، بنابراین اکنون در حال آموزش آنلاین مدل متفاوتی هستند. بعد ممکن است چه اتفاقی بیفتد؟
با رسیدن اطلاعات جدید، مدل به روز خواهد ماند. تیم دیگر باید به طور مداوم داده های ورودی را نظارت کند.
اگرچه اجتناب از کهنگی مدل مزیت اصلی آموزش پویا است، اما استفاده از واژگان با مدل آموزش آفلاین به مشکلاتی منجر می شود.
آنها ممکن است متوجه شوند که شاخص هایی که استفاده می کنند با واژگان مطابقت ندارند.
درست. به همکاران خود در مورد خطرات ناهنجاری آموزشی/ارائه خدمات هشدار دهید و سپس توصیه کنید که دوره Google را در زمینه آمادهسازی داده و مهندسی ویژگی برای ML بگذرانند تا بیشتر بدانند.