عادی سازی

هدف نرمال سازی تبدیل ویژگی ها به یک مقیاس مشابه است. این باعث بهبود عملکرد و ثبات تمرین مدل می شود.

تکنیک های عادی سازی در یک نگاه

چهار تکنیک معمولی سازی ممکن است مفید باشد:

  • مقیاس بندی به یک محدوده
  • بریدن
  • مقیاس بندی ورود به سیستم
  • z-score

نمودارهای زیر تأثیر هر تکنیک نرمال سازی را بر توزیع ویژگی خام (قیمت) در سمت چپ نشان می دهد. نمودارها بر اساس مجموعه داده های سالنامه سال 1985 Ward's Automotive است که بخشی از مخزن یادگیری ماشین UCI تحت مجموعه داده های خودرو است.

پنج نمودار: 1. توزیع خام. 2. توزیع خام به یک محدوده، که شکلی مشابه با توزیع خام دارد. 3. توزیع خام بریده شده است که بالاترین مقادیر را حذف می کند. 4. توزیع خام مقیاس شده توسط لگاریتم، که داده ها را در وسط توزیع دسته بندی می کند. 5. z-score توزیع که شکلی مشابه با توزیع خام دارد.

شکل 1. خلاصه تکنیک های عادی سازی.

مقیاس بندی به یک محدوده

از MLCC به یاد بیاورید که مقیاس بندی به معنای تبدیل مقادیر ویژگی ممیز شناور از محدوده طبیعی آنها (مثلاً 100 تا 900) به یک محدوده استاندارد - معمولاً 0 و 1 (یا گاهی اوقات -1 به +1) است. از فرمول ساده زیر برای مقیاس بندی در محدوده استفاده کنید:

\[ x' = (x - x_{min}) / (x_{max} - x_{min}) \]

زمانی که هر دو شرایط زیر برآورده می شوند، مقیاس بندی به یک محدوده انتخاب خوبی است:

  • شما مرزهای بالا و پایین تقریبی داده های خود را با مقادیر کم یا بدون حاشیه می دانید.
  • داده های شما تقریباً به طور یکنواخت در آن محدوده توزیع شده است.

یک مثال خوب سن است. بیشتر مقادیر سنی بین 0 تا 90 است و هر قسمت از محدوده تعداد قابل توجهی افراد دارد.

در مقابل، شما از مقیاس بندی در درآمد استفاده نمی کنید، زیرا تنها تعداد کمی از افراد درآمد بسیار بالایی دارند. حد بالایی مقیاس خطی برای درآمد بسیار زیاد است و بیشتر افراد در قسمت کوچکی از مقیاس فشرده می شوند.

برش ویژگی

اگر مجموعه داده‌های شما دارای مقادیر پرت شدید است، می‌توانید برش ویژگی را امتحان کنید، که تمام مقادیر ویژگی بالاتر (یا پایین) یک مقدار مشخص را به مقدار ثابت محدود می‌کند. به عنوان مثال، می توانید تمام مقادیر دمای بالای 40 را دقیقاً 40 کنید.

می توانید برش ویژگی را قبل یا بعد از عادی سازی های دیگر اعمال کنید.

فرمول: مقادیر حداقل/حداکثر را برای جلوگیری از پرت تنظیم کنید.

مقایسه توزیع بومی و توزیع محدود. در توزیع بومی، تقریباً همه مقادیر در محدوده 1 تا 4 قرار می گیرند، اما درصد کمی از مقادیر بین 5 تا 55 قرار دارند. در توزیع سرپوشیده، همه مقادیر در ابتدا بالاتر از 4 اکنون دارای مقدار 4 هستند.

شکل 2. مقایسه توزیع خام و نسخه بریده شده آن.

یکی دیگر از استراتژی های برش ساده این است که با امتیاز z به +-Nσ برش دهید (به عنوان مثال، محدود کردن به +-3σ). توجه داشته باشید که σ انحراف معیار است.

مقیاس گذاری ورود به سیستم

مقیاس‌بندی گزارش، گزارش مقادیر شما را محاسبه می‌کند تا یک محدوده وسیع را به یک محدوده باریک فشرده کند.

\[ x' = log(x) \]

مقیاس کردن گزارش زمانی مفید است که تعداد انگشت شماری از مقادیر شما دارای امتیازات زیادی باشد، در حالی که بسیاری از مقادیر دیگر دارای امتیاز کمی هستند. این توزیع داده به عنوان توزیع قانون قدرت شناخته می شود. رتبه بندی فیلم ها مثال خوبی است. در نمودار زیر، اکثر فیلم‌ها رتبه‌بندی بسیار کمی دارند (داده‌های موجود در دم)، در حالی که تعداد کمی از آنها رتبه‌بندی زیادی دارند (داده‌ها در سر). مقیاس لاگ توزیع را تغییر می دهد و به بهبود عملکرد مدل خطی کمک می کند.

دو نمودار که داده های خام را در مقابل گزارش داده های خام مقایسه می کند. نمودار داده‌های خام، رتبه‌بندی‌های زیادی را در سر و به دنبال آن یک دم بلند نشان می‌دهد. نمودار لاگ توزیع یکنواخت تری دارد.

شکل 3. مقایسه توزیع خام با گزارش آن.

Z-Score

Z-score یک تغییر مقیاس است که نشان دهنده تعداد انحرافات استاندارد دور از میانگین است. از z-score برای اطمینان از داشتن میانگین = 0 و std = 1 از z-score استفاده می‌کنید. این زمانی مفید است که چند نقطه پرت وجود داشته باشد، اما نه آنقدر شدید که نیاز به برش داشته باشید.

فرمول محاسبه امتیاز z یک نقطه، x ، به شرح زیر است:

\[ x' = (x - μ) / σ \]

دو نمودار مقایسه داده های خام در مقابل داده های نرمال شده با z-score. داده های خام توزیع پواسون را بین 5000 تا 45000 نشان می دهد. محدوده داده های نرمال شده از -1 تا +4 است.

شکل 4. مقایسه توزیع خام با توزیع امتیاز z آن.

توجه داشته باشید که z-score مقادیر خامی را که محدوده ای از ~40000 دارند در محدوده تقریباً 1- تا 4+ فشرده می کند.

فرض کنید مطمئن نیستید که آیا نقاط پرت واقعاً افراطی هستند یا خیر. در این مورد، با z-score شروع کنید، مگر اینکه مقادیر ویژگی‌هایی داشته باشید که نمی‌خواهید مدل یاد بگیرد. به عنوان مثال، مقادیر نتیجه خطای اندازه گیری یا یک ابهام هستند.

خلاصه

تکنیک عادی سازی فرمول چه موقع باید استفاده کرد
مقیاس بندی خطی$$ x' = (x - x_{min}) / (x_{max} - x_{min}) $$ هنگامی که ویژگی کم و بیش به طور یکنواخت در یک محدوده ثابت توزیع شده است.
بریدن اگر x > max، x' = max. اگر x <min، x' = min زمانی که این ویژگی حاوی برخی نقاط پرت شدید باشد.
مقیاس گذاری ورود به سیستم x' = log (x) هنگامی که ویژگی با قانون قدرت مطابقت دارد.
امتیاز Z x' = (x - μ) / σ زمانی که توزیع ویژگی حاوی مقادیر پرت شدید نباشد.