L 2 منظم سازی
گزینه های زیر را بررسی کنید.
یک مدل خطی با 100 ویژگی ورودی را تصور کنید: 10 بسیار آموزنده هستند. 90 غیر اطلاعاتی هستند. فرض کنید همه ویژگی ها دارای مقادیری بین -1 و 1 هستند. کدام یک از عبارات زیر درست است؟
تنظیم L 2 باعث می شود که بسیاری از وزن های غیر اطلاعاتی تقریباً (اما نه دقیقاً) 0.0 باشند.
بله، تنظیم L 2 باعث می شود وزن ها نزدیک به 0.0 باشند، اما نه دقیقاً 0.0.
تنظیم L 2 بیشتر وزن های غیر اطلاعاتی را تشویق می کند که دقیقاً 0.0 باشند.
تنظیم L 2 تمایلی به وادار کردن وزن ها به 0.0 ندارد. تنظیم L 2 وزنه های بزرگتر را بیشتر از وزنه های کوچکتر جریمه می کند. با نزدیک شدن وزنه به 0.0، L 2 با قدرت کمتری به سمت 0.0 فشار می آورد.
تنظیم L 2 ممکن است باعث شود که مدل وزن متوسطی را برای برخی ویژگیهای غیر اطلاعاتی بیاموزد.
با کمال تعجب، این می تواند زمانی اتفاق بیفتد که یک ویژگی غیر اطلاعاتی با برچسب مرتبط باشد. در این مورد، مدل به اشتباه برخی از «اعتبارات» را که باید به ویژگیهای اطلاعاتی میداد، به چنین ویژگیهای غیر اطلاعاتی میدهد.
L 2 منظم سازی و ویژگی های مرتبط
گزینه های زیر را بررسی کنید.
یک مدل خطی با دو ویژگی قویاً همبسته را تصور کنید. یعنی این دو ویژگی تقریباً کپیهای یکسانی از یکدیگر هستند، اما یک ویژگی حاوی مقدار کمی نویز تصادفی است. اگر این مدل را با قاعدگی L 2 تمرین کنیم، تکلیف وزنه های این دو ویژگی چه می شود؟
هر دو ویژگی وزن تقریباً برابر و متوسطی خواهند داشت.
منظمسازی L 2 ویژگیها را به سمت وزنهای تقریباً معادل که تقریباً نصف وزنی است که اگر تنها یکی از دو ویژگی در مدل وجود داشت، مجبور میکند.
یک ویژگی وزن زیادی خواهد داشت. وزن دیگری تقریباً 0.0 خواهد بود.
تنظیم L 2 وزنه های بزرگ را بیشتر از وزنه های کوچک جریمه می کند. بنابراین، حتی اگر یک وزنه شروع به کاهش سریعتر از وزن دیگر کند، تنظیم L 2 باعث می شود وزن بزرگتر سریعتر از وزن کوچکتر کاهش یابد.
یک ویژگی وزن زیادی خواهد داشت. وزن دیگری دقیقاً 0.0 خواهد بود.
تنظیم L 2 به ندرت وزن ها را دقیقاً 0.0 می کند. در مقابل، منظمسازی L 1 (که بعداً بحث شد) وزنها را دقیقاً به 0.0 میرساند .