تعمیم: خطر بیش از حد برازش

این ماژول بر تعمیم تمرکز دارد. به منظور ایجاد شهود در مورد این مفهوم، می خواهید به سه شکل نگاه کنید. فرض کنید هر نقطه در این شکل ها نشان دهنده موقعیت یک درخت در یک جنگل است. این دو رنگ معانی زیر را دارند:

  • نقاط آبی نشان دهنده درختان بیمار هستند.
  • نقاط نارنجی نشان دهنده درختان سالم هستند.

با در نظر گرفتن این موضوع، به شکل 1 نگاهی بیندازید.

این شکل شامل حدود 50 نقطه است که نیمی از آن آبی و نیمی دیگر نارنجی است. نقاط نارنجی عمدتاً در ربع جنوب غربی قرار دارند، اگرچه چند نقطه نارنجی به طور خلاصه به سه ربع دیگر نفوذ می کنند. نقاط آبی عمدتاً در ربع شمال شرقی هستند، اما تعداد کمی از نقاط آبی به ربع دیگر می ریزند.

شکل 1. درختان بیمار (آبی) و سالم (نارنجی).

آیا می توانید یک مدل خوب برای پیش بینی درختان بیمار یا سالم بعدی تصور کنید؟ لحظه‌ای را برای کشیدن ذهنی کمانی که بلوز را از نارنجی‌ها تقسیم می‌کند، اختصاص دهید، یا دسته‌ای از نارنجی یا آبی را با کمند ذهنی بکشید. سپس، به شکل 2 نگاه کنید، که نشان می دهد چگونه یک مدل یادگیری ماشینی خاص درختان بیمار را از درختان سالم جدا می کند. توجه داشته باشید که این مدل ضرر بسیار کمی داشته است.

ضرر کم، اما هنوز مدل بدی است؟

شکل 3 نشان می دهد که چه اتفاقی افتاد وقتی که داده های جدید را به مدل اضافه کردیم. معلوم شد که مدل بسیار ضعیف با داده های جدید سازگار است. توجه داشته باشید که مدل بسیاری از داده های جدید را به اشتباه دسته بندی کرده است.

همان تصویر شکل 2، به جز با اضافه شدن حدود 100 نقطه دیگر. بسیاری از نقاط جدید به خوبی خارج از مدل پیش بینی شده قرار می گیرند.

شکل 3. مدل در پیش بینی داده های جدید کار بدی انجام داد.

مدل نشان‌داده‌شده در شکل‌های 2 و 3 با ویژگی‌های داده‌هایی که روی آن آموزش داده شده است، بیش از حد منطبق است. یک مدل بیش از حد در طول تمرین ضرر کم می کند اما در پیش بینی داده های جدید عملکرد ضعیفی دارد. اگر یک مدل به خوبی با نمونه فعلی مطابقت داشته باشد، چگونه می توانیم اعتماد کنیم که پیش بینی های خوبی در مورد داده های جدید انجام می دهد؟ همانطور که در ادامه خواهید دید، بیش از حد برازش به دلیل پیچیده تر کردن یک مدل از حد لازم است. تنش اساسی یادگیری ماشینی بین تطبیق داده های ما به خوبی است، اما همچنین برازش داده ها به ساده ترین شکل ممکن.

هدف یادگیری ماشینی پیش‌بینی خوبی بر روی داده‌های جدید استخراج شده از توزیع احتمال واقعی (پنهان) است. متأسفانه، مدل نمی تواند تمام حقیقت را ببیند. مدل فقط می تواند از مجموعه داده های آموزشی نمونه برداری کند. اگر مدلی به خوبی با نمونه‌های فعلی مطابقت داشته باشد، چگونه می‌توان اعتماد کرد که مدل در نمونه‌هایی که قبلاً دیده نشده نیز پیش‌بینی خوبی می‌کند؟

ویلیام از اوکهام، یک فیلسوف و فیلسوف قرن چهاردهم، عاشق سادگی بود. او معتقد بود که دانشمندان باید فرمول ها یا نظریه های ساده تر را به فرمول های پیچیده تر ترجیح دهند. برای قرار دادن تیغ ​​اوکام در اصطلاح یادگیری ماشین:

هرچه یک مدل ML پیچیدگی کمتری داشته باشد، احتمال اینکه یک نتیجه تجربی خوب فقط به دلیل ویژگی‌های نمونه نباشد بیشتر است.

در دوران مدرن، ما تیغ اوکام را در زمینه های نظریه یادگیری آماری و نظریه یادگیری محاسباتی رسمی کرده ایم. این زمینه ها مرزهای تعمیم را توسعه داده اند -- یک توصیف آماری از توانایی یک مدل برای تعمیم به داده های جدید بر اساس عواملی مانند:

  • پیچیدگی مدل
  • عملکرد مدل در داده های آموزشی

در حالی که تجزیه و تحلیل نظری تضمین‌های رسمی را تحت مفروضات ایده‌آل ارائه می‌دهد، اما اعمال آنها در عمل دشوار است. دوره تصادف یادگیری ماشین به جای آن بر ارزیابی تجربی برای قضاوت در مورد توانایی یک مدل برای تعمیم به داده های جدید تمرکز می کند.

هدف یک مدل یادگیری ماشینی پیش‌بینی خوب در مورد داده‌های جدید و قبلاً دیده نشده است. اما اگر در حال ساخت مدلی از مجموعه داده های خود هستید، چگونه داده های دیده نشده قبلی را بدست می آورید؟ خوب، یک راه این است که مجموعه داده های خود را به دو زیر مجموعه تقسیم کنید:

  • مجموعه آموزشی - زیر مجموعه ای برای آموزش یک مدل.
  • مجموعه تست - زیر مجموعه ای برای آزمایش مدل.

عملکرد خوب در مجموعه تست به طور کلی یک شاخص مفید از عملکرد خوب در داده های جدید است، با این فرض که:

  • مجموعه تست به اندازه کافی بزرگ است.
  • شما با استفاده مکرر از یک مجموعه تست تقلب نمی کنید.

چاپ ریز ML

سه فرض اساسی زیر تعمیم را راهنمایی می کند:

  • نمونه هایی را به طور مستقل و یکسان ( iid ) به صورت تصادفی از توزیع ترسیم می کنیم. به عبارت دیگر، مثال ها روی یکدیگر تأثیر نمی گذارند. (یک توضیح جایگزین: iid راهی برای اشاره به تصادفی بودن متغیرها است.)
  • توزیع ثابت است. یعنی توزیع در مجموعه داده ها تغییر نمی کند.
  • نمونه هایی از پارتیشن ها از همان توزیع می گیریم.

در عمل، ما گاهی اوقات این فرضیات را زیر پا می گذاریم. مثلا:

  • مدلی را در نظر بگیرید که تبلیغات را برای نمایش انتخاب می کند. اگر مدل انتخاب تبلیغات خود را تا حدی بر اساس تبلیغاتی که کاربر قبلاً دیده است استوار کند، فرض iid نقض می شود.
  • مجموعه داده ای را در نظر بگیرید که حاوی اطلاعات خرده فروشی برای یک سال است. خریدهای کاربر به صورت فصلی تغییر می کند، که ثابت بودن را نقض می کند.

وقتی می دانیم که هر یک از سه فرض اساسی قبلی نقض شده است، باید به معیارها توجه دقیق داشته باشیم.