این ماژول بر تعمیم تمرکز دارد. به منظور ایجاد شهود در مورد این مفهوم، می خواهید به سه شکل نگاه کنید. فرض کنید هر نقطه در این شکل ها نشان دهنده موقعیت یک درخت در یک جنگل است. این دو رنگ معانی زیر را دارند:
- نقاط آبی نشان دهنده درختان بیمار هستند.
- نقاط نارنجی نشان دهنده درختان سالم هستند.
با در نظر گرفتن این موضوع، به شکل 1 نگاهی بیندازید.
شکل 1. درختان بیمار (آبی) و سالم (نارنجی).
آیا می توانید یک مدل خوب برای پیش بینی درختان بیمار یا سالم بعدی تصور کنید؟ لحظهای را برای کشیدن ذهنی کمانی که بلوز را از نارنجیها تقسیم میکند، اختصاص دهید، یا دستهای از نارنجی یا آبی را با کمند ذهنی بکشید. سپس، به شکل 2 نگاه کنید، که نشان می دهد چگونه یک مدل یادگیری ماشینی خاص درختان بیمار را از درختان سالم جدا می کند. توجه داشته باشید که این مدل ضرر بسیار کمی داشته است.
ضرر کم، اما هنوز مدل بدی است؟
شکل 3 نشان می دهد که چه اتفاقی افتاد وقتی که داده های جدید را به مدل اضافه کردیم. معلوم شد که مدل بسیار ضعیف با داده های جدید سازگار است. توجه داشته باشید که مدل بسیاری از داده های جدید را به اشتباه دسته بندی کرده است.
شکل 3. مدل در پیش بینی داده های جدید کار بدی انجام داد.
مدل نشاندادهشده در شکلهای 2 و 3 با ویژگیهای دادههایی که روی آن آموزش داده شده است، بیش از حد منطبق است. یک مدل بیش از حد در طول تمرین ضرر کم می کند اما در پیش بینی داده های جدید عملکرد ضعیفی دارد. اگر یک مدل به خوبی با نمونه فعلی مطابقت داشته باشد، چگونه می توانیم اعتماد کنیم که پیش بینی های خوبی در مورد داده های جدید انجام می دهد؟ همانطور که در ادامه خواهید دید، بیش از حد برازش به دلیل پیچیده تر کردن یک مدل از حد لازم است. تنش اساسی یادگیری ماشینی بین تطبیق داده های ما به خوبی است، اما همچنین برازش داده ها به ساده ترین شکل ممکن.
هدف یادگیری ماشینی پیشبینی خوبی بر روی دادههای جدید استخراج شده از توزیع احتمال واقعی (پنهان) است. متأسفانه، مدل نمی تواند تمام حقیقت را ببیند. مدل فقط می تواند از مجموعه داده های آموزشی نمونه برداری کند. اگر مدلی به خوبی با نمونههای فعلی مطابقت داشته باشد، چگونه میتوان اعتماد کرد که مدل در نمونههایی که قبلاً دیده نشده نیز پیشبینی خوبی میکند؟
ویلیام از اوکهام، یک فیلسوف و فیلسوف قرن چهاردهم، عاشق سادگی بود. او معتقد بود که دانشمندان باید فرمول ها یا نظریه های ساده تر را به فرمول های پیچیده تر ترجیح دهند. برای قرار دادن تیغ اوکام در اصطلاح یادگیری ماشین:هرچه یک مدل ML پیچیدگی کمتری داشته باشد، احتمال اینکه یک نتیجه تجربی خوب فقط به دلیل ویژگیهای نمونه نباشد بیشتر است.
در دوران مدرن، ما تیغ اوکام را در زمینه های نظریه یادگیری آماری و نظریه یادگیری محاسباتی رسمی کرده ایم. این زمینه ها مرزهای تعمیم را توسعه داده اند -- یک توصیف آماری از توانایی یک مدل برای تعمیم به داده های جدید بر اساس عواملی مانند:
- پیچیدگی مدل
- عملکرد مدل در داده های آموزشی
در حالی که تجزیه و تحلیل نظری تضمینهای رسمی را تحت مفروضات ایدهآل ارائه میدهد، اما اعمال آنها در عمل دشوار است. دوره تصادف یادگیری ماشین به جای آن بر ارزیابی تجربی برای قضاوت در مورد توانایی یک مدل برای تعمیم به داده های جدید تمرکز می کند.
هدف یک مدل یادگیری ماشینی پیشبینی خوب در مورد دادههای جدید و قبلاً دیده نشده است. اما اگر در حال ساخت مدلی از مجموعه داده های خود هستید، چگونه داده های دیده نشده قبلی را بدست می آورید؟ خوب، یک راه این است که مجموعه داده های خود را به دو زیر مجموعه تقسیم کنید:
- مجموعه آموزشی - زیر مجموعه ای برای آموزش یک مدل.
- مجموعه تست - زیر مجموعه ای برای آزمایش مدل.
عملکرد خوب در مجموعه تست به طور کلی یک شاخص مفید از عملکرد خوب در داده های جدید است، با این فرض که:
- مجموعه تست به اندازه کافی بزرگ است.
- شما با استفاده مکرر از یک مجموعه تست تقلب نمی کنید.
چاپ ریز ML
سه فرض اساسی زیر تعمیم را راهنمایی می کند:
- نمونه هایی را به طور مستقل و یکسان ( iid ) به صورت تصادفی از توزیع ترسیم می کنیم. به عبارت دیگر، مثال ها روی یکدیگر تأثیر نمی گذارند. (یک توضیح جایگزین: iid راهی برای اشاره به تصادفی بودن متغیرها است.)
- توزیع ثابت است. یعنی توزیع در مجموعه داده ها تغییر نمی کند.
- نمونه هایی از پارتیشن ها از همان توزیع می گیریم.
در عمل، ما گاهی اوقات این فرضیات را زیر پا می گذاریم. مثلا:
- مدلی را در نظر بگیرید که تبلیغات را برای نمایش انتخاب می کند. اگر مدل انتخاب تبلیغات خود را تا حدی بر اساس تبلیغاتی که کاربر قبلاً دیده است استوار کند، فرض iid نقض می شود.
- مجموعه داده ای را در نظر بگیرید که حاوی اطلاعات خرده فروشی برای یک سال است. خریدهای کاربر به صورت فصلی تغییر می کند، که ثابت بودن را نقض می کند.
وقتی می دانیم که هر یک از سه فرض اساسی قبلی نقض شده است، باید به معیارها توجه دقیق داشته باشیم.