ماژول قبلی ایده تقسیم مجموعه داده های خود را به دو زیر مجموعه معرفی کرد:
- مجموعه آموزشی - زیر مجموعه ای برای آموزش یک مدل.
- مجموعه تست - زیر مجموعه ای برای آزمایش مدل آموزش دیده.
می توانید تصور کنید که مجموعه داده های واحد را به صورت زیر برش دهید:
شکل 1. برش یک مجموعه داده به یک مجموعه آموزشی و مجموعه تست.
مطمئن شوید که مجموعه تست شما دو شرط زیر را دارد:
- به اندازه کافی بزرگ است تا نتایج آماری معنی داری به دست دهد.
- نماینده مجموعه داده به عنوان یک کل است. به عبارت دیگر، مجموعه تستی با ویژگی های متفاوت از مجموعه آموزشی انتخاب نکنید.
با فرض اینکه مجموعه تست شما دو شرط قبلی را برآورده می کند، هدف شما ایجاد مدلی است که به خوبی به داده های جدید تعمیم یابد. مجموعه آزمایشی ما به عنوان یک پروکسی برای داده های جدید عمل می کند. برای مثال شکل زیر را در نظر بگیرید. توجه داشته باشید که مدل آموخته شده برای داده های آموزشی بسیار ساده است. این مدل کار بی نقصی را انجام نمی دهد—چند پیش بینی اشتباه است. با این حال، این مدل در مورد داده های آزمایشی به همان خوبی که در داده های آموزشی انجام می دهد، عمل می کند. به عبارت دیگر، این مدل ساده با داده های آموزشی بیش از حد مناسب نیست.
شکل 2. اعتبار سنجی مدل آموزش دیده در برابر داده های آزمون.
هرگز با داده های تست تمرین نکنید. اگر نتایج شگفتآور خوبی را در معیارهای ارزیابی خود مشاهده میکنید، ممکن است نشانهای از این باشد که به طور تصادفی در حال تمرین در مجموعه تست هستید. به عنوان مثال، دقت بالا ممکن است نشان دهد که داده های تست به مجموعه آموزشی نشت کرده است.
به عنوان مثال، مدلی را در نظر بگیرید که با استفاده از خط موضوع، متن ایمیل و آدرس ایمیل فرستنده به عنوان ویژگی، پیشبینی میکند که ایمیل هرزنامه است یا خیر. ما داده ها را به مجموعه های آموزشی و آزمایشی با تقسیم 80-20 تقسیم می کنیم. پس از آموزش، مدل به دقت 99 درصدی هم در مجموعه آموزشی و هم در مجموعه تست دست می یابد. ما انتظار داریم دقت کمتری در مجموعه آزمایشی داشته باشیم، بنابراین نگاهی دوباره به دادهها میاندازیم و متوجه میشویم که بسیاری از نمونههای مجموعه آزمایشی تکراری از نمونههای مجموعه آموزشی هستند (ما از پاک کردن ورودیهای تکراری برای همان هرزنامه غافل شدیم. ایمیل از پایگاه داده ورودی ما قبل از تقسیم داده ها). ما به طور ناخواسته روی برخی از دادههای آزمایشی خود آموزش دیدهایم، و در نتیجه، دیگر به دقت اندازهگیری نمیکنیم که چگونه مدل ما به دادههای جدید تعمیم مییابد.