ماژول قبلی پارتیشن بندی یک مجموعه داده را به یک مجموعه آموزشی و یک مجموعه آزمایشی معرفی کرد. این پارتیشن بندی شما را قادر می سازد تا بر روی یک مجموعه از مثال ها آموزش ببینید و سپس مدل را در برابر مجموعه ای از نمونه های مختلف آزمایش کنید. با دو پارتیشن، گردش کار می تواند به صورت زیر باشد:
شکل 1. یک گردش کار ممکن؟
در شکل، «مدل توییک» به معنای تنظیم هر چیزی در مورد مدلی است که میتوانید رویاپردازی کنید - از تغییر نرخ یادگیری، اضافه کردن یا حذف ویژگیها، تا طراحی یک مدل کاملاً جدید از ابتدا. در پایان این گردش کار، مدلی را انتخاب میکنید که بهترین عملکرد را در مجموعه آزمایشی دارد.
تقسیم مجموعه داده ها به دو مجموعه ایده خوبی است، اما نه یک درمان. شما می توانید با پارتیشن بندی مجموعه داده ها به سه زیرمجموعه که در شکل زیر نشان داده شده است، شانس خود را برای برازش بیش از حد کاهش دهید:
شکل 2. برش یک مجموعه داده به سه زیر مجموعه.
از مجموعه اعتبارسنجی برای ارزیابی نتایج مجموعه آموزشی استفاده کنید. سپس، از مجموعه تست برای بررسی مجدد ارزیابی خود پس از اینکه مدل مجموعه اعتبارسنجی را "گذراند" استفاده کنید. شکل زیر این گردش کار جدید را نشان می دهد:
شکل 3. گردش کار بهتر.
در این گردش کار بهبود یافته:
- مدلی را انتخاب کنید که بهترین عملکرد را در مجموعه اعتبارسنجی دارد.
- آن مدل را در برابر مجموعه تست دوبار بررسی کنید.
این یک گردش کار بهتر است زیرا نوردهی کمتری را در مجموعه آزمایش ایجاد می کند.