مجموعه های آموزشی و آزمایشی: تقسیم داده ها

ماژول قبلی ایده تقسیم مجموعه داده های خود را به دو زیر مجموعه معرفی کرد:

  • مجموعه آموزشی - زیر مجموعه ای برای آموزش یک مدل.
  • مجموعه تست - زیر مجموعه ای برای آزمایش مدل آموزش دیده.

می توانید تصور کنید که مجموعه داده های واحد را به صورت زیر برش دهید:

یک نوار افقی که به دو قسمت تقسیم می شود: 80٪ آن مجموعه تمرین و 20٪ مجموعه تست است.

شکل 1. برش یک مجموعه داده به یک مجموعه آموزشی و مجموعه تست.

مطمئن شوید که مجموعه تست شما دو شرط زیر را دارد:

  • به اندازه کافی بزرگ است تا نتایج آماری معنی داری به دست دهد.
  • نماینده مجموعه داده به عنوان یک کل است. به عبارت دیگر، مجموعه تستی با ویژگی های متفاوت از مجموعه آموزشی انتخاب نکنید.

با فرض اینکه مجموعه تست شما دو شرط قبلی را برآورده می کند، هدف شما ایجاد مدلی است که به خوبی به داده های جدید تعمیم یابد. مجموعه آزمایشی ما به عنوان یک پروکسی برای داده های جدید عمل می کند. برای مثال شکل زیر را در نظر بگیرید. توجه داشته باشید که مدل آموخته شده برای داده های آموزشی بسیار ساده است. این مدل کار بی نقصی را انجام نمی دهد—چند پیش بینی اشتباه است. با این حال، این مدل در مورد داده های آزمایشی به همان خوبی که در داده های آموزشی انجام می دهد، عمل می کند. به عبارت دیگر، این مدل ساده با داده های آموزشی بیش از حد مناسب نیست.

دو مدل: یکی بر روی داده های آموزشی و دیگری بر روی داده های آزمایشی اجرا می شود. مدل بسیار ساده است، فقط یک خط نقاط نارنجی را از نقاط آبی تقسیم می کند. از دست دادن داده های آموزشی مشابه از دست دادن داده های آزمون است.

شکل 2. اعتبار سنجی مدل آموزش دیده در برابر داده های آزمون.

هرگز با داده های تست تمرین نکنید. اگر نتایج شگفت‌آور خوبی را در معیارهای ارزیابی خود مشاهده می‌کنید، ممکن است نشانه‌ای از این باشد که به طور تصادفی در حال تمرین در مجموعه تست هستید. به عنوان مثال، دقت بالا ممکن است نشان دهد که داده های تست به مجموعه آموزشی نشت کرده است.

به عنوان مثال، مدلی را در نظر بگیرید که با استفاده از خط موضوع، متن ایمیل و آدرس ایمیل فرستنده به عنوان ویژگی، پیش‌بینی می‌کند که ایمیل هرزنامه است یا خیر. ما داده ها را به مجموعه های آموزشی و آزمایشی با تقسیم 80-20 تقسیم می کنیم. پس از آموزش، مدل به دقت 99 درصدی هم در مجموعه آموزشی و هم در مجموعه تست دست می یابد. ما انتظار داریم دقت کمتری در مجموعه آزمایشی داشته باشیم، بنابراین نگاهی دوباره به داده‌ها می‌اندازیم و متوجه می‌شویم که بسیاری از نمونه‌های مجموعه آزمایشی تکراری از نمونه‌های مجموعه آموزشی هستند (ما از پاک کردن ورودی‌های تکراری برای همان هرزنامه غافل شدیم. ایمیل از پایگاه داده ورودی ما قبل از تقسیم داده ها). ما به طور ناخواسته روی برخی از داده‌های آزمایشی خود آموزش دیده‌ایم، و در نتیجه، دیگر به دقت اندازه‌گیری نمی‌کنیم که چگونه مدل ما به داده‌های جدید تعمیم می‌یابد.