گزینه های زیر را بررسی کنید.

فرض کنید می‌خواهید یک مدل یادگیری ماشینی نظارت شده ایجاد کنید تا پیش‌بینی کنید که ایمیل داده شده «هرزنامه» است یا «هرزنامه نیست». کدام یک از جملات زیر صحیح است؟
ایمیل هایی که به عنوان "هرزنامه" یا "غیر هرزنامه" علامت گذاری نشده اند، نمونه هایی بدون برچسب هستند.
از آنجایی که برچسب ما از مقادیر "هرزنامه" و "نه هرزنامه" تشکیل شده است، هر ایمیلی که هنوز به عنوان هرزنامه یا غیر هرزنامه علامت‌گذاری نشده باشد، نمونه‌ای بدون برچسب است.
کلمات در هدر موضوع برچسب های خوبی می سازند.
کلمات موجود در هدر موضوع ممکن است ویژگی‌های بسیار خوبی داشته باشند، اما برچسب‌های خوبی نمی‌سازند.
برای آموزش مدل از نمونه‌های بدون برچسب استفاده می‌کنیم.
برای آموزش مدل از نمونه های برچسب دار استفاده می کنیم. سپس می‌توانیم مدل آموزش‌دیده را در برابر نمونه‌های بدون برچسب اجرا کنیم تا پی ببریم که آیا پیام‌های ایمیل بدون برچسب هرزنامه هستند یا نه.
ممکن است برچسب‌های اعمال شده برای برخی از نمونه‌ها غیرقابل اعتماد باشند.
قطعا. مهم است که بررسی کنید داده های شما چقدر قابل اعتماد هستند. برچسب‌های این مجموعه داده احتمالاً از کاربران ایمیلی است که پیام‌های ایمیل خاصی را به عنوان هرزنامه علامت‌گذاری می‌کنند. از آنجایی که اکثر کاربران هر پیام ایمیل مشکوکی را به عنوان هرزنامه علامت گذاری نمی کنند، ممکن است در تشخیص هرزنامه بودن یک ایمیل مشکل داشته باشیم. علاوه بر این، ارسال‌کنندگان هرزنامه می‌توانند عمداً با ارائه برچسب‌های معیوب، مدل ما را مسموم کنند.