گزینه های زیر را بررسی کنید.
فرض کنید میخواهید یک مدل یادگیری ماشینی نظارت شده ایجاد کنید تا پیشبینی کنید که ایمیل داده شده «هرزنامه» است یا «هرزنامه نیست». کدام یک از جملات زیر صحیح است؟
ایمیل هایی که به عنوان "هرزنامه" یا "غیر هرزنامه" علامت گذاری نشده اند، نمونه هایی بدون برچسب هستند.
از آنجایی که برچسب ما از مقادیر "هرزنامه" و "نه هرزنامه" تشکیل شده است، هر ایمیلی که هنوز به عنوان هرزنامه یا غیر هرزنامه علامتگذاری نشده باشد، نمونهای بدون برچسب است.
کلمات در هدر موضوع برچسب های خوبی می سازند.
کلمات موجود در هدر موضوع ممکن است ویژگیهای بسیار خوبی داشته باشند، اما برچسبهای خوبی نمیسازند.
برای آموزش مدل از نمونههای بدون برچسب استفاده میکنیم.
برای آموزش مدل از نمونه های برچسب دار استفاده می کنیم. سپس میتوانیم مدل آموزشدیده را در برابر نمونههای بدون برچسب اجرا کنیم تا پی ببریم که آیا پیامهای ایمیل بدون برچسب هرزنامه هستند یا نه.
ممکن است برچسبهای اعمال شده برای برخی از نمونهها غیرقابل اعتماد باشند.
قطعا. مهم است که بررسی کنید داده های شما چقدر قابل اعتماد هستند. برچسبهای این مجموعه داده احتمالاً از کاربران ایمیلی است که پیامهای ایمیل خاصی را به عنوان هرزنامه علامتگذاری میکنند. از آنجایی که اکثر کاربران هر پیام ایمیل مشکوکی را به عنوان هرزنامه علامت گذاری نمی کنند، ممکن است در تشخیص هرزنامه بودن یک ایمیل مشکل داشته باشیم. علاوه بر این، ارسالکنندگان هرزنامه میتوانند عمداً با ارائه برچسبهای معیوب، مدل ما را مسموم کنند.