یادگیری تحت نظارت
گزینه های زیر را بررسی کنید.
فرض کنید میخواهید یک مدل یادگیری ماشینی نظارت شده ایجاد کنید تا پیشبینی کنید که ایمیل داده شده «هرزنامه» است یا «هرزنامه نیست». کدام یک از جملات زیر صحیح است؟
ایمیل هایی که به عنوان "هرزنامه" یا "غیر هرزنامه" علامت گذاری نشده اند، نمونه هایی بدون برچسب هستند.
از آنجایی که برچسب ما از مقادیر "هرزنامه" و "نه هرزنامه" تشکیل شده است، هر ایمیلی که هنوز به عنوان هرزنامه یا غیر هرزنامه علامتگذاری نشده باشد، نمونهای بدون برچسب است.
کلمات در هدر موضوع برچسب های خوبی می سازند.
کلمات موجود در هدر موضوع ممکن است ویژگیهای بسیار خوبی داشته باشند، اما برچسبهای خوبی نمیسازند.
برای آموزش مدل از نمونههای بدون برچسب استفاده میکنیم.
برای آموزش مدل از نمونه های برچسب دار استفاده می کنیم. سپس میتوانیم مدل آموزشدیده را در برابر نمونههای بدون برچسب اجرا کنیم تا پی ببریم که آیا پیامهای ایمیل بدون برچسب هرزنامه هستند یا نه.
ممکن است برچسبهای اعمال شده برای برخی از نمونهها غیرقابل اعتماد باشند.
قطعا. مهم است که بررسی کنید داده های شما چقدر قابل اعتماد هستند. برچسبهای این مجموعه داده احتمالاً از کاربران ایمیلی است که پیامهای ایمیل خاصی را به عنوان هرزنامه علامتگذاری میکنند. از آنجایی که اکثر کاربران هر پیام ایمیل مشکوکی را به عنوان هرزنامه علامت گذاری نمی کنند، ممکن است در تشخیص هرزنامه بودن یک ایمیل مشکل داشته باشیم. علاوه بر این، ارسالکنندگان هرزنامه میتوانند عمداً با ارائه برچسبهای معیوب، مدل ما را مسموم کنند.
ویژگی ها و برچسب ها
گزینه های زیر را بررسی کنید.
فرض کنید یک فروشگاه آنلاین کفش می خواهد یک مدل ML تحت نظارت ایجاد کند که توصیه های شخصی کفش را به کاربران ارائه می دهد. یعنی مدل چند جفت کفش به مارتی و جفت های مختلف به ژانت توصیه می کند. این سیستم از داده های رفتار کاربر گذشته برای تولید داده های آموزشی استفاده خواهد کرد. کدام یک از جملات زیر صحیح است؟
"اندازه کفش" یک ویژگی مفید است.
"اندازه کفش" یک سیگنال قابل اندازه گیری است که احتمالاً تأثیر زیادی روی دوست داشتن کاربر از کفش های توصیه شده دارد. به عنوان مثال، اگر مارتی سایز 9 می پوشد، مدل نباید کفش سایز 7 را توصیه کند.
"زیبایی کفش" یک ویژگی مفید است.
ویژگی های خوب مشخص و قابل اندازه گیری هستند. زیبایی مفهومی بسیار مبهم است که نمی تواند به عنوان یک ویژگی مفید عمل کند. زیبایی احتمالاً ترکیبی از ویژگی های خاص بتن مانند سبک و رنگ است. سبک و رنگ هر کدام ویژگی بهتری نسبت به زیبایی خواهند بود.
"کاربر روی توضیحات کفش کلیک کرد" یک برچسب مفید است.
کاربران احتمالاً فقط می خواهند در مورد کفش هایی که دوست دارند اطلاعات بیشتری کسب کنند. بنابراین، کلیکهای کاربران یک معیار قابل مشاهده و اندازهگیری است که میتواند به عنوان یک برچسب آموزشی خوب عمل کند. از آنجایی که دادههای آموزشی ما از رفتار کاربر گذشته ناشی میشود، برچسبهای ما باید از رفتارهای عینی مانند کلیکهایی که به شدت با اولویتهای کاربر مرتبط هستند، مشتق شوند.
"کفش هایی که کاربر آن ها را دوست دارد" یک برچسب مفید است.
ستایش یک معیار قابل مشاهده و اندازه گیری نیست. بهترین کاری که میتوانیم انجام دهیم، جستجوی معیارهای پروکسی قابل مشاهده برای تحسین است.