این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.

کادربندی: درک خود را بررسی کنید

یادگیری تحت نظارت

گزینه های زیر را بررسی کنید.

فرض کنید می‌خواهید یک مدل یادگیری ماشینی نظارت شده ایجاد کنید تا پیش‌بینی کنید که ایمیل داده شده «هرزنامه» است یا «هرزنامه نیست». کدام یک از جملات زیر صحیح است؟

ایمیل هایی که به عنوان "هرزنامه" یا "غیر هرزنامه" علامت گذاری نشده اند، نمونه هایی بدون برچسب هستند.

از آنجایی که برچسب ما از مقادیر "هرزنامه" و "نه هرزنامه" تشکیل شده است، هر ایمیلی که هنوز به عنوان هرزنامه یا غیر هرزنامه علامت‌گذاری نشده باشد، نمونه‌ای بدون برچسب است.

کلمات در هدر موضوع برچسب های خوبی می سازند.

کلمات موجود در هدر موضوع ممکن است ویژگی‌های بسیار خوبی داشته باشند، اما برچسب‌های خوبی نمی‌سازند.

برای آموزش مدل از نمونه‌های بدون برچسب استفاده می‌کنیم.

برای آموزش مدل از نمونه های برچسب دار استفاده می کنیم. سپس می‌توانیم مدل آموزش‌دیده را در برابر نمونه‌های بدون برچسب اجرا کنیم تا پی ببریم که آیا پیام‌های ایمیل بدون برچسب هرزنامه هستند یا نه.

ممکن است برچسب‌های اعمال شده برای برخی از نمونه‌ها غیرقابل اعتماد باشند.

قطعا. مهم است که بررسی کنید داده های شما چقدر قابل اعتماد هستند. برچسب‌های این مجموعه داده احتمالاً از کاربران ایمیلی است که پیام‌های ایمیل خاصی را به عنوان هرزنامه علامت‌گذاری می‌کنند. از آنجایی که اکثر کاربران هر پیام ایمیل مشکوکی را به عنوان هرزنامه علامت گذاری نمی کنند، ممکن است در تشخیص هرزنامه بودن یک ایمیل مشکل داشته باشیم. علاوه بر این، ارسال‌کنندگان هرزنامه می‌توانند عمداً با ارائه برچسب‌های معیوب، مدل ما را مسموم کنند.

ویژگی ها و برچسب ها

گزینه های زیر را بررسی کنید.

فرض کنید یک فروشگاه آنلاین کفش می خواهد یک مدل ML تحت نظارت ایجاد کند که توصیه های شخصی کفش را به کاربران ارائه می دهد. یعنی مدل چند جفت کفش به مارتی و جفت های مختلف به ژانت توصیه می کند. این سیستم از داده های رفتار کاربر گذشته برای تولید داده های آموزشی استفاده خواهد کرد. کدام یک از جملات زیر صحیح است؟

"اندازه کفش" یک ویژگی مفید است.

"اندازه کفش" یک سیگنال قابل اندازه گیری است که احتمالاً تأثیر زیادی روی دوست داشتن کاربر از کفش های توصیه شده دارد. به عنوان مثال، اگر مارتی سایز 9 می پوشد، مدل نباید کفش سایز 7 را توصیه کند.

"زیبایی کفش" یک ویژگی مفید است.

ویژگی های خوب مشخص و قابل اندازه گیری هستند. زیبایی مفهومی بسیار مبهم است که نمی تواند به عنوان یک ویژگی مفید عمل کند. زیبایی احتمالاً ترکیبی از ویژگی های خاص بتن مانند سبک و رنگ است. سبک و رنگ هر کدام ویژگی بهتری نسبت به زیبایی خواهند بود.

"کاربر روی توضیحات کفش کلیک کرد" یک برچسب مفید است.

کاربران احتمالاً فقط می خواهند در مورد کفش هایی که دوست دارند اطلاعات بیشتری کسب کنند. بنابراین، کلیک‌های کاربران یک معیار قابل مشاهده و اندازه‌گیری است که می‌تواند به عنوان یک برچسب آموزشی خوب عمل کند. از آنجایی که داده‌های آموزشی ما از رفتار کاربر گذشته ناشی می‌شود، برچسب‌های ما باید از رفتارهای عینی مانند کلیک‌هایی که به شدت با اولویت‌های کاربر مرتبط هستند، مشتق شوند.

"کفش هایی که کاربر آن ها را دوست دارد" یک برچسب مفید است.

ستایش یک معیار قابل مشاهده و اندازه گیری نیست. بهترین کاری که می‌توانیم انجام دهیم، جستجوی معیارهای پروکسی قابل مشاهده برای تحسین است.