درک خود را بررسی کنید: اشکال زدایی مدل

برای سؤالات زیر، روی انتخاب خود کلیک کنید تا باز شود و پاسخ خود را بررسی کنید.

رویکرد مدلسازی

شما و دوستتان مل از تک شاخ ها خوشتان می آید. در واقع، شما آنقدر تک شاخ را دوست دارید، تصمیم می گیرید ظاهر تکشاخ را با استفاده از ... یادگیری ماشینی پیش بینی کنید. شما مجموعه داده ای از 10000 ظاهر تکشاخ دارید. برای هر ظاهر، مجموعه داده شامل مکان، زمان روز، ارتفاع، دما، رطوبت، تراکم جمعیت، پوشش درخت، وجود رنگین کمان، و بسیاری ویژگی های دیگر است.

شما می خواهید شروع به توسعه مدل ML خود کنید. کدام یک از رویکردهای زیر راه خوبی برای شروع توسعه است؟
تک شاخ ها اغلب در سحر و غروب ظاهر می شوند. بنابراین، از ویژگی "زمان روز" برای ایجاد یک مدل خطی استفاده کنید.
درست. یک مدل خطی که از یک یا دو ویژگی بسیار پیش بینی کننده استفاده می کند، یک راه موثر برای شروع است.
پیش بینی ظاهر تکشاخ مشکل بسیار سختی است. بنابراین، از یک شبکه عصبی عمیق با تمام ویژگی های موجود استفاده کنید.
غلط. شروع با یک مدل پیچیده، اشکال زدایی را پیچیده می کند.
با یک مدل خطی ساده شروع کنید اما از تمام ویژگی ها استفاده کنید تا مطمئن شوید مدل ساده قدرت پیش بینی دارد.
غلط. اگر از بسیاری از ویژگی‌ها استفاده می‌کنید، حتی با یک مدل خطی، مدل حاصل پیچیده است و اشکال‌زدایی آن سخت است.

خطوط پایه

با استفاده از رگرسیون با از دست دادن میانگین مربعات خطا (MSE)، شما هزینه یک تاکسی سواری را با استفاده از مدت زمان، مسافت، مبدا و پایان سفر پیش بینی می کنید. میدونی:

  • میانگین هزینه سواری 15 دلار است.
  • هزینه سواری به میزان ثابتی در هر کیلومتر افزایش می یابد.
  • سواری در مرکز شهر هزینه اضافی دارد.
  • سواری ها با حداقل هزینه 3 دلار شروع می شوند.

تعیین کنید که آیا خطوط پایه زیر مفید هستند یا خیر.

آیا این یک پایه مفید است: هزینه هر سواری 15 دلار است.
آره
درست. میانگین هزینه یک پایه مفید است.
خیر
غلط. همیشه پیش‌بینی میانگین منجر به MSE کمتری نسبت به پیش‌بینی هر مقدار دیگر می‌شود. بنابراین، آزمایش یک مدل در برابر این خط پایه مقایسه معنی‌داری را ارائه می‌دهد.
بستگی به انحراف استاندارد هزینه سواری دارد.
غلط. صرف نظر از انحراف استاندارد، میانگین هزینه سواری یک خط پایه مفید است زیرا همیشه پیش‌بینی میانگین منجر به MSE کمتری در مقایسه با همیشه پیش‌بینی هر مقدار دیگر می‌شود.
آیا این یک خط پایه مفید است: یک مدل آموزش دیده که فقط از مدت زمان و مبدا به عنوان ویژگی استفاده می کند.
آره
غلط. شما باید تنها پس از تأیید اعتبار کامل مدل در تولید، از یک مدل آموزش دیده به عنوان خط پایه استفاده کنید. علاوه بر این، مدل آموزش دیده باید خود را در برابر یک خط پایه ساده تر تأیید کند.
خیر
درست. شما باید تنها پس از تأیید اعتبار کامل مدل در تولید، از یک مدل آموزش دیده به عنوان خط پایه استفاده کنید.
آیا این یک خط پایه مفید است: هزینه یک سواری، مسافت سواری (به کیلومتر) ضرب در کرایه در هر کیلومتر است.
آره
درست. مسافت مهمترین عامل در تعیین هزینه سواری است. بنابراین، یک خط پایه که به فاصله متکی باشد مفید است.
خیر
غلط. مسافت مهمترین عامل در تعیین هزینه سواری است. بنابراین، یک خط پایه که به فاصله متکی باشد مفید است.
آیا این یک پایه مفید است: هزینه هر سواری 1 دلار است. زیرا مدل همیشه باید این خط پایه را شکست دهد. اگر مدل این خط پایه را شکست ندهد، می‌توانیم مطمئن باشیم که مدل دارای اشکال است.
آره
غلط. این یک خط پایه مفید نیست زیرا همیشه اشتباه است. مقایسه یک مدل با یک خط پایه که همیشه اشتباه است، معنی‌دار نیست.
خیر
درست. این خط پایه آزمون مفیدی برای مدل شما نیست.

فراپارامترها

سوالات زیر مشکلات آموزش طبقه بندی کننده را شرح می دهند. اقداماتی را انتخاب کنید که بتواند مشکل توضیح داده شده را برطرف کند.

ضرر آموزش 0.24 و افت اعتبار 0.36 است. کدام یک از اقدامات زیر می تواند تفاوت بین آموزش و از دست دادن اعتبارسنجی را کاهش دهد؟
اطمینان حاصل کنید که مجموعه های آموزشی و اعتبار سنجی دارای ویژگی های آماری یکسانی هستند.
درست. اگر مجموعه‌های آموزشی و اعتبارسنجی ویژگی‌های آماری متفاوتی داشته باشند، داده‌های آموزشی به پیش‌بینی داده‌های اعتبار سنجی کمکی نمی‌کنند.
از منظم سازی برای جلوگیری از برازش بیش از حد استفاده کنید.
درست. اگر تلفات آموزشی کمتر از تلفات اعتبارسنجی باشد، احتمالاً مدل شما بیش از حد با داده‌های آموزشی مطابقت دارد. منظم سازی مانع از برازش بیش از حد می شود.
تعداد دوره های آموزشی را افزایش دهید.
غلط. اگر تلفات آموزشی کوچکتر از تلفات اعتبارسنجی باشد، مدل شما معمولاً بیش از حد با داده های آموزشی سازگار است. افزایش دوره های آموزشی فقط باعث افزایش بیش از حد مناسب می شود.
نرخ یادگیری را کاهش دهید.
غلط. داشتن یک افت اعتبار بیشتر از ضرر تمرینی معمولاً نشان دهنده بیش از حد تناسب است. تغییر نرخ یادگیری باعث کاهش بیش از حد برازش نمی شود.
شما اقدامات درستی را انجام می‌دهید که در سوال قبلی توضیح داده شد، و اکنون تلفات آموزشی و اعتبارسنجی شما از 1.0 به تقریبا 0.24 پس از آموزش برای بسیاری از دوره‌ها کاهش می‌یابد. کدام یک از اقدامات زیر می تواند از دست دادن تمرین شما را بیشتر کاهش دهد؟
عمق و عرض شبکه عصبی خود را افزایش دهید.
درست. اگر تلفات تمرینی شما پس از تمرین برای چندین دوره در 0.24 ثابت بماند، ممکن است مدل شما فاقد توانایی پیش‌بینی برای کاهش تلفات بیشتر باشد. افزایش عمق و عرض مدل می تواند به مدل توانایی پیش بینی اضافی مورد نیاز برای کاهش بیشتر تلفات آموزشی بدهد.
تعداد دوره های آموزشی را افزایش دهید.
غلط. اگر از دست دادن تمرین شما پس از تمرین برای بسیاری از دوره‌ها روی 0.24 باقی بماند، ادامه آموزش مدل احتمالاً باعث کاهش قابل توجهی از دست دادن تمرین نخواهد شد.
افزایش نرخ یادگیری.
غلط. با توجه به اینکه از دست دادن تمرین برای بسیاری از دوره‌های آموزشی کاهش نیافته است، افزایش نرخ یادگیری احتمالاً از دست دادن نهایی تمرین کم نخواهد کرد. در عوض، افزایش نرخ یادگیری می تواند آموزش شما را ناپایدار کند و مدل شما را از یادگیری داده ها باز دارد.
شما در سوال قبل درست عمل کنید. ضرر تمرین مدل شما به 0.20 کاهش یافت. فرض کنید باید کمی بیشتر از دست دادن تمرین مدل خود را کاهش دهید. شما چند ویژگی اضافه می کنید که به نظر می رسد قدرت پیش بینی دارند. با این حال، از دست دادن تمرین همچنان در حدود 0.20 در نوسان است. کدام سه گزینه زیر می تواند از دست دادن تمرین شما را کاهش دهد؟
عمق و عرض لایه های خود را افزایش دهید.
درست. مدل شما ممکن است فاقد ظرفیت یادگیری سیگنال های پیش بینی در ویژگی های جدید باشد.
دوره های آموزشی را افزایش دهید.
غلط. اگر تلفات تمرینی مدل شما در حدود 0.20 در نوسان است، افزایش تعداد دوره های تمرین احتمالاً باعث می شود که افت تمرینی مدل در حدود 0.20 نوسان داشته باشد.
ویژگی ها اطلاعاتی را نسبت به ویژگی های موجود اضافه نمی کنند. یک ویژگی متفاوت را امتحان کنید.
درست. این امکان وجود دارد که سیگنال های پیش بینی کدگذاری شده توسط ویژگی ها از قبل در ویژگی هایی که شما استفاده می کنید وجود داشته باشد.
نرخ یادگیری را کاهش دهید.
درست. ممکن است افزودن ویژگی های جدید مشکل را پیچیده تر کرده باشد. به طور خاص، نوسان در ضرر نشان می دهد که نرخ یادگیری بسیار بالا است و مدل شما در حال جهش از حداقل است. کاهش نرخ یادگیری به مدل شما اجازه می دهد حداقل ها را یاد بگیرد.