در این درس، یک مشکل ML در دنیای واقعی* مربوط به ادبیات قرن هجدهم را اشکال زدایی می کنید.
مثال دنیای واقعی: ادبیات قرن هجدهم
مثال دنیای واقعی: ادبیات قرن هجدهم
- پروفسور ادبیات قرن هجدهم می خواست وابستگی سیاسی نویسندگان را تنها بر اساس «استعاره های ذهنی» نویسنده پیش بینی کند.
مثال دنیای واقعی: ادبیات قرن هجدهم
- پروفسور ادبیات قرن هجدهم می خواست وابستگی سیاسی نویسندگان را تنها بر اساس «استعاره های ذهنی» نویسنده پیش بینی کند.
- گروهی از محققان مجموعه دادههای برچسبگذاریشده بزرگی را با آثار بسیاری از نویسندگان، جمله به جمله، ساختند و به مجموعههای قطار/اعتبار/آزمون تقسیم شدند.
مثال دنیای واقعی: ادبیات قرن هجدهم
- پروفسور ادبیات قرن هجدهم می خواست وابستگی سیاسی نویسندگان را تنها بر اساس «استعاره های ذهنی» نویسنده پیش بینی کند.
- گروهی از محققان مجموعه دادههای برچسبگذاریشده بزرگی را با آثار بسیاری از نویسندگان، جمله به جمله، ساختند و به مجموعههای قطار/اعتبار/آزمون تقسیم شدند.
- مدل آموزشدیده تقریباً روی دادههای آزمایش کاملاً عمل کرد، اما محققان احساس کردند نتایج بهطور مشکوکی دقیق هستند. چه اشتباهی ممکن است رخ داده باشد؟
مثال دنیای واقعی: ادبیات قرن هجدهم
به نظر شما چرا دقت تست به طرز مشکوکی بالا بود؟ ببینید آیا میتوانید مشکل را پیدا کنید، و سپس روی دکمه Play ▶ در زیر کلیک کنید تا متوجه شوید درست میگویید یا خیر.
مثال دنیای واقعی: ادبیات قرن هجدهم
- تقسیم داده A: محققان برخی از نمونه های هر نویسنده را در مجموعه آموزشی، برخی در مجموعه اعتبار سنجی و برخی در مجموعه آزمایشی قرار می دهند.
همه مثالهای ریچاردسون ممکن است در مجموعه آموزشی باشند، در حالی که همه مثالهای سوئیفت ممکن است در مجموعه اعتبارسنجی باشند.
مثال دنیای واقعی: ادبیات قرن هجدهم
- تقسیم داده B: محققان تمام نمونه های هر نویسنده را در یک مجموعه قرار می دهند.
مثال دنیای واقعی: ادبیات قرن هجدهم
- تقسیم داده A: محققان برخی از نمونه های هر نویسنده را در مجموعه آموزشی، برخی در مجموعه اعتبار سنجی و برخی در مجموعه آزمایشی قرار می دهند.
- تقسیم داده B: محققان تمام نمونه های هر نویسنده را در یک مجموعه قرار می دهند.
- یافته ها: مدل آموزش داده شده بر روی Data Split A از دقت بسیار بالاتری نسبت به مدل آموزش داده شده بر روی Data Split B برخوردار بود.
مثال دنیای واقعی: ادبیات قرن هجدهم
نکته اخلاقی: نحوه تقسیم مثال ها را به دقت در نظر بگیرید.
بدانید که داده ها چه چیزی را نشان می دهند.
* ما این ماژول را بسیار ضعیف (با ایجاد برخی اصلاحات در طول مسیر) بر روی "معنا و کاوی: تاثیر فرضیات ضمنی در داده کاوی برای علوم انسانی" توسط اسکالی و پاسانک استوار کردیم.