سیستم های ML در دنیای واقعی: ادبیات

در این درس، یک مشکل ML در دنیای واقعی* مربوط به ادبیات قرن هجدهم را اشکال زدایی می کنید.

مثال دنیای واقعی: ادبیات قرن هجدهم

  • پروفسور ادبیات قرن هجدهم می خواست وابستگی سیاسی نویسندگان را تنها بر اساس «استعاره های ذهنی» نویسنده پیش بینی کند.
کتاب های قدیمی
  • پروفسور ادبیات قرن هجدهم می خواست وابستگی سیاسی نویسندگان را تنها بر اساس «استعاره های ذهنی» نویسنده پیش بینی کند.
  • گروهی از محققان مجموعه داده‌های برچسب‌گذاری‌شده بزرگی را با آثار بسیاری از نویسندگان، جمله به جمله، ساختند و به مجموعه‌های قطار/اعتبار/آزمون تقسیم شدند.
کتاب های قدیمی
  • پروفسور ادبیات قرن هجدهم می خواست وابستگی سیاسی نویسندگان را تنها بر اساس «استعاره های ذهنی» نویسنده پیش بینی کند.
  • گروهی از محققان مجموعه داده‌های برچسب‌گذاری‌شده بزرگی را با آثار بسیاری از نویسندگان، جمله به جمله، ساختند و به مجموعه‌های قطار/اعتبار/آزمون تقسیم شدند.
  • مدل آموزش‌دیده تقریباً روی داده‌های آزمایش کاملاً عمل کرد، اما محققان احساس کردند نتایج به‌طور مشکوکی دقیق هستند. چه اشتباهی ممکن است رخ داده باشد؟
کتاب های قدیمی

به نظر شما چرا دقت تست به طرز مشکوکی بالا بود؟ ببینید آیا می‌توانید مشکل را پیدا کنید، و سپس روی دکمه Play ▶ در زیر کلیک کنید تا متوجه شوید درست می‌گویید یا خیر.

  • تقسیم داده A: محققان برخی از نمونه های هر نویسنده را در مجموعه آموزشی، برخی در مجموعه اعتبار سنجی و برخی در مجموعه آزمایشی قرار می دهند.
همه مثال‌های ریچاردسون ممکن است در مجموعه آموزشی باشند، در حالی که همه مثال‌های سوئیفت ممکن است در مجموعه اعتبارسنجی باشند.
نموداری که تفکیک نمونه‌های نویسنده را در مجموعه‌های آموزش، اعتبارسنجی و آزمایش نشان می‌دهد. نمونه هایی از هر یک از سه نویسنده در هر مجموعه نشان داده شده است.
  • تقسیم داده B: محققان تمام نمونه های هر نویسنده را در یک مجموعه قرار می دهند.
نموداری که تفکیک نمونه‌های نویسنده را در مجموعه‌های آموزش، اعتبارسنجی و آزمایش نشان می‌دهد. مجموعه آموزشی فقط شامل نمونه‌هایی از سویفت، مجموعه اعتبارسنجی فقط شامل نمونه‌هایی از بلیک و مجموعه تست فقط شامل نمونه‌هایی از دفو است.
  • تقسیم داده A: محققان برخی از نمونه های هر نویسنده را در مجموعه آموزشی، برخی در مجموعه اعتبار سنجی و برخی در مجموعه آزمایشی قرار می دهند.
  • تقسیم داده B: محققان تمام نمونه های هر نویسنده را در یک مجموعه قرار می دهند.
  • یافته ها: مدل آموزش داده شده بر روی Data Split A از دقت بسیار بالاتری نسبت به مدل آموزش داده شده بر روی Data Split B برخوردار بود.

نکته اخلاقی: نحوه تقسیم مثال ها را به دقت در نظر بگیرید.

بدانید که داده ها چه چیزی را نشان می دهند.

* ما این ماژول را بسیار ضعیف (با ایجاد برخی اصلاحات در طول مسیر) بر روی "معنا و کاوی: تاثیر فرضیات ضمنی در داده کاوی برای علوم انسانی" توسط اسکالی و پاسانک استوار کردیم.