آماده سازی داده ها و مهندسی ویژگی در ML

یادگیری ماشینی به ما کمک می‌کند الگوهایی را در داده‌ها پیدا کنیم—الگوهایی که سپس برای پیش‌بینی نقاط داده جدید استفاده می‌کنیم. برای درست کردن این پیش‌بینی‌ها، باید مجموعه داده را بسازیم و داده‌ها را به درستی تبدیل کنیم . این دوره این دو مرحله کلیدی را پوشش می دهد. همچنین خواهیم دید که چگونه ملاحظات آموزش/خدمت در این مراحل نقش دارند.

یک پروژه یادگیری ماشینی که در پنج مرحله سازماندهی شده است. 1. یک مشکل ML را تعریف کنید و راه حلی پیشنهاد کنید. 2. مجموعه داده های خود را بسازید. 3. داده ها را تبدیل کنید. 4. یک مدل آموزش دهید. 5. از مدل برای پیش بینی استفاده کنید. این دوره آموزشی ساخت مجموعه داده و تبدیل داده ها را پوشش می دهد.

پیش نیازها

این دوره فرض می کند که شما دارید:

چرا درباره آماده سازی داده ها و مهندسی ویژگی یاد بگیریم؟

می توانید مهندسی ویژگی را به عنوان کمک به مدل برای درک مجموعه داده ها به همان روشی که شما انجام می دهید در نظر بگیرید. یادگیرندگان اغلب به یک دوره یادگیری ماشینی می آیند که بر روی ساخت مدل متمرکز است، اما در نهایت زمان بسیار بیشتری را صرف تمرکز روی داده ها می کنند.

برای سوال زیر روی فلش مورد نظر کلیک کنید تا پاسخ خود را بررسی کنید:

اگر بخواهید یکی از زمینه های زیر را در پروژه یادگیری ماشین خود اولویت بندی کنید، کدامیک بیشترین تأثیر را خواهد داشت؟
کیفیت و اندازه داده های شما
داده ها بر همه چیز برتری دارند. درست است که به‌روزرسانی الگوریتم یادگیری یا معماری مدل به شما امکان می‌دهد انواع مختلف الگوها را بیاموزید، اما اگر داده‌های شما بد باشد، در نهایت به ساخت توابعی متناسب با چیز اشتباه خواهید رسید. کیفیت و اندازه مجموعه داده بسیار بیشتر از الگوریتم درخشانی است که استفاده می کنید.
با استفاده از آخرین الگوریتم بهینه سازی
قطعاً می‌توانید دستاوردهایی را در بهینه‌سازی‌ها مشاهده کنید، اما به اندازه مورد دیگری در این فهرست تأثیر قابل‌توجهی بر مدل شما نخواهد داشت.
یک شبکه عمیق تر
در حالی که یک شبکه عمیق تر ممکن است مدل شما را بهبود بخشد، تاثیر آن به اندازه مورد دیگری در این لیست قابل توجه نخواهد بود.
عملکرد از دست دادن هوشمندانه تر
بستن! عملکرد باخت بهتر می تواند یک برد بزرگ برای شما به ارمغان بیاورد، اما همچنان در رتبه دوم از موارد دیگر در این لیست قرار دارد.

چرا جمع آوری یک مجموعه داده خوب مهم است؟

مترجم گوگل

یکی از تاثیرگذارترین پیشرفت‌های کیفی ما از زمان ترجمه ماشین عصبی، شناسایی بهترین زیرمجموعه داده‌های آموزشی برای استفاده بوده است.

- مهندس نرم افزار، Google Translate

تیم Google Translate داده‌های آموزشی بیشتری نسبت به آنچه می‌تواند استفاده کند، دارد. این تیم به جای تنظیم مدل خود، با استفاده از بهترین ویژگی ها در داده های خود، برنده های بزرگ تری به دست آورده است.

"...بیشتر مواقعی که سعی می کردم به صورت دستی خطاهای جالبی را اشکال زدایی کنم، می توان آنها را به مشکلات مربوط به داده های آموزشی ردیابی کرد."- مهندس نرم افزار، Google Translate

خطاهای "به ظاهر جالب" معمولاً توسط داده ها ایجاد می شوند. داده های معیوب ممکن است باعث شود مدل شما الگوهای اشتباهی را یاد بگیرد، صرف نظر از اینکه چه تکنیک های مدل سازی را امتحان می کنید.

پروژه رتینوپاتی دیابتی مغز

پروژه رتینوپاتی دیابتی Google Brain از معماری شبکه عصبی معروف به Inception استفاده کرد تا بیماری را با طبقه بندی تصاویر تشخیص دهد. تیم مدل ها را تغییر نداد. در عوض، آنها با ایجاد یک مجموعه داده از 120000 نمونه که توسط چشم پزشکان برچسب گذاری شده بودند، موفق شدند. (در https://research.google.com/pubs/pub43022.html بیشتر بیاموزید.)