اندازه و کیفیت یک مجموعه داده

زباله داخل، زباله بیرون

ضرب المثل قبلی در مورد یادگیری ماشینی صدق می کند. پس از همه، مدل شما فقط به اندازه داده های شما خوب است. اما چگونه می توان کیفیت مجموعه داده های خود را اندازه گیری کرد و آن را بهبود بخشید؟ و برای به دست آوردن نتایج مفید به چه مقدار داده نیاز دارید؟ پاسخ ها به نوع مشکلی که شما حل می کنید بستگی دارد.

اندازه یک مجموعه داده

به عنوان یک قاعده کلی، مدل شما باید حداقل بر اساس یک مرتبه بزرگتر از پارامترهای قابل آموزش، تمرین کند. مدل های ساده در مجموعه داده های بزرگ معمولاً مدل های فانتزی را در مجموعه داده های کوچک شکست می دهند. گوگل در آموزش مدل‌های رگرسیون خطی ساده بر روی مجموعه‌های داده بزرگ، موفقیت زیادی کسب کرده است.

چه چیزی به عنوان "بسیار" داده به حساب می آید؟ بستگی به پروژه دارد. اندازه نسبی این مجموعه داده ها را در نظر بگیرید:

مجموعه داده ها اندازه (تعداد نمونه)
مجموعه داده گل زنبق 150 (مجموعه مجموعه)
MovieLens (مجموعه داده 20 میلیونی) 20,000,263 (مجموعه مجموعه)
Google Gmail SmartReply 238,000,000 (مجموعه آموزشی)
Google Books Ngram 468,000,000,000 (کل مجموعه)
مترجم گوگل تریلیون ها

همانطور که می بینید، مجموعه داده ها در اندازه های مختلف هستند.

کیفیت یک مجموعه داده

اگر داده بد باشد، داشتن داده های زیاد فایده ای ندارد. کیفیت نیز مهم است اما چه چیزی به عنوان "کیفیت" به حساب می آید؟ این یک اصطلاح مبهم است. یک رویکرد تجربی را در نظر بگیرید و گزینه ای را انتخاب کنید که بهترین نتیجه را ایجاد می کند. با این طرز فکر، مجموعه داده‌های باکیفیت مجموعه‌ای است که به شما امکان می‌دهد با مشکل تجاری که به آن اهمیت می‌دهید موفق شوید. به عبارت دیگر، داده ها در صورتی خوب هستند که وظیفه مورد نظر خود را انجام دهند.

با این حال، در حین جمع آوری داده ها، داشتن یک تعریف دقیق تر از کیفیت مفید است. برخی از جنبه‌های کیفیت با مدل‌های با عملکرد بهتر مطابقت دارد:

  • قابلیت اطمینان
  • نمایش ویژگی
  • به حداقل رساندن انحراف

قابلیت اطمینان

قابلیت اطمینان به میزان اعتماد شما به داده های خود اشاره دارد. مدلی که بر روی یک مجموعه داده قابل اعتماد آموزش داده شده است، احتمال بیشتری دارد که پیش‌بینی‌های مفیدی را نسبت به مدلی که بر روی داده‌های غیرقابل اعتماد آموزش دیده است، ارائه دهد. در اندازه گیری قابلیت اطمینان، باید تعیین کنید:

  • خطاهای برچسب چقدر رایج است؟ به عنوان مثال، اگر داده های شما توسط انسان ها برچسب گذاری شده است، گاهی اوقات انسان ها اشتباه می کنند.
  • آیا ویژگی های شما نویز دارد؟ به عنوان مثال، اندازه گیری های GPS در نوسان هستند. مقداری سر و صدا اشکالی ندارد. شما هرگز مجموعه داده های خود را از تمام نویزها پاک نمی کنید. می توانید نمونه های بیشتری را نیز جمع آوری کنید.
  • آیا داده ها به درستی برای مشکل شما فیلتر شده اند؟ به عنوان مثال، آیا مجموعه داده های شما باید شامل پرس و جوهای جستجو از ربات ها باشد؟ اگر در حال ساختن یک سیستم تشخیص هرزنامه هستید، احتمالاً پاسخ مثبت است، اما اگر می‌خواهید نتایج جستجو را برای انسان‌ها بهبود ببخشید، خیر.

چه چیزی داده ها را غیر قابل اعتماد می کند؟ از دوره تصادف یادگیری ماشینی به یاد بیاورید که بسیاری از نمونه‌ها در مجموعه داده‌ها به دلیل یک یا چند مورد زیر قابل اعتماد نیستند:

  • مقادیر حذف شده به عنوان مثال، شخصی فراموش کرده است که مقداری را برای سن خانه وارد کند.
  • نمونه های تکراری به عنوان مثال، یک سرور به اشتباه دو بار گزارش های مشابه را آپلود کرده است.
  • برچسب های بد به عنوان مثال، شخصی به تصویر یک درخت بلوط به اشتباه به عنوان افرا برچسب زد.
  • مقادیر بد ویژگی به عنوان مثال، شخصی یک رقم اضافی تایپ کرده است، یا یک دماسنج در زیر نور خورشید باقی مانده است.

Google Translate برای انتخاب «بهترین زیرمجموعه» از داده‌های خود بر قابلیت اطمینان تمرکز کرده است. یعنی برخی از داده ها دارای برچسب کیفیت بالاتری نسبت به سایر قسمت ها بودند.

نمایش ویژگی

از دوره تصادف یادگیری ماشینی به یاد بیاورید که نمایش، نگاشت داده ها به ویژگی های مفید است. شما می خواهید سوالات زیر را در نظر بگیرید:

  • چگونه داده ها به مدل نشان داده می شوند؟
  • آیا باید مقادیر عددی را نرمال کنید؟
  • چگونه باید با موارد پرت برخورد کرد؟

بخش Transform Your Data این دوره بر روی نمایش ویژگی ها تمرکز دارد.

آموزش در مقابل پیش بینی

فرض کنید به صورت آفلاین نتایج عالی می گیرید. سپس در آزمایش زنده شما، آن نتایج پایدار نمی ماند. چه اتفاقی می تواند بیفتد؟

این مشکل نشان‌دهنده انحراف آموزش/سرویس است، یعنی نتایج متفاوتی برای معیارهای شما در زمان آموزش در مقابل زمان ارائه محاسبه می‌شود. علل انحراف می تواند ظریف باشد اما اثرات مرگباری بر نتایج شما دارد. همیشه در نظر بگیرید که چه داده هایی در زمان پیش بینی در دسترس مدل شما هستند. در طول آموزش، فقط از ویژگی هایی استفاده کنید که در سرویس دهی در دسترس خواهید بود و مطمئن شوید مجموعه آموزشی شما نماینده ترافیک سرویس دهی شما باشد.