با مجموعهها، منظم بمانید
ذخیره و دستهبندی محتوا براساس اولویتهای شما.
تصور کنید که در حال توسعه یک برنامه توصیه غذایی هستید که در آن کاربران غذاهای مورد علاقه خود را وارد می کنند و برنامه غذاهای مشابهی را پیشنهاد می کند که ممکن است آنها دوست داشته باشند. میخواهید یک مدل یادگیری ماشینی (ML) ایجاد کنید که بتواند شباهت غذا را پیشبینی کند، بنابراین برنامهتان میتواند توصیههایی با کیفیت بالا ارائه دهد ("از آنجایی که پنکیک دوست دارید، ما کرپ را توصیه میکنیم").
برای آموزش مدل خود، مجموعه داده ای متشکل از 5000 غذای محبوب، از جمله گل گاوزبان ، هات داگ ، سالاد ، پیتزا و شاورما را تنظیم می کنید.
شکل 1. نمونه برداری از اقلام غذایی موجود در مجموعه داده های غذایی.
شما یک ویژگی meal ایجاد می کنید که حاوی یک نمایش رمزگذاری شده یکباره از هر یک از آیتم های وعده غذایی در مجموعه داده است.
شکل 2. رمزگذاری یک داغ گل گاوزبان، هات داگ و شاورما. هر بردار رمزگذاری یک داغ دارای طول 5000 است (یک ورودی برای هر آیتم منو در مجموعه داده). بیضی در نمودار نشان دهنده 4995 ورودی است که نشان داده نشده است.
مشکلات نمایش داده های پراکنده
با مرور این کدگذاریهای تک داغ، متوجه دو مشکل کلیدی در این نمایش دادهها میشوید.
تعداد وزنه ها بردارهای ورودی بزرگ به معنای تعداد زیادی وزن برای یک شبکه عصبی است. با ورودیهای M در کدگذاری یکطرفه و N گره در اولین لایه شبکه پس از ورودی، مدل باید وزنهای MxN را برای آن لایه آموزش دهد. تعداد زیاد وزنه ها باعث مشکلات بیشتر می شود:
تعداد نقاط داده هر چه وزن مدل شما بیشتر باشد، برای تمرین موثر به داده های بیشتری نیاز دارید.
مقدار محاسبه هر چه وزن ها بیشتر باشد، محاسبات بیشتری برای آموزش و استفاده از مدل مورد نیاز است. فراتر رفتن از توانایی های سخت افزاری شما آسان است.
مقدار حافظه هر چه وزنه های مدل شما بیشتر باشد، حافظه بیشتری در شتاب دهنده هایی که آن را آموزش می دهند و سرویس می دهند مورد نیاز است. افزایش کارآمد این امر بسیار دشوار است.
مشکل پشتیبانی از یادگیری ماشین روی دستگاه (ODML) . اگر میخواهید مدل ML خود را روی دستگاههای محلی اجرا کنید (برخلاف ارائه آنها)، باید روی کوچکتر کردن مدل خود تمرکز کنید و میخواهید تعداد وزنها را کاهش دهید.
عدم وجود روابط معنادار بین بردارها . مقادیر برداری در رمزگذاری های یک گرم برای غذا هیچ اطلاعات معنی داری در مورد شباهت اقلام غذایی ارائه نمی دهد. از نظر ریاضی، شاخص 1 ("هات داگ") به شاخص 2 ("سالاد") نزدیکتر است تا به شاخص 4999 ("شاورما")، حتی اگر هات داگ بیشتر شبیه شاورما (هر دو حاوی گوشت و نان) باشد تا سالاد. .
در این ماژول، یاد خواهید گرفت که چگونه جاسازیهایی ایجاد کنید، نمایشهایی با ابعاد پایینتر از دادههای پراکنده، که به هر دو این مسائل رسیدگی میکند.
تاریخ آخرین بهروزرسانی 2024-11-04 بهوقت ساعت هماهنگ جهانی.
[[["درک آسان","easyToUnderstand","thumb-up"],["مشکلم را برطرف کرد","solvedMyProblem","thumb-up"],["غیره","otherUp","thumb-up"]],[["اطلاعاتی که نیاز دارم وجود ندارد","missingTheInformationINeed","thumb-down"],["بیشازحد پیچیده/ مراحل بسیار زیاد","tooComplicatedTooManySteps","thumb-down"],["قدیمی","outOfDate","thumb-down"],["مشکل ترجمه","translationIssue","thumb-down"],["مشکل کد / نمونهها","samplesCodeIssue","thumb-down"],["غیره","otherDown","thumb-down"]],["تاریخ آخرین بهروزرسانی 2024-11-04 بهوقت ساعت هماهنگ جهانی."],[[["This module explains how to create embeddings, which are lower-dimensional representations of sparse data that address the problems of large input vectors and lack of meaningful relations between vectors in one-hot encoding."],["One-hot encoding creates large input vectors, leading to a huge number of weights in a neural network, requiring more data, computation, and memory."],["One-hot encoding vectors lack meaningful relationships, failing to capture semantic similarities between items, like the example of hot dogs and shawarmas being more similar than hot dogs and salads."],["Embeddings offer a solution by providing dense vector representations that capture semantic relationships and reduce the dimensionality of data, improving efficiency and performance in machine learning models."],["This module assumes familiarity with introductory machine learning concepts like linear regression, categorical data, and neural networks."]]],[]]