این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.

کاهش تلفات: نزول گرادیان

نمودار رویکرد تکراری ( شکل 1 ) حاوی یک جعبه موج دار سبز رنگ با عنوان "محاسبه به روز رسانی پارامترها" بود. اکنون آن غبار پری الگوریتمی را با چیزی اساسی تر جایگزین می کنیم.

فرض کنید ما زمان و منابع محاسباتی برای محاسبه ضرر برای همه مقادیر ممکن $w_1$در اختیار داشتیم. برای نوع مشکلات رگرسیونی که ما بررسی کرده‌ایم، نمودار حاصل از ضرر در مقابل $w_1$ همیشه محدب خواهد بود. به عبارت دیگر، طرح همیشه کاسه ای شکل خواهد بود، به نوعی مانند این:

نمودار یک منحنی U شکل، با محور عمودی با عنوان "از دست دادن" و محور افقی به عنوان مقدار وزن w i.

شکل 2. مشکلات رگرسیون باعث کاهش محدب در مقابل نمودارهای وزنی می شود.

مسائل محدب فقط یک حداقل دارند. یعنی فقط یک جایی که شیب دقیقاً 0 است. آن حداقل جایی است که تابع ضرر همگرا می شود.

محاسبه تابع ضرر برای هر مقدار قابل تصور $w_1$در کل مجموعه داده، راهی ناکارآمد برای یافتن نقطه همگرایی خواهد بود. بیایید مکانیسم بهتری را بررسی کنیم - که در یادگیری ماشین بسیار محبوب است - به نام گرادیان نزول .

اولین مرحله در نزول گرادیان، انتخاب یک مقدار شروع (نقطه شروع) برای $w_1$است. نقطه شروع خیلی مهم نیست. بنابراین، بسیاری از الگوریتم‌ها به سادگی $w_1$ روی 0 تنظیم می‌کنند یا یک مقدار تصادفی را انتخاب می‌کنند. شکل زیر نشان می دهد که ما نقطه شروع را کمی بزرگتر از 0 انتخاب کرده ایم:

نمودار یک منحنی U شکل. یک نقطه تقریباً در نیمه سمت چپ منحنی، "نقطه شروع" نامگذاری شده است.

شکل 3. نقطه شروع برای نزول گرادیان.

سپس الگوریتم گرادیان نزول گرادیان منحنی تلفات را در نقطه شروع محاسبه می کند. در اینجا در شکل 3، گرادیان افت برابر با مشتق (شیب) منحنی است و به شما می گوید که کدام سمت "گرمتر" یا "سردتر" است. هنگامی که چندین وزن وجود دارد، گرادیان بردار مشتقات جزئی نسبت به وزن ها است.

برای کسب اطلاعات بیشتر در مورد مشتقات جزئی و گرادیان، روی نماد مثبت کلیک کنید.

ریاضیات در مورد یادگیری ماشینی جذاب است و ما خوشحالیم که برای کسب اطلاعات بیشتر روی پیوند کلیک کردید. با این حال، لطفاً توجه داشته باشید که TensorFlow تمام محاسبات گرادیان را برای شما انجام می دهد، بنابراین در واقع نیازی به درک محاسبات ارائه شده در اینجا ندارید.

مشتقات جزئی

تابع چند متغیره تابعی با بیش از یک آرگومان است، مانند:

$$f(x,y) = e^{2y}\sin(x)$$

مشتق جزئی $f$ با توجه به $x$ ، به صورت زیر نشان داده می شود:

$$ \partial f \over \partial x $$

مشتق $f$ است که به تنهایی تابعی از $x$در نظر گرفته می شود. برای یافتن موارد زیر:

$$\partial f \over \partial x $$

شما باید $y$ ثابت نگه دارید (بنابراین $f$ اکنون تابعی از یک متغیر $x$است)، و مشتق منظم $f$را نسبت به $x$بگیرید. به عنوان مثال، زمانی که $y$ روی 1 ثابت می شود، تابع قبلی تبدیل می شود:

$$ f(x) = e^2\sin(x) $$

این فقط تابعی از یک متغیر $x$است که مشتق آن عبارت است از:

$$ e^2\cos(x) $$

به طور کلی، با تصور اینکه $y$ ثابت است، مشتق جزئی $f$ با توجه به $x$ به صورت زیر محاسبه می شود:

$$\frac{\partial f}{\partial x}(x,y) = e^{2y}\cos(x)$$

به طور مشابه، اگر $x$ ثابت نگه داریم، مشتق جزئی $f$ نسبت به $y$ است:

$$ \frac{\partial f}{\partial y}(x,y) = 2e^{2y}\sin(x) $$

به طور شهودی، یک مشتق جزئی به شما می گوید که وقتی کمی یک متغیر را آشفته می کنید، این تابع چقدر تغییر می کند. در مثال قبل:

$$ \frac{\partial f}{\partial x} (0,1) = e^2 \approx 7.4 $$

بنابراین وقتی از $(0,1)$شروع می کنید، $y$ ثابت نگه دارید و $x$ کمی جابه جا می کنید،$f$ حدود 7.4 برابر مقداری که $x$را تغییر داده اید تغییر می کند.

در یادگیری ماشینی، مشتقات جزئی بیشتر در ارتباط با گرادیان یک تابع استفاده می شوند.

گرادیان ها

گرادیان یک تابع که به صورت زیر نشان داده می شود، بردار مشتقات جزئی با توجه به همه متغیرهای مستقل است:

$$ \nabla f $$

به عنوان مثال، اگر:

$$ f(x,y) = e^{2y}\sin(x) $$

سپس:

$$\nabla f(x,y) = \left(\frac{\partial f}{\partial x}(x,y), \frac{\partial f}{\partial y}(x,y)\right) = (e^{2y}\cos(x), 2e^{2y}\sin(x))$$

به موارد زیر توجه کنید:

$$\nabla f$$	نقاط در جهت بیشترین افزایش تابع.
$$ {-\nabla f} $$	نقاط در جهت بیشترین کاهش تابع.

تعداد ابعاد در بردار برابر با تعداد متغیرهای فرمول $f$است. به عبارت دیگر، بردار در فضای دامنه تابع قرار می گیرد. به عنوان مثال، نمودار تابع زیر $f(x,y)$:

$$ f(x,y) = 4 + (x - 2)^2 + 2y^2 $$

وقتی به صورت سه بعدی با $z = f(x,y)$ مشاهده می شود، مانند دره ای با حداقل در $(2,0,4)$به نظر می رسد:

گرادیان $f(x,y)$ یک بردار دو بعدی است که به شما می گوید برای حداکثر افزایش ارتفاع در کدام جهت$(x,y)$ حرکت کنید. بنابراین، منفی گرادیان شما را در جهت حداکثر کاهش ارتفاع حرکت می دهد. به عبارت دیگر، منفی بردار گرادیان به دره اشاره می کند.

در یادگیری ماشینی، گرادیان در نزول گرادیان استفاده می شود. ما اغلب یک تابع ضرر از متغیرهای زیادی داریم که سعی می کنیم آنها را به حداقل برسانیم و سعی می کنیم این کار را با پیروی از منفی گرادیان تابع انجام دهیم.

توجه داشته باشید که گرادیان یک بردار است، بنابراین هر دو ویژگی زیر را دارد:

یک جهت
یک قدر

گرادیان همیشه در جهت تندترین افزایش در تابع تلفات اشاره می کند. الگوریتم گرادیان نزول یک گام در جهت گرادیان منفی برمی دارد تا در سریع ترین زمان ممکن تلفات را کاهش دهد.

نمودار یک منحنی U شکل. نقطه ای در سمت چپ منحنی برچسب "نقطه شروع" است. یک فلش با برچسب " گرادیان منفی" از این نقطه به سمت راست اشاره می کند.

شکل 4. نزول گرادیان بر شیب های منفی متکی است.

برای تعیین نقطه بعدی در امتداد منحنی تابع تلفات، الگوریتم گرادیان نزول کسری از بزرگی گرادیان را همانطور که در شکل زیر نشان داده شده است به نقطه شروع اضافه می کند:

نمودار یک منحنی U شکل. نقطه ای در سمت چپ منحنی برچسب "نقطه شروع" است. یک فلش با برچسب " گرادیان منفی" از این نقطه به سمت راست اشاره می کند. فلش دیگر از نوک فلش اول به سمت پایین به نقطه دوم در منحنی اشاره می کند. نقطه دوم با برچسب "نقطه بعدی" است.

شکل 5. یک گام گرادیان ما را به نقطه بعدی در منحنی ضرر می برد.

سپس شیب نزول این فرآیند را تکرار می‌کند و هرچه بیشتر به حداقل می‌رسد.