تلاقی ویژگی: غیرخطی بودن کدگذاری

در شکل 1 و 2 موارد زیر را تصور کنید:

  • نقاط آبی نشان دهنده درختان بیمار هستند.
  • نقاط نارنجی نشان دهنده درختان سالم هستند.

نقاط آبی ربع شمال شرقی را اشغال می کنند. نقاط نارنجی رنگ ربع جنوب غربی را اشغال می کنند.

شکل 1. آیا این یک مسئله خطی است؟

آیا می توانید خطی بکشید که درختان بیمار را از درختان سالم جدا کند؟ مطمئن. این یک مشکل خطی است. خط کامل نخواهد بود یک یا دو درخت بیمار ممکن است در سمت "سالم" باشند، اما خط شما پیش بینی خوبی خواهد بود.

حالا به شکل زیر نگاه کنید:

نقاط آبی ربع شمال شرقی و جنوب غربی را اشغال می کنند. نقاط نارنجی رنگ ربع شمال غربی و جنوب شرقی را اشغال می کنند.

شکل 2. آیا این یک مسئله خطی است؟

آیا می توانید یک خط مستقیم بکشید که درختان بیمار را از درختان سالم جدا کند؟ نه، شما نمی توانید. این یک مسئله غیر خطی است. هر خطی که بکشید پیش بینی ضعیفی از سلامت درخت خواهد بود.

همان نقاشی شکل 2، با این تفاوت که یک خط افقی صفحه را می شکند. نقاط آبی و نارنجی بالای خط قرار دارند. نقاط آبی و نارنجی زیر خط هستند.

شکل 3. یک خط نمی تواند دو کلاس را از هم جدا کند.

برای حل مسئله غیرخطی نشان داده شده در شکل 2، یک متقاطع ویژگی ایجاد کنید. تلاقی ویژگی یک ویژگی مصنوعی است که با ضرب دو یا چند ویژگی ورودی در یکدیگر، غیرخطی بودن فضای ویژگی را رمزگذاری می کند. (اصطلاح متقاطع از محصول متقاطع می آید.) بیایید با عبور از \(x_1\)و \(x_2\)یک متقاطع ویژگی به نام \(x_3\) ایجاد کنیم:

$$x_3 = x_1x_2$$

ما با این متقاطع ویژگی \(x_3\) که به تازگی ساخته شده است، مانند هر ویژگی دیگری رفتار می کنیم. فرمول خطی تبدیل می شود:

$$y = b + w_1x_1 + w_2x_2 + w_3x_3$$

یک الگوریتم خطی می تواند وزن \(w_3\)را همانطور که برای \(w_1\) و \(w_2\)یاد می گیرد، بیاموزد. به عبارت دیگر، اگرچه \(w_3\) اطلاعات غیرخطی را رمزگذاری می کند، شما نیازی به تغییر نحوه آموزش مدل خطی برای تعیین مقدار \(w_3\)ندارید.

انواع صلیب های ویژگی

ما می توانیم انواع مختلفی از ضربدرهای ویژگی ایجاد کنیم. مثلا:

  • [AXB] : تلاقی ویژگی که از ضرب مقادیر دو ویژگی تشکیل می شود.
  • [A x B x C x D x E] : تلاقی مشخصه ای که از ضرب مقادیر پنج ویژگی تشکیل می شود.
  • [A x A] : متقاطع مشخصه ای که از مربع کردن یک مشخصه تشکیل می شود.

به لطف نزول گرادیان تصادفی ، مدل های خطی را می توان به طور موثر آموزش داد. در نتیجه، تکمیل مدل‌های خطی مقیاس‌شده با تلاقی ویژگی‌ها به طور سنتی راهی کارآمد برای آموزش بر روی مجموعه‌های داده در مقیاس عظیم بوده است.