רשתות נוירונים

ייתכן שזכרתם מהתרגילים של Feature cross במודול 'נתונים קטגוריאליים', שבעיית הסיווג הבאה היא לא לינארית:

איור 1.  מישור קואורדינטות קרטזי, שמחולק לארבעה רבעונים, שכל אחד מהם מלא בנקודות אקראיות בצורה שדומה למרובע. הנקודות בצד ימין למעלה ובצד שמאל למטה הן כחולות,
      והנקודות במרובעים בפינה השמאלית העליונה והימנית התחתונה הן כתומות.
איור 1. בעיית סיווג לא ליניארית. פונקציה לינארית לא יכולה להפריד בבירור בין כל הנקודות הכחולות לנקודות הכתומות.

'לא לינארי' פירושו שלא ניתן לחזות באופן מדויק תווית עם בצורת \(b + w_1x_1 + w_2x_2\). במילים אחרות, 'שטח לקבלת החלטה' הוא לא שורה.

עם זאת, אם נבצע שילוב של תכונות בתכונות $x_1$ ו-$x_2$, נוכל שמייצג את הקשר הלא ליניארי בין שתי התכונות באמצעות מודל לינארי: $b + w_1x_1 + w_2x_2 + w_3x_3$ כאשר $x_3$ הוא שילוב התכונות $x_1$ ו-$x_2$:

איור 2. אותו מישור קואורדינטות קרטזיות של כחול וכתום
      נקודות כמו באיור 1.  עם זאת, הפעם מוצגת עקומה היפרבולית לבנה מעל לרשת, שמפרידה בין הנקודות הכחולות ברבעונים השמאלי העליון והשמאלי התחתון (עכשיו בצללית עם רקע כחול) לבין הנקודות הכתומות ברבעונים השמאלי העליון והשמאלי התחתון (עכשיו בצללית עם רקע כתום).
איור 2. הוספת המכפלה של המאפיינים x1x2 מאפשרת למודל ליניארי ללמוד צורה היפרבולית שמפרידה בין הנקודות הכחולות לנקודות הכתומות.

עכשיו נבחן את מערך הנתונים הבא:

איור 3.  מישור קואורדינטות קרטזיות, מחולק לארבעה רבעונים.
      אשכול עגול של נקודות כחולות במרכז המקור של הגרף, מוקף בטבעת של נקודות כתום.
איור 3. בעיית סיווג לא ליניארית קשה יותר.

אפשר גם להיזכר בתרגילי פיצ'ר שקובעת מהי התכונה הנכונה חוצה כדי להתאים מודל ליניארי לנתונים האלה השקענו קצת יותר מאמץ וניסויים.

אבל מה אם לא הייתם צריכים לבצע את כל הניסויים האלה בעצמכם? רשתות נוירונים הן משפחה של ארכיטקטורות מודל שנועדו לזהות דפוסים לא לינאריים בנתונים. במהלך האימון של רשת נוירונים, בניית מודל באופן אוטומטי לומדת את הצלבות התכונות האופטימליות שצריך לבצע על נתוני הקלט כדי לצמצם .

בחלקים הבאים נבחן לעומק את אופן הפעולה של רשתות נוירונים.