דף זה תורגם על ידי Cloud Translation API.

Random Forest

זהו שור.

תמונה ישנה מאוד של שור.

איור 19. שור.

בשנת 1906, התחרות הראשונה לשיפוט משקלים התקיימה באנגליה. 787 משתתפים ניחשו את המשקל של שור. השגיאה החציונית של השערות נפרדות הייתה 17 ק"ג (שגיאה של 3.1%). עם זאת, החציון הכולל של התשובות היה שגוי רק ב-4 ק"ג מהמשקל האמיתי של השור (499 ק"ג), כלומר שגיאה של 0.7% בלבד.

היסטוגרמה של ניחושים ספציפיים, שמראה שרוב הניחושים נמצאים בקרבת המשקל בפועל של השור.

איור 20. היסטוגרמה של השערות המשקל הנפרדות.

הסיפור הזה מדגים את חוכמת ההמונים: במצבים מסוימים, דעה קולקטיבית מספקת שיקול דעת טוב מאוד.

מבחינה מתמטית, אפשר ליצור מודל של 'חוכמת ההמונים' באמצעות משפט המגבלה המרכזית: באופן לא רשמי, השגיאה הריבונית בין ערך מסוים לבין הממוצע של N אומדנים רועשים של הערך הזה נוטה לאפס עם גורם של 1/N. עם זאת, אם המשתנים לא עצמאיים, השונות גדולה יותר.

בלמידת מכונה, אוסף מודלים הוא אוסף של מודלים שהתחזיות שלהם ממוצעות (או נצברות בדרך כלשהי). אם המודלים של האנסמבל שונים מספיק בלי להיות גרועים מדי בנפרד, האיכות של האנסמבל בדרך כלל טובה יותר מהאיכות של כל אחד מהמודלים הנפרדים. אימון של אנסמבל ותהליך ההסקה שלו נמשכים יותר זמן מאשר של מודל יחיד. אחרי הכל, צריך לבצע אימון והסקה בכמה מודלים במקום במודל אחד.

באופן לא רשמי, כדי שהאנסמבל יפעל בצורה הטובה ביותר, המודלים הנפרדים צריכים להיות עצמאיים. לדוגמה, אנסמבל שמורכב מ-10 מודלים זהים לחלוטין (כלומר, לא עצמאיים בכלל) לא יהיה טוב יותר מהמודל הבודד. מצד שני, אם תכריחו את המודלים להיות עצמאיים, יכול להיות שהם יהיו גרועים יותר. כדי ליצור קבוצות מודלים יעילות, צריך למצוא איזון בין העצמאות של המודל לבין האיכות של מודלי המשנה שלו.

מבוא

יערות אקראיים

Random Forest קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

Random Forest