שלב 5: כוונון של פרמטרים מותאמים אישית

היינו צריכים לבחור מספר היפר-פרמטרים להגדרה ולאימון של המודל. הסתמכנו על אינטואיציה, דוגמאות והמלצות מומלצות. עם זאת, הבחירה הראשונה שלנו בערכים של היפר-פרמטרים עשויה שלא להניב את התוצאות הטובות ביותר. זוהי רק נקודת התחלה טובה להדרכה. כל בעיה היא שונה, וכוונון הפרמטרים האלה יעזור לשפר את המודל כך שישקף בצורה טובה יותר את הייחודיות של הבעיה. בואו נבחן כמה מההיפר-פרמטרים שבהם השתמשנו והמשמעות של הכוונון שלהם:

  • מספר השכבות במודל: מספר השכבות ברשת הנוירונים מעיד על המורכבות שלו. יש להפעיל שיקול דעת בעת בחירת הערך הזה. שכבות רבות מדי יאפשרו למודל ללמוד יותר מדי מידע על נתוני האימון, מה שגורם להתאמה יתר. מעט מדי שכבות יכולות להגביל את יכולת הלמידה של המודל, ולגרום לחוסר התאמה. לגבי מערכי נתונים של סיווג טקסט, התנסינו ב-MLP אחד, שניים או שלושה שכבות. מודלים עם שתי שכבות הניבו ביצועים טובים, ובמקרים מסוימים, טובים יותר ממודלים עם שלוש שכבות. באופן דומה, ניסינו sepCNN עם ארבע ושש שכבות, והמודלים של ארבע השכבות הניבו ביצועים טובים.

  • מספר היחידות לכל שכבה: היחידות בשכבה צריכות להכיל את המידע על השינוי שעוברת שכבה. עבור השכבה הראשונה, יש לכך מספר תכונות. בשכבות הבאות, מספר היחידות תלוי בבחירה להרחיב או לכווץ את הייצוג מהשכבה הקודמת. נסו לצמצם את אובדן המידע בין השכבות. ניסינו ערכים של יחידות בטווח [8, 16, 32, 64], ויחידות של 32/64 פעלו היטב.

  • שיעור הנשירה מתהליך ההמרה: שכבות הנטייה משמשות במודל לנורמליזציה. הן מגדירות את השבר של הקלט לנפילה כאמצעי זהירות להתאמה יתר. טווח מומלץ: 0.2–0.5.

  • שיעור למידה: זהו השיעור שבו המשקלים של רשת הנוירונים משתנים בין איטרציות. שיעור למידה גבוה עלול לגרום לתנודות גדולות במשקל, וייתכן שלעולם לא נמצא את הערכים האופטימליים שלהן. שיעור למידה נמוך הוא טוב, אבל המודל יתארך יותר. מומלץ להתחיל ממינימום, בין 1 ל-4. אם האימון איטי מאוד, יש להגדיל את הערך הזה. אם המודל לא לומד, נסו להפחית את שיעור הלמידה.

יש כמה פרמטרים היפר-פרמטרים נוספים שספציפיים למודל sepCNN שלנו:

  1. גודל הליבה: הגודל של חלון ההמרות. ערכים מומלצים: 3 או 5.

  2. מאפייני הטמעה: מספר המאפיינים שבהם אנחנו רוצים להשתמש כדי לייצג הטמעות של מילים – כלומר, הגודל של כל וקטור מילים. ערכים מומלצים: 50-300. בניסויים שלנו השתמשנו בהטמעות של GloVe עם 200 מאפיינים עם שכבת הטמעה מתאמנת מראש.

אפשר לשחק עם ההיפר-פרמטרים האלה ולראות מה עובד הכי טוב. אחרי שתבחרו את הפרמטרים הנוספים שמניבים את הביצועים הטובים ביותר לתרחיש לדוגמה שלכם, המודל שלכם יהיה מוכן לפריסה.