الخطوة 2.5: اختيار نموذج

لقد جمعنا في هذه المرحلة مجموعة البيانات الخاصة بنا، وحصلنا على إحصاءات عن السمات الرئيسية لبياناتنا. بعد ذلك، استنادًا إلى المقاييس التي جمعناها في الخطوة 2، علينا التفكير في نموذج التصنيف الذي يجب استخدامه. وهذا يعني طرح أسئلة مثل، "كيف يمكننا تقديم البيانات النصية لخوارزمية تتوقّع إدخالاً رقميًا؟" (يُطلق على هذه العملية اسم "المعالجة المسبقة للبيانات والتوجيه")، و"ما نوع النموذج الذي يجب استخدامه؟" و"ما هي معلمات الضبط التي يجب استخدامها لنموذجنا؟" وما إلى ذلك

بفضل عقود من الأبحاث، أصبح بإمكاننا الوصول إلى مجموعة كبيرة من خيارات المعالجة المسبقة للبيانات وإعداد النماذج. ومع ذلك، فإنّ توفّر مجموعة كبيرة جدًا من الخيارات الصالحة للاختيار من بينها يزيد من درجة تعقيد المشكلة ونطاقها بشكل كبير. وبما أنّ أفضل الخيارات قد لا تكون واضحة، ننصحك بتجربة كل خيار معمّق بشكل شامل، مع التركيز على بعض الخيارات. مع ذلك، سيكون هذا مكلفًا للغاية.

في هذا الدليل، نحاول تبسيط عملية اختيار نموذج تصنيف نصي بشكلٍ كبير. بالنسبة إلى مجموعة بيانات معيّنة، يتمثّل هدفنا في العثور على خوارزمية تحقّق الدقة القصوى مع تقليل وقت الحساب المطلوب للتدريب. لقد أجرينا عددًا كبيرًا من التجارب (حوالي 450 ألف) على مستوى أنواع مختلفة من المشاكل (خاصةً تحليل المشاعر وتصنيف المواضيع) باستخدام 12 مجموعة بيانات وبالتبادل مع كل مجموعة بيانات بين تقنيات المعالجة المسبقة للبيانات وبنية النماذج المختلفة. ساعدتنا هذه الخطوة في تحديد معلَمات مجموعة البيانات التي تؤثر في الخيارات الأمثل.

تمثّل خوارزمية اختيار النموذج والمخطط الانسيابي أدناه ملخّصًا لتجاربنا. لا تقلق إذا لم تكن على دراية بكل العبارات المستخدَمة فيها، ستشرح الأقسام التالية من هذا الدليل بالتفصيل.

خوارزمية لإعداد البيانات وإنشاء النماذج

1. Calculate the number of samples/number of words per sample ratio.
2. If this ratio is less than 1500, tokenize the text as n-grams and use a
simple multi-layer perceptron (MLP) model to classify them (left branch in the
flowchart below):
  a. Split the samples into word n-grams; convert the n-grams into vectors.
  b. Score the importance of the vectors and then select the top 20K using the scores.
  c. Build an MLP model.
3. If the ratio is greater than 1500, tokenize the text as sequences and use a
   sepCNN model to classify them (right branch in the flowchart below):
  a. Split the samples into words; select the top 20K words based on their frequency.
  b. Convert the samples into word sequence vectors.
  c. If the original number of samples/number of words per sample ratio is less
     than 15K, using a fine-tuned pre-trained embedding with the sepCNN
     model will likely provide the best results.
4. Measure the model performance with different hyperparameter values to find
   the best model configuration for the dataset.

في المخطط الانسيابي أدناه، تشير المربّعات الصفراء إلى البيانات وعمليات تجهيز النماذج. تشير المربّعات الرمادية والمربعات الخضراء إلى الخيارات التي وضعناها في الاعتبار لكل عملية. تشير المربّعات الخضراء إلى اختيارنا المقترح لكل عملية.

يمكنك استخدام هذا المخطط الانسيابي كنقطة بداية لإنشاء تجربتك الأولى، لأنه سيمنحك دقة عالية بتكاليف حسابية منخفضة. ويمكنك بعد ذلك مواصلة تحسين النموذج المبدئي على مدار التحسينات اللاحقة.

مخطط انسيابي لتصنيف النص

الشكل 5: مخطط انسيابي لتصنيف النص

يجيب هذا المخطط الانسيابي عن سؤالَين رئيسيَين:

  1. ما هي خوارزمية التعلُّم أو النموذج الذي يجب استخدامه؟

  2. كيف يمكننا إعداد البيانات لمعرفة العلاقة بين النص والتصنيف بكفاءة؟

تعتمد الإجابة على السؤال الثاني على إجابة السؤال الأول، وتستند الطريقة التي نعالج بها البيانات مسبقًا لتضمينها في نموذج إلى النموذج الذي نختاره. يمكن تصنيف النماذج على نطاق واسع إلى فئتين: المجموعات التي تستخدم معلومات ترتيب الكلمات (نماذج التسلسل) والفئات التي ترى نصًا فقط باسم "حقائب" (مجموعات) من الكلمات (نماذج n-gram). تشمل أنواع نماذج التسلسلات الشبكات العصبونية التشويهية (CNNs) والشبكات العصبية المتكررة (RNNs) وخياراتها المختلفة. تشمل أنواع نماذج n-gram الانحدار اللوجستي والانطباعات البسيطة المتعددة الطبقات (MLPs أو الشبكات العصبونية المتصلة بالكامل) والأشجار المعزّزة بالتدرّج والآلات المتّجهة.

من تجاربنا، لاحظنا أن نسبة"عدد العيّنات" (S) إلى"عدد الكلمات لكل عيّنة" (W) مرتبطة بالنموذج الذي يحقّق أداءً جيدًا.

عندما تكون قيمة هذه النسبة صغيرة (<1500)، فإن الانطباعات الصغيرة المتعددة الطبقات التي تأخذ n-gram كإدخال (والتي نُطلق عليها اسم الخيار A) يكون أداؤها أفضل أو على الأقل بالإضافة إلى نماذج التسلسل. يسهُل تحديد نقاط تعلُّم الآلة (MLP) وفهمها، كما أنّها تستغرق وقتًا أقل من الكمبيوتر مقارنةً بنماذج التسلسل. عندما تكون قيمة هذه النسبة كبيرة (>= 1500)، استخدِم نموذج تسلسل (الخيار ب). في الخطوات التالية، يمكنك تخطّي الأقسام الفرعية ذات الصلة (المصنّفة أ أو ب) لنوع النموذج الذي اخترته استنادًا إلى نسبة العينات/الكلمات/العيّنة.

في حالة مجموعة بيانات مراجعة IMDb، تكون نسبة العينات/الكلمات الرئيسية لكل نموذج 144 تقريبًا. وهذا يعني أنّنا سننشئ نموذجًا لدوري كرة القاعدة الرئيسي.