نشر المكوّن الإضافي لأداة Norconex HTTP Collector

هذا الدليل مخصّص للمشرفين المسؤولين عن تنزيل وتوزيع وصيانة مكوّن الفهرسة الإضافي "جامع HTTP" من Norconex في Google Cloud Search. يجب أن تكون على دراية بنظام التشغيل Linux وأساسيات الزحف على الويب وتنسيق XML وNorconex HTTP Collector.

يتضمّن هذا الدليل تعليمات حول ما يلي:

  • نزِّل برنامج المكوّن الإضافي للفهرسة.
  • إعداد Cloud Search
  • ضبط Norconex HTTP Collector والزحف على الويب
  • ابدأ الزحف إلى الويب وحمِّل المحتوى.

لا يتضمّن هذا الدليل معلومات حول المهام التي يجب أن ينفّذها مشرف Google Workspace. للحصول على معلومات حول هذه المهام، يُرجى الاطّلاع على مقالة إدارة مصادر البيانات التابعة لجهات خارجية.

نظرة عامة على المكوّن الإضافي لفهرسة Norconex HTTP Collector

بشكلٍ تلقائي، يمكن لخدمة Cloud Search اكتشاف المحتوى وفهرسته وعرضه من منتجات Google Workspace، مثل "مستندات Google" وGmail. يمكنك توسيع نطاق ذلك ليشمل محتوى الويب من خلال نشر المكوّن الإضافي للفهرسة الخاص بـ Norconex HTTP Collector، وهو برنامج زحف مفتوح المصدر على الويب خاص بالمؤسسات.

ملفات خصائص الإعداد

لكي يتمكّن المكوّن الإضافي من الزحف إلى المحتوى وتحميله، يجب تقديم معلومات محدّدة في ملفَّي إعدادات:

  • {gcs-crawl-config.xml}: إعدادات Norconex HTTP Collector
  • sdk-configuration.properties: إعدادات Cloud Search

الزحف إلى الويب وتحميل المحتوى

بعد ملء ملفات الإعداد، يمكنك بدء الزحف على الويب. يزحف Norconex HTTP Collector إلى الويب ويحمّل المحتوى الأصلي للمستندات الثنائية أو النصية إلى واجهة برمجة التطبيقات للفهرسة في Cloud Search.

متطلبات النظام

  • نظام التشغيل: Linux فقط
  • إصدار Norconex: الإصدار 2.8.0
  • البرنامج: Java JRE 1.8

التوافق مع قوائم ACL

تتيح إضافة الفهرسة استخدام قوائم التحكم بالوصول (ACL) للتحكّم في الوصول إلى المستندات في نطاق Google Workspace.

في حال تفعيل قوائم التحكّم بالوصول التلقائية في إعدادات المكوِّن الإضافي (تم ضبط defaultAcl.mode على قيمة أخرى غير none)، سيطبّق المكوِّن الإضافي هذه الإعدادات التلقائية. بخلاف ذلك، يمنح المكوّن الإضافي إذن القراءة للنطاق بأكمله. اطّلِع على مَعلمات الموصل التي توفّرها Google.

المتطلبات الأساسية

قبل نشر مكوّن إضافي للفهرسة، اجمع المكوّنات التالية:

خطوات النشر

  1. تثبيت Norconex HTTP Collector وبرنامج المكوّن الإضافي
  2. ضبط Cloud Search
  3. ضبط Norconex HTTP Collector
  4. ضبط الزحف على الويب
  5. بدء عملية الزحف إلى الويب وتحميل المحتوى

الخطوة 1: تثبيت Norconex HTTP Collector وبرامج المكوّن الإضافي

  1. نزِّل برنامج Norconex committer من صفحة التنزيل على موقع Norconex الإلكتروني.
  2. استخرِج البرنامج إلى ~/norconex/.
  3. استنسِخ المكوّن الإضافي Committer:

    git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
    cd norconex-committer-plugin
    
  4. اطّلِع على الإصدار الذي اخترته وأنشئ المكوّن الإضافي:

    git checkout tags/v1-0.0.3
    mvn package
    

    لتخطّي الاختبارات، استخدِم mvn package -DskipTests.

  5. انسخ ملف JAR إلى دليل Norconex lib:

    cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib
    
  6. استخرِج ملف ZIP الذي تم إنشاؤه:

    unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
    cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    
  7. شغِّل نص التثبيت البرمجي وقدِّم المسار الكامل إلى دليل Norconex lib:

    sh install.sh
    

    إذا طُلب منك اختيار ملفات مكرّرة، انقر على الخيار 1.

الخطوة 2: ضبط Cloud Search

أنشئ sdk-configuration.properties في دليل Norconex. يجب أن يحدّد الملف المَعلمات التالية:

الإعداد المَعلمة
رقم تعريف مصدر البيانات api.sourceId = 1234567890abcdef
مطلوب. رقم تعريف المصدر من مشرف Google Workspace
حساب الخدمة api.serviceAccountPrivateKeyFile = ./PrivateKey.json
مطلوب. ملف مفتاح حساب الخدمة

مثال على sdk-configuration.properties:

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

يمكنك أيضًا تضمين مَعلمات مثل batch.* للتحكّم في طريقة إرسال المكوّن الإضافي للبيانات. اطّلِع على مَعلمات الموصل التي توفّرها Google.

لملء البيانات الوصفية، اضبط هذه المَعلمات الاختيارية:

الإعداد المعلَمة
العنوان itemMetadata.title.field=movieTitle
نوع عنصر المخطط itemMetadata.objectType=movie

الخطوة 3: ضبط Norconex HTTP Collector

يتضمّن المكوّن الإضافي نموذج ملف، minimum-config.xml.

  1. انتقِل إلى دليل Norconex وانسخ النموذج:

    cd ~/norconex/norconex-collector-http-VERSION/
    cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
    
  2. عدِّل gcs-crawl-config.xml لإضافة العقدتين <committer> و<tagger> أو استبدالهما:

الإعداد المَعلمة
العقدة <committer> <committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
مطلوب. أضِف هذا القسم ضمن العُقدة <httpcollector>.
<uploadFormat> <uploadFormat>raw</uploadFormat>
اختياري. ‫raw أو text القيمة التلقائية هي raw.

مثال على gcs-crawl-config.xml:

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

الخطوة 4: ضبط الزحف إلى الويب

اضبط عُقد <crawler> لتلبية احتياجاتك، بما في ذلك:

  • عناوين URL للبدء
  • الحدّ الأقصى لعمق الزحف
  • عدد سلاسل المحادثات

اطّلِع على صفحة إعدادات Norconex.

الخطوة 5: بدء الزحف إلى الويب وتحميل المحتوى

شغِّل أداة الجمع في الوضع المحلي:

./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

مراقبة الزاحف باستخدام JEF Monitor

توفّر أداة Norconex JEF (إطار تنفيذ المهام) Monitor عرضًا بيانيًا لمستوى التقدّم. يمكنك الاطّلاع على مراقبة الزاحف باستخدام JEF Monitor.