هذا الدليل مخصّص للمشرفين المسؤولين عن تنزيل وتوزيع وصيانة مكوّن الفهرسة الإضافي "جامع HTTP" من Norconex في Google Cloud Search. يجب أن تكون على دراية بنظام التشغيل Linux وأساسيات الزحف على الويب وتنسيق XML وNorconex HTTP Collector.
يتضمّن هذا الدليل تعليمات حول ما يلي:
- نزِّل برنامج المكوّن الإضافي للفهرسة.
- إعداد Cloud Search
- ضبط Norconex HTTP Collector والزحف على الويب
- ابدأ الزحف إلى الويب وحمِّل المحتوى.
لا يتضمّن هذا الدليل معلومات حول المهام التي يجب أن ينفّذها مشرف Google Workspace. للحصول على معلومات حول هذه المهام، يُرجى الاطّلاع على مقالة إدارة مصادر البيانات التابعة لجهات خارجية.
نظرة عامة على المكوّن الإضافي لفهرسة Norconex HTTP Collector
بشكلٍ تلقائي، يمكن لخدمة Cloud Search اكتشاف المحتوى وفهرسته وعرضه من منتجات Google Workspace، مثل "مستندات Google" وGmail. يمكنك توسيع نطاق ذلك ليشمل محتوى الويب من خلال نشر المكوّن الإضافي للفهرسة الخاص بـ Norconex HTTP Collector، وهو برنامج زحف مفتوح المصدر على الويب خاص بالمؤسسات.
ملفات خصائص الإعداد
لكي يتمكّن المكوّن الإضافي من الزحف إلى المحتوى وتحميله، يجب تقديم معلومات محدّدة في ملفَّي إعدادات:
-
{gcs-crawl-config.xml}: إعدادات Norconex HTTP Collector sdk-configuration.properties: إعدادات Cloud Search
الزحف إلى الويب وتحميل المحتوى
بعد ملء ملفات الإعداد، يمكنك بدء الزحف على الويب. يزحف Norconex HTTP Collector إلى الويب ويحمّل المحتوى الأصلي للمستندات الثنائية أو النصية إلى واجهة برمجة التطبيقات للفهرسة في Cloud Search.
متطلبات النظام
- نظام التشغيل: Linux فقط
- إصدار Norconex: الإصدار 2.8.0
- البرنامج: Java JRE 1.8
التوافق مع قوائم ACL
تتيح إضافة الفهرسة استخدام قوائم التحكم بالوصول (ACL) للتحكّم في الوصول إلى المستندات في نطاق Google Workspace.
في حال تفعيل قوائم التحكّم بالوصول التلقائية في إعدادات المكوِّن الإضافي (تم ضبط defaultAcl.mode على قيمة أخرى غير none)، سيطبّق المكوِّن الإضافي هذه الإعدادات التلقائية. بخلاف ذلك، يمنح المكوّن الإضافي إذن القراءة للنطاق بأكمله. اطّلِع على
مَعلمات الموصل التي توفّرها Google.
المتطلبات الأساسية
قبل نشر مكوّن إضافي للفهرسة، اجمع المكوّنات التالية:
- المفتاح الخاص لحساب Google Workspace (الذي يحتوي على معرّف حساب الخدمة) يمكنك الاطّلاع على ضبط أذونات الوصول إلى Cloud Search API.
- معرّف مصدر بيانات Google Workspace اطّلِع على مقالة إدارة مصادر بيانات الجهات الخارجية.
خطوات النشر
- تثبيت Norconex HTTP Collector وبرنامج المكوّن الإضافي
- ضبط Cloud Search
- ضبط Norconex HTTP Collector
- ضبط الزحف على الويب
- بدء عملية الزحف إلى الويب وتحميل المحتوى
الخطوة 1: تثبيت Norconex HTTP Collector وبرامج المكوّن الإضافي
- نزِّل برنامج Norconex committer من صفحة التنزيل على موقع Norconex الإلكتروني.
- استخرِج البرنامج إلى
~/norconex/. استنسِخ المكوّن الإضافي Committer:
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git cd norconex-committer-pluginاطّلِع على الإصدار الذي اخترته وأنشئ المكوّن الإضافي:
git checkout tags/v1-0.0.3 mvn packageلتخطّي الاختبارات، استخدِم
mvn package -DskipTests.انسخ ملف JAR إلى دليل Norconex
lib:cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/libاستخرِج ملف ZIP الذي تم إنشاؤه:
unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3شغِّل نص التثبيت البرمجي وقدِّم المسار الكامل إلى دليل Norconex
lib:sh install.shإذا طُلب منك اختيار ملفات مكرّرة، انقر على الخيار
1.
الخطوة 2: ضبط Cloud Search
أنشئ sdk-configuration.properties في دليل Norconex. يجب أن يحدّد الملف المَعلمات التالية:
| الإعداد | المَعلمة |
| رقم تعريف مصدر البيانات | api.sourceId = 1234567890abcdef
مطلوب. رقم تعريف المصدر من مشرف Google Workspace |
| حساب الخدمة | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
مطلوب. ملف مفتاح حساب الخدمة |
مثال على sdk-configuration.properties:
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
يمكنك أيضًا تضمين مَعلمات مثل batch.* للتحكّم في طريقة إرسال المكوّن الإضافي للبيانات. اطّلِع على
مَعلمات الموصل التي توفّرها Google.
لملء البيانات الوصفية، اضبط هذه المَعلمات الاختيارية:
| الإعداد | المعلَمة |
| العنوان | itemMetadata.title.field=movieTitle |
| نوع عنصر المخطط | itemMetadata.objectType=movie |
الخطوة 3: ضبط Norconex HTTP Collector
يتضمّن المكوّن الإضافي نموذج ملف، minimum-config.xml.
انتقِل إلى دليل Norconex وانسخ النموذج:
cd ~/norconex/norconex-collector-http-VERSION/ cp examples/minimum/minimum-config.xml gcs-crawl-config.xmlعدِّل
gcs-crawl-config.xmlلإضافة العقدتين<committer>و<tagger>أو استبدالهما:
| الإعداد | المَعلمة |
العقدة <committer> |
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
مطلوب. أضِف هذا القسم ضمن العُقدة <httpcollector>. |
<uploadFormat> |
<uploadFormat>raw</uploadFormat>
اختياري. raw أو text القيمة التلقائية هي
raw. |
مثال على gcs-crawl-config.xml:
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
الخطوة 4: ضبط الزحف إلى الويب
اضبط عُقد <crawler> لتلبية احتياجاتك، بما في ذلك:
- عناوين URL للبدء
- الحدّ الأقصى لعمق الزحف
- عدد سلاسل المحادثات
اطّلِع على صفحة إعدادات Norconex.
الخطوة 5: بدء الزحف إلى الويب وتحميل المحتوى
شغِّل أداة الجمع في الوضع المحلي:
./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
مراقبة الزاحف باستخدام JEF Monitor
توفّر أداة Norconex JEF (إطار تنفيذ المهام) Monitor عرضًا بيانيًا لمستوى التقدّم. يمكنك الاطّلاع على مراقبة الزاحف باستخدام JEF Monitor.