این راهنما برای مدیرانی است که مسئول دانلود، استقرار و نگهداری افزونه نمایهساز Google Cloud Search Norconex HTTP Collector هستند. شما باید با لینوکس، اصول خزش وب، XML و Norconex HTTP Collector آشنا باشید.
این راهنما شامل دستورالعملهایی برای موارد زیر است:
- نرمافزار افزونهی ایندکسِر را دانلود کنید.
- جستجوی ابری را پیکربندی کنید.
- پیکربندی Norconex HTTP Collector و خزش وب.
- خزش وب را شروع کنید و محتوا را بارگذاری کنید.
اطلاعات مربوط به وظایفی که مدیر Google Workspace باید انجام دهد در این راهنما وجود ندارد. برای اطلاعات مربوط به این وظایف، به مدیریت منابع داده شخص ثالث مراجعه کنید.
مروری بر افزونه شاخصگذار Norconex HTTP Collector
به طور پیشفرض، Cloud Search میتواند محتوا را از محصولات Google Workspace مانند Google Docs و Gmail کشف، فهرستبندی و ارائه دهد. شما میتوانید با استفاده از افزونه فهرستساز برای Norconex HTTP Collector ، یک خزنده وب سازمانی متنباز، این قابلیت را به محتوای وب نیز گسترش دهید.
فایلهای ویژگیهای پیکربندی
برای فعال کردن افزونه برای خزیدن و بارگذاری محتوا، باید اطلاعات خاصی را در دو فایل پیکربندی ارائه دهید:
-
{gcs-crawl-config.xml}: تنظیمات مربوط به Norconex HTTP Collector. -
sdk-configuration.properties: تنظیمات مربوط به جستجوی ابری.
خزش وب و آپلود محتوا
پس از پر کردن فایلهای پیکربندی، میتوانید خزش وب را شروع کنید . Norconex HTTP Collector وب را خزش میکند و محتوای اصلی سند باینری یا متنی را در API نمایهسازی Cloud Search بارگذاری میکند.
الزامات سیستم
- سیستم عامل : فقط لینوکس
- نسخه نورکانکس : نسخه ۲.۸.۰.
- نرمافزار : جاوا JRE 1.8
پشتیبانی از ACL
افزونه ایندکسکننده از فهرستهای کنترل دسترسی (ACL) برای کنترل دسترسی به اسناد در دامنه Google Workspace پشتیبانی میکند.
اگر ACL های پیشفرض را در پیکربندی افزونه فعال کنید ( defaultAcl.mode روی غیر از none تنظیم شود)، افزونه این پیشفرضها را اعمال میکند. در غیر این صورت، افزونه مجوز خواندن را به کل دامنه اعطا میکند. به پارامترهای اتصال ارائه شده توسط گوگل مراجعه کنید.
پیشنیازها
قبل از اینکه افزونهی ایندکسِر را مستقر کنید، این اجزا را جمعآوری کنید:
- کلید خصوصی Google Workspace (حاوی شناسه حساب سرویس). به پیکربندی دسترسی به Cloud Search API مراجعه کنید.
- شناسه منبع داده Google Workspace. به مدیریت منابع داده شخص ثالث مراجعه کنید.
مراحل استقرار
- Norconex HTTP Collector و نرمافزار افزونه را نصب کنید.
- پیکربندی جستجوی ابری
- پیکربندی Norconex HTTP Collector
- پیکربندی خزش وب
- شروع خزش وب و آپلود محتوا
مرحله 1: Norconex HTTP Collector و نرمافزار افزونه را نصب کنید
- نرمافزار کامیتر Norconex را از صفحه دانلود Norconex دانلود کنید.
- نرمافزار را در
~/norconex/استخراج کنید. افزونهی کامیتِر را کلون کنید:
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git cd norconex-committer-pluginنسخه انتخابی خود را بررسی کنید و افزونه را بسازید:
git checkout tags/v1-0.0.3 mvn packageبرای رد کردن تستها، از
mvn package -DskipTestsاستفاده کنید.فایل JAR را در دایرکتوری Norconex
libکپی کنید:cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/libفایل زیپ ساخته شده را استخراج کنید:
unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3اسکریپت نصب را اجرا کنید و مسیر کامل دایرکتوری Norconex
libرا ارائه دهید:sh install.shاگر از شما در مورد فایلهای تکراری سوال شد، گزینه
1را انتخاب کنید.
مرحله ۲: پیکربندی جستجوی ابری
sdk-configuration.properties را در دایرکتوری Norconex ایجاد کنید. این فایل باید پارامترهای زیر را مشخص کند:
| تنظیم | پارامتر |
| شناسه منبع داده | api.sourceId = 1234567890abcdefالزامی. شناسه منبع از طرف مدیر Google Workspace شما. |
| حساب کاربری خدمات | api.serviceAccountPrivateKeyFile = ./PrivateKey.jsonالزامی. فایل کلید حساب سرویس. |
مثال sdk-configuration.properties :
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
همچنین میتوانید پارامترهایی مانند batch.* را برای کنترل نحوهی ارسال دادهها توسط افزونه وارد کنید. به پارامترهای اتصال ارائه شده توسط گوگل مراجعه کنید.
برای پر کردن متادیتا، این پارامترهای اختیاری را پیکربندی کنید:
| تنظیم | پارامتر |
| عنوان | itemMetadata.title.field= movieTitle |
| نوع شیء طرحواره | itemMetadata.objectType= movie |
مرحله 3: پیکربندی Norconex HTTP Collector
این افزونه شامل یک فایل نمونه minimum-config.xml است.
به دایرکتوری Norconex بروید و نمونه را کپی کنید:
cd ~/norconex/norconex-collector-http-VERSION/ cp examples/minimum/minimum-config.xml gcs-crawl-config.xmlبرای افزودن یا جایگزینی گرههای
<committer>و<tagger>،gcs-crawl-config.xmlرا ویرایش کنید:
| تنظیم | پارامتر |
گره <committer> | <committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">الزامی است. این را زیر گره <httpcollector> اضافه کنید. |
<uploadFormat> | <uploadFormat>raw</uploadFormat>اختیاری. raw یا text . پیشفرض raw است. |
مثال gcs-crawl-config.xml :
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
مرحله ۴: پیکربندی خزش وب
گرههای <crawler> را برای نیازهای خود پیکربندی کنید، از جمله:
- آدرسهای اینترنتی (URL) را شروع کنید
- حداکثر عمق خزش
- تعداد نخها
به صفحه پیکربندی Norconex مراجعه کنید.
مرحله ۵: شروع خزش وب و آپلود محتوا
کلکتور را در حالت محلی اجرا کنید:
./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
خزنده را با JEF Monitor رصد کنید
مانیتور Norconex JEF (چارچوب اجرای کار) یک نمای گرافیکی از پیشرفت ارائه میدهد. به بخش Monitor your crawler with JEF Monitor مراجعه کنید.