Norconex एचटीटीपी कलेक्टर इंडेक्सर प्लगिन डिप्लॉय करें

यह गाइड उन एडमिन के लिए है जो Google Cloud Search Norconex HTTP Collector इंडेक्सर प्लगिन को डाउनलोड, डिप्लॉय, और मैनेज करने के लिए ज़िम्मेदार हैं. आपको Linux, वेब क्रॉलिंग की बुनियादी बातों, एक्सएमएल, और Norconex HTTP Collector के बारे में जानकारी होनी चाहिए.

इस गाइड में, इन कामों को करने के निर्देश दिए गए हैं:

  • इंडेक्सर प्लगिन सॉफ़्टवेयर डाउनलोड करें.
  • Cloud Search को कॉन्फ़िगर करें.
  • Norconex HTTP Collector और वेब क्रॉलिंग को कॉन्फ़िगर करें.
  • वेब क्रॉल शुरू करें और कॉन्टेंट अपलोड करें.

इस गाइड में, उन टास्क के बारे में जानकारी नहीं दी गई है जिन्हें Google Workspace एडमिन को पूरा करना होगा. इन टास्क के बारे में जानकारी के लिए, तीसरे पक्ष के डेटा सोर्स मैनेज करना लेख पढ़ें.

Norconex HTTP Collector indexer प्लगिन के बारे में खास जानकारी

डिफ़ॉल्ट रूप से, Cloud Search, Google Workspace के प्रॉडक्ट से कॉन्टेंट ढूंढ सकता है, उसे इंडेक्स कर सकता है, और उसे दिखा सकता है. जैसे, Google Docs और Gmail. इसे वेब कॉन्टेंट तक बढ़ाया जा सकता है. इसके लिए, Norconex HTTP Collector के लिए इंडेक्सर प्लगिन डिप्लॉय करें. यह एक ओपन सोर्स एंटरप्राइज़ वेब क्रॉलर है.

कॉन्फ़िगरेशन प्रॉपर्टी फ़ाइलें

प्लगिन को कॉन्टेंट क्रॉल और अपलोड करने की अनुमति देने के लिए, आपको दो कॉन्फ़िगरेशन फ़ाइलों में कुछ जानकारी देनी होगी:

  • {gcs-crawl-config.xml}: Norconex HTTP Collector के लिए सेटिंग.
  • sdk-configuration.properties: Cloud Search के लिए सेटिंग.

वेब क्रॉल और कॉन्टेंट अपलोड करना

कॉन्फ़िगरेशन फ़ाइलों में डेटा भरने के बाद, वेब क्रॉलिंग शुरू की जा सकती है. Norconex HTTP Collector, वेब को क्रॉल करता है. साथ ही, ओरिजनल बाइनरी या टेक्स्ट दस्तावेज़ के कॉन्टेंट को Cloud Search Indexing API पर अपलोड करता है.

सिस्टम की ज़रूरतें

  • ऑपरेटिंग सिस्टम: सिर्फ़ Linux.
  • Norconex का वर्शन: 2.8.0.
  • सॉफ़्टवेयर: Java JRE 1.8.

ऐसीएल की सुविधा

इंडेक्सर प्लगिन, ऐक्सेस कंट्रोल लिस्ट (एसीएल) के साथ काम करता है. इससे Google Workspace डोमेन में मौजूद दस्तावेज़ों के ऐक्सेस को कंट्रोल किया जा सकता है.

अगर आपने प्लगिन कॉन्फ़िगरेशन में डिफ़ॉल्ट एएलसी चालू किए हैं (defaultAcl.mode को none के अलावा किसी और वैल्यू पर सेट किया गया है), तो प्लगिन इन डिफ़ॉल्ट सेटिंग को लागू करता है. ऐसा न होने पर, प्लगिन पूरे डोमेन को डेटा देखने की अनुमति देता है. Google के उपलब्ध कराए गए कनेक्टर पैरामीटर देखें.

ज़रूरी शर्तें

इंडेक्सर प्लगिन को डिप्लॉय करने से पहले, इन कॉम्पोनेंट को इकट्ठा करें:

डिप्लॉयमेंट का तरीका

  1. Norconex HTTP Collector और प्लगिन सॉफ़्टवेयर इंस्टॉल करना
  2. Cloud Search को कॉन्फ़िगर करना
  3. Norconex HTTP Collector को कॉन्फ़िगर करना
  4. वेब क्रॉल कॉन्फ़िगर करना
  5. वेब क्रॉल और कॉन्टेंट अपलोड करना शुरू करना

पहला चरण: Norconex HTTP Collector और प्लगिन सॉफ़्टवेयर इंस्टॉल करना

  1. Norconex की डाउनलोड पेज से, Norconex committer सॉफ़्टवेयर डाउनलोड करें.
  2. सॉफ़्टवेयर को ~/norconex/ में एक्सट्रैक्ट करें.
  3. कमिटर प्लगिन को क्लोन करें:

    git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
    cd norconex-committer-plugin
    
  4. चुने गए वर्शन को देखें और प्लगिन बनाएं:

    git checkout tags/v1-0.0.3
    mvn package
    

    जांचों को स्किप करने के लिए, mvn package -DskipTests का इस्तेमाल करें.

  5. JAR फ़ाइल को Norconex lib डायरेक्ट्री में कॉपी करें:

    cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib
    
  6. बनाई गई ZIP फ़ाइल को एक्स्ट्रैक्ट करें:

    unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
    cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    
  7. इंस्टॉल स्क्रिप्ट चलाएं और Norconex lib डायरेक्ट्री का पूरा पाथ दें:

    sh install.sh
    

    अगर डुप्लीकेट फ़ाइलों के बारे में पूछा जाता है, तो 1 विकल्प चुनें.

दूसरा चरण: Cloud Search को कॉन्फ़िगर करना

Norconex डायरेक्ट्री में sdk-configuration.properties बनाएं. फ़ाइल में इन पैरामीटर की जानकारी होनी चाहिए:

सेटिंग पैरामीटर
डेटा सोर्स का आईडी api.sourceId = 1234567890abcdef
ज़रूरी है. आपके Google Workspace एडमिन से मिला सोर्स आईडी.
सेवा खाता api.serviceAccountPrivateKeyFile = ./PrivateKey.json
ज़रूरी है. सेवा खाते की कुंजी वाली फ़ाइल.

उदाहरण के लिए, sdk-configuration.properties:

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

आपके पास batch.* जैसे पैरामीटर शामिल करने का विकल्प भी होता है. इससे यह कंट्रोल किया जा सकता है कि प्लगिन डेटा को कैसे पुश करता है. Google के उपलब्ध कराए गए कनेक्टर पैरामीटर देखें.

मेटाडेटा भरने के लिए, इन वैकल्पिक पैरामीटर को कॉन्फ़िगर करें:

सेटिंग पैरामीटर
शीर्षक itemMetadata.title.field=movieTitle
स्कीमा ऑब्जेक्ट टाइप itemMetadata.objectType=movie

तीसरा चरण: Norconex HTTP Collector को कॉन्फ़िगर करना

इस प्लगिन में एक सैंपल फ़ाइल शामिल है, minimum-config.xml.

  1. Norconex डायरेक्ट्री पर जाएं और सैंपल कॉपी करें:

    cd ~/norconex/norconex-collector-http-VERSION/
    cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
    
  2. <committer> और <tagger> नोड जोड़ने या बदलने के लिए, gcs-crawl-config.xml में बदलाव करें:

सेटिंग पैरामीटर
<committer> नोड <committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
ज़रूरी है. इसे <httpcollector> नोड के नीचे जोड़ें.
<uploadFormat> <uploadFormat>raw</uploadFormat>
ज़रूरी नहीं. raw या text. डिफ़ॉल्ट रूप से, यह raw पर सेट होती है.

उदाहरण के लिए, gcs-crawl-config.xml:

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

चौथा चरण: वेब क्रॉल कॉन्फ़िगर करना

अपनी ज़रूरतों के हिसाब से <crawler> नोड कॉन्फ़िगर करें. इनमें ये शामिल हैं:

  • शुरू करने के लिए यूआरएल
  • क्रॉल डेप्थ की ज़्यादा से ज़्यादा सीमा
  • थ्रेड की संख्या

Norconex कॉन्फ़िगरेशन पेज देखें.

पांचवां चरण: वेब क्रॉल और कॉन्टेंट अपलोड करना

कलेक्टर को लोकल मोड में चलाएं:

./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

JEF Monitor की मदद से क्रॉलर को मॉनिटर करना

Norconex JEF (Job Execution Framework) Monitor, प्रोग्रेस का ग्राफ़िक व्यू दिखाता है. JEF Monitor की मदद से क्रॉलर को मॉनिटर करना लेख पढ़ें.