यह गाइड उन एडमिन के लिए है जो Google Cloud Search Norconex HTTP Collector इंडेक्सर प्लगिन को डाउनलोड, डिप्लॉय, और मैनेज करने के लिए ज़िम्मेदार हैं. आपको Linux, वेब क्रॉलिंग की बुनियादी बातों, एक्सएमएल, और Norconex HTTP Collector के बारे में जानकारी होनी चाहिए.
इस गाइड में, इन कामों को करने के निर्देश दिए गए हैं:
- इंडेक्सर प्लगिन सॉफ़्टवेयर डाउनलोड करें.
- Cloud Search को कॉन्फ़िगर करें.
- Norconex HTTP Collector और वेब क्रॉलिंग को कॉन्फ़िगर करें.
- वेब क्रॉल शुरू करें और कॉन्टेंट अपलोड करें.
इस गाइड में, उन टास्क के बारे में जानकारी नहीं दी गई है जिन्हें Google Workspace एडमिन को पूरा करना होगा. इन टास्क के बारे में जानकारी के लिए, तीसरे पक्ष के डेटा सोर्स मैनेज करना लेख पढ़ें.
Norconex HTTP Collector indexer प्लगिन के बारे में खास जानकारी
डिफ़ॉल्ट रूप से, Cloud Search, Google Workspace के प्रॉडक्ट से कॉन्टेंट ढूंढ सकता है, उसे इंडेक्स कर सकता है, और उसे दिखा सकता है. जैसे, Google Docs और Gmail. इसे वेब कॉन्टेंट तक बढ़ाया जा सकता है. इसके लिए, Norconex HTTP Collector के लिए इंडेक्सर प्लगिन डिप्लॉय करें. यह एक ओपन सोर्स एंटरप्राइज़ वेब क्रॉलर है.
कॉन्फ़िगरेशन प्रॉपर्टी फ़ाइलें
प्लगिन को कॉन्टेंट क्रॉल और अपलोड करने की अनुमति देने के लिए, आपको दो कॉन्फ़िगरेशन फ़ाइलों में कुछ जानकारी देनी होगी:
{gcs-crawl-config.xml}: Norconex HTTP Collector के लिए सेटिंग.sdk-configuration.properties: Cloud Search के लिए सेटिंग.
वेब क्रॉल और कॉन्टेंट अपलोड करना
कॉन्फ़िगरेशन फ़ाइलों में डेटा भरने के बाद, वेब क्रॉलिंग शुरू की जा सकती है. Norconex HTTP Collector, वेब को क्रॉल करता है. साथ ही, ओरिजनल बाइनरी या टेक्स्ट दस्तावेज़ के कॉन्टेंट को Cloud Search Indexing API पर अपलोड करता है.
सिस्टम की ज़रूरतें
- ऑपरेटिंग सिस्टम: सिर्फ़ Linux.
- Norconex का वर्शन: 2.8.0.
- सॉफ़्टवेयर: Java JRE 1.8.
ऐसीएल की सुविधा
इंडेक्सर प्लगिन, ऐक्सेस कंट्रोल लिस्ट (एसीएल) के साथ काम करता है. इससे Google Workspace डोमेन में मौजूद दस्तावेज़ों के ऐक्सेस को कंट्रोल किया जा सकता है.
अगर आपने प्लगिन कॉन्फ़िगरेशन में डिफ़ॉल्ट एएलसी चालू किए हैं (defaultAcl.mode को none के अलावा किसी और वैल्यू पर सेट किया गया है), तो प्लगिन इन डिफ़ॉल्ट सेटिंग को लागू करता है. ऐसा न होने पर, प्लगिन पूरे डोमेन को डेटा देखने की अनुमति देता है. Google के उपलब्ध कराए गए कनेक्टर पैरामीटर देखें.
ज़रूरी शर्तें
इंडेक्सर प्लगिन को डिप्लॉय करने से पहले, इन कॉम्पोनेंट को इकट्ठा करें:
- Google Workspace की निजी कुंजी (जिसमें सेवा खाते का आईडी शामिल होता है). Cloud Search API का ऐक्सेस कॉन्फ़िगर करना लेख पढ़ें.
- Google Workspace डेटा सोर्स का आईडी. तीसरे पक्ष के डेटा सोर्स मैनेज करना लेख पढ़ें.
डिप्लॉयमेंट का तरीका
- Norconex HTTP Collector और प्लगिन सॉफ़्टवेयर इंस्टॉल करना
- Cloud Search को कॉन्फ़िगर करना
- Norconex HTTP Collector को कॉन्फ़िगर करना
- वेब क्रॉल कॉन्फ़िगर करना
- वेब क्रॉल और कॉन्टेंट अपलोड करना शुरू करना
पहला चरण: Norconex HTTP Collector और प्लगिन सॉफ़्टवेयर इंस्टॉल करना
- Norconex की डाउनलोड पेज से, Norconex committer सॉफ़्टवेयर डाउनलोड करें.
- सॉफ़्टवेयर को
~/norconex/में एक्सट्रैक्ट करें. कमिटर प्लगिन को क्लोन करें:
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git cd norconex-committer-pluginचुने गए वर्शन को देखें और प्लगिन बनाएं:
git checkout tags/v1-0.0.3 mvn packageजांचों को स्किप करने के लिए,
mvn package -DskipTestsका इस्तेमाल करें.JAR फ़ाइल को Norconex
libडायरेक्ट्री में कॉपी करें:cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/libबनाई गई ZIP फ़ाइल को एक्स्ट्रैक्ट करें:
unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3इंस्टॉल स्क्रिप्ट चलाएं और Norconex
libडायरेक्ट्री का पूरा पाथ दें:sh install.shअगर डुप्लीकेट फ़ाइलों के बारे में पूछा जाता है, तो
1विकल्प चुनें.
दूसरा चरण: Cloud Search को कॉन्फ़िगर करना
Norconex डायरेक्ट्री में sdk-configuration.properties बनाएं. फ़ाइल में इन पैरामीटर की जानकारी होनी चाहिए:
| सेटिंग | पैरामीटर |
| डेटा सोर्स का आईडी | api.sourceId = 1234567890abcdef
ज़रूरी है. आपके Google Workspace एडमिन से मिला सोर्स आईडी. |
| सेवा खाता | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
ज़रूरी है. सेवा खाते की कुंजी वाली फ़ाइल. |
उदाहरण के लिए, sdk-configuration.properties:
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
आपके पास batch.* जैसे पैरामीटर शामिल करने का विकल्प भी होता है. इससे यह कंट्रोल किया जा सकता है कि प्लगिन डेटा को कैसे पुश करता है. Google के उपलब्ध कराए गए कनेक्टर पैरामीटर देखें.
मेटाडेटा भरने के लिए, इन वैकल्पिक पैरामीटर को कॉन्फ़िगर करें:
| सेटिंग | पैरामीटर |
| शीर्षक | itemMetadata.title.field=movieTitle |
| स्कीमा ऑब्जेक्ट टाइप | itemMetadata.objectType=movie |
तीसरा चरण: Norconex HTTP Collector को कॉन्फ़िगर करना
इस प्लगिन में एक सैंपल फ़ाइल शामिल है, minimum-config.xml.
Norconex डायरेक्ट्री पर जाएं और सैंपल कॉपी करें:
cd ~/norconex/norconex-collector-http-VERSION/ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml<committer>और<tagger>नोड जोड़ने या बदलने के लिए,gcs-crawl-config.xmlमें बदलाव करें:
| सेटिंग | पैरामीटर |
<committer> नोड |
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
ज़रूरी है. इसे <httpcollector> नोड के नीचे जोड़ें. |
<uploadFormat> |
<uploadFormat>raw</uploadFormat>
ज़रूरी नहीं. raw या text. डिफ़ॉल्ट रूप से, यह raw पर सेट होती है. |
उदाहरण के लिए, gcs-crawl-config.xml:
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
चौथा चरण: वेब क्रॉल कॉन्फ़िगर करना
अपनी ज़रूरतों के हिसाब से <crawler> नोड कॉन्फ़िगर करें. इनमें ये शामिल हैं:
- शुरू करने के लिए यूआरएल
- क्रॉल डेप्थ की ज़्यादा से ज़्यादा सीमा
- थ्रेड की संख्या
Norconex कॉन्फ़िगरेशन पेज देखें.
पांचवां चरण: वेब क्रॉल और कॉन्टेंट अपलोड करना
कलेक्टर को लोकल मोड में चलाएं:
./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
JEF Monitor की मदद से क्रॉलर को मॉनिटर करना
Norconex JEF (Job Execution Framework) Monitor, प्रोग्रेस का ग्राफ़िक व्यू दिखाता है. JEF Monitor की मदद से क्रॉलर को मॉनिटर करना लेख पढ़ें.