Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Norconex एचटीटीपी कलेक्टर इंडेक्सर प्लगिन डिप्लॉय करें

चेतावनी: Cloud Search के रेफ़रंस कनेक्टर, "जैसे हैं वैसे" उपलब्ध कराए जाते हैं. इनका इस्तेमाल, काम करने वाले अपने कनेक्टर बनाने के लिए सैंपल कोड के तौर पर किया जा सकता है. इस सैंपल कोड को कॉन्सेप्ट या प्रोडक्शन एनवायरमेंट में इस्तेमाल करने से पहले, इसमें काफ़ी बदलाव करने और इसकी टेस्टिंग करने की ज़रूरत होती है. हमारा सुझाव है कि प्रोडक्शन के लिए, Cloud Search के किसी पार्टनर से मदद लें. पार्टनर ढूंढने में मदद पाने के लिए, अपने Google खाता मैनेजर से संपर्क करें.

यह गाइड उन एडमिन के लिए है जो Google Cloud Search Norconex HTTP Collector indexer प्लगिन को डाउनलोड, डिप्लॉय, और मैनेज करने के लिए ज़िम्मेदार हैं. आपको Linux, वेब क्रॉलिंग की बुनियादी बातों, एक्सएमएल, और Norconex HTTP Collector के बारे में जानकारी होनी चाहिए.

इस गाइड में, इन कामों को करने के निर्देश दिए गए हैं:

इंडेक्सर प्लगिन सॉफ़्टवेयर डाउनलोड करें.
Cloud Search को कॉन्फ़िगर करें.
Norconex HTTP Collector और वेब क्रॉलिंग को कॉन्फ़िगर करें.
वेब क्रॉल शुरू करें और कॉन्टेंट अपलोड करें.

इस गाइड में, उन टास्क के बारे में जानकारी नहीं दी गई है जिन्हें Google Workspace एडमिन को पूरा करना होगा. इन टास्क के बारे में जानकारी के लिए, तीसरे पक्ष के डेटा सोर्स मैनेज करना लेख पढ़ें.

Norconex HTTP Collector indexer प्लगिन के बारे में खास जानकारी

डिफ़ॉल्ट रूप से, Cloud Search, Google Workspace के प्रॉडक्ट से कॉन्टेंट ढूंढ सकता है, उसे इंडेक्स कर सकता है, और उसे दिखा सकता है. जैसे, Google Docs और Gmail. इसे वेब कॉन्टेंट तक बढ़ाया जा सकता है. इसके लिए, Norconex HTTP Collector के लिए इंडेक्सर प्लगिन डिप्लॉय करें. यह एक ओपन सोर्स एंटरप्राइज़ वेब क्रॉलर है.

कॉन्फ़िगरेशन प्रॉपर्टी फ़ाइलें

प्लगिन को कॉन्टेंट क्रॉल और अपलोड करने की अनुमति देने के लिए, आपको दो कॉन्फ़िगरेशन फ़ाइलों में कुछ जानकारी देनी होगी:

{gcs-crawl-config.xml}: Norconex HTTP Collector के लिए सेटिंग.
sdk-configuration.properties: Cloud Search की सेटिंग.

वेब क्रॉल और कॉन्टेंट अपलोड करना

कॉन्फ़िगरेशन फ़ाइलों में डेटा भरने के बाद, वेब क्रॉलिंग शुरू की जा सकती है. Norconex HTTP Collector, वेब को क्रॉल करता है. साथ ही, ओरिजनल बाइनरी या टेक्स्ट दस्तावेज़ के कॉन्टेंट को Cloud Search Indexing API पर अपलोड करता है.

सिस्टम की ज़रूरतें

ऑपरेटिंग सिस्टम: सिर्फ़ Linux.
Norconex का वर्शन: 2.8.0.
सॉफ़्टवेयर: Java JRE 1.8.

ऐसीएल की सुविधा

इंडेक्सर प्लगिन, ऐक्सेस कंट्रोल लिस्ट (एसीएल) के साथ काम करता है. इससे Google Workspace डोमेन में मौजूद दस्तावेज़ों के ऐक्सेस को कंट्रोल किया जा सकता है.

अगर आपने प्लगिन कॉन्फ़िगरेशन में डिफ़ॉल्ट एएलसी चालू किए हैं (defaultAcl.mode को none के अलावा किसी और वैल्यू पर सेट किया गया है), तो प्लगिन इन डिफ़ॉल्ट सेटिंग को लागू करता है. ऐसा न करने पर, प्लगिन पूरे डोमेन को डेटा देखने की अनुमति देता है. Google के उपलब्ध कराए गए कनेक्टर पैरामीटर देखें.

ज़रूरी शर्तें

इंडेक्सर प्लगिन को डिप्लॉय करने से पहले, इन कॉम्पोनेंट को इकट्ठा करें:

Google Workspace की निजी कुंजी (जिसमें सेवा खाते का आईडी शामिल होता है). Cloud Search API का ऐक्सेस कॉन्फ़िगर करना लेख पढ़ें.
Google Workspace डेटा सोर्स का आईडी. तीसरे पक्ष के डेटा सोर्स मैनेज करना लेख पढ़ें.

डिप्लॉयमेंट का तरीका

Norconex HTTP Collector और प्लगिन सॉफ़्टवेयर इंस्टॉल करना
Cloud Search को कॉन्फ़िगर करना
Norconex HTTP Collector को कॉन्फ़िगर करना
वेब क्रॉल कॉन्फ़िगर करना
वेब क्रॉल और कॉन्टेंट अपलोड करना शुरू करें

पहला चरण: Norconex HTTP Collector और प्लगिन सॉफ़्टवेयर इंस्टॉल करना

Norconex की डाउनलोड पेज से, Norconex committer सॉफ़्टवेयर डाउनलोड करें.
सॉफ़्टवेयर को ~/norconex/ में एक्सट्रैक्ट करें.

कमिटर प्लगिन को क्लोन करें:

git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
cd norconex-committer-plugin

चुने गए वर्शन को देखें और प्लगिन बनाएं:
```
git checkout tags/v1-0.0.3
mvn package
```
जांचों को छोड़ने के लिए, mvn package -DskipTests का इस्तेमाल करें.

JAR फ़ाइल को Norconex lib डायरेक्ट्री में कॉपी करें:

cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib

बनाई गई ZIP फ़ाइल को एक्स्ट्रैक्ट करें:

unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3

इंस्टॉल स्क्रिप्ट चलाएं और Norconex lib डायरेक्ट्री का पूरा पाथ दें:
```
sh install.sh
```
अगर डुप्लीकेट फ़ाइलों के बारे में पूछा जाता है, तो 1 विकल्प चुनें.

दूसरा चरण: Cloud Search को कॉन्फ़िगर करना

Norconex डायरेक्ट्री में sdk-configuration.properties बनाएं. फ़ाइल में इन पैरामीटर के बारे में जानकारी होनी चाहिए:

सेटिंग	पैरामीटर
डेटा सोर्स का आईडी	`api.sourceId = 1234567890abcdef` ज़रूरी है. आपके Google Workspace एडमिन से मिला सोर्स आईडी.
सेवा खाता	`api.serviceAccountPrivateKeyFile = ./PrivateKey.json` ज़रूरी है. सेवा खाते की कुंजी वाली फ़ाइल.

उदाहरण के लिए, sdk-configuration.properties:

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

आपके पास batch.* जैसे पैरामीटर शामिल करने का विकल्प भी होता है. इससे यह कंट्रोल किया जा सकता है कि प्लगिन डेटा को कैसे पुश करता है. Google के उपलब्ध कराए गए कनेक्टर पैरामीटर देखें.

मेटाडेटा भरने के लिए, इन वैकल्पिक पैरामीटर को कॉन्फ़िगर करें:

सेटिंग	पैरामीटर
शीर्षक	`itemMetadata.title.field=movieTitle`
स्कीमा ऑब्जेक्ट का टाइप	`itemMetadata.objectType=movie`

तीसरा चरण: Norconex HTTP Collector को कॉन्फ़िगर करना

इस प्लगिन में एक सैंपल फ़ाइल शामिल है, minimum-config.xml.

Norconex डायरेक्ट्री पर जाएं और सैंपल कॉपी करें:
```
cd ~/norconex/norconex-collector-http-VERSION/
cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
```
<committer> और <tagger> नोड जोड़ने या बदलने के लिए, gcs-crawl-config.xml में बदलाव करें:

सेटिंग	पैरामीटर
`<committer>` नोड	`<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">` ज़रूरी है. इसे `<httpcollector>` नोड के नीचे जोड़ें.
`<uploadFormat>`	`<uploadFormat>raw</uploadFormat>` ज़रूरी नहीं. `raw` या `text`. डिफ़ॉल्ट वैल्यू `raw` है.

उदाहरण के लिए, gcs-crawl-config.xml:

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

चौथा चरण: वेब क्रॉल कॉन्फ़िगर करना

अपनी ज़रूरतों के हिसाब से <crawler> नोड कॉन्फ़िगर करें. इनमें ये शामिल हैं:

शुरू करने के लिए यूआरएल
क्रॉल डेप्थ की ज़्यादा से ज़्यादा सीमा
थ्रेड की संख्या

Norconex कॉन्फ़िगरेशन पेज देखें.

पांचवां चरण: वेब क्रॉल और कॉन्टेंट अपलोड करना

कलेक्टर को लोकल मोड में चलाएं:

./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

JEF Monitor की मदद से क्रॉलर को मॉनिटर करना

Norconex JEF (Job Execution Framework) Monitor, प्रोग्रेस का ग्राफ़िकल व्यू दिखाता है. JEF Monitor की मदद से अपने क्रॉलर को मॉनिटर करना लेख पढ़ें.