এই নির্দেশিকাটি সেইসব প্রশাসকদের জন্য, যারা গুগল ক্লাউড সার্চ নরকনেক্স এইচটিটিপি কালেক্টর ইনডেক্সার প্লাগইনটি ডাউনলোড, স্থাপন এবং রক্ষণাবেক্ষণের দায়িত্বে আছেন। আপনার লিনাক্স, ওয়েব ক্রলিংয়ের মৌলিক বিষয়, এক্সএমএল এবং নরকনেক্স এইচটিটিপি কালেক্টর সম্পর্কে ধারণা থাকা উচিত।
এই নির্দেশিকায় নিম্নলিখিত বিষয়গুলোর জন্য নির্দেশনা অন্তর্ভুক্ত রয়েছে:
- ইনডেক্সার প্লাগইন সফটওয়্যারটি ডাউনলোড করুন।
- ক্লাউড সার্চ কনফিগার করুন।
- Norconex HTTP Collector এবং ওয়েব ক্রলিং কনফিগার করুন।
- ওয়েব ক্রল শুরু করুন এবং কন্টেন্ট আপলোড করুন।
গুগল ওয়ার্কস্পেস অ্যাডমিনিস্ট্রেটরকে যে কাজগুলো অবশ্যই করতে হবে, সে সম্পর্কিত তথ্য এই নির্দেশিকায় নেই। সেই কাজগুলো সম্পর্কে জানতে, ‘তৃতীয় পক্ষের ডেটা উৎস পরিচালনা’ দেখুন।
Norconex HTTP Collector ইনডেক্সার প্লাগইনের সংক্ষিপ্ত বিবরণ
ডিফল্টরূপে, ক্লাউড সার্চ গুগল ওয়ার্কস্পেস প্রোডাক্ট, যেমন গুগল ডক্স এবং জিমেইল থেকে কন্টেন্ট খুঁজে বের করতে, ইন্ডেক্স করতে এবং পরিবেশন করতে পারে। একটি ওপেন সোর্স এন্টারপ্রাইজ ওয়েব ক্রলার, নরকনেক্স এইচটিটিপি কালেক্টর -এর ইন্ডেক্সার প্লাগইন স্থাপন করে আপনি ওয়েব কন্টেন্ট অন্তর্ভুক্ত করার জন্য এর পরিধি বাড়াতে পারেন।
কনফিগারেশন বৈশিষ্ট্য ফাইল
প্লাগইনটিকে কন্টেন্ট ক্রল ও আপলোড করার অনুমতি দিতে, আপনাকে দুটি কনফিগারেশন ফাইলে নির্দিষ্ট তথ্য প্রদান করতে হবে:
-
{gcs-crawl-config.xml}: নরকনেক্স এইচটিটিপি কালেক্টরের জন্য সেটিংস। -
sdk-configuration.properties: ক্লাউড সার্চের জন্য সেটিংস।
ওয়েব ক্রল এবং কন্টেন্ট আপলোড
কনফিগারেশন ফাইলগুলো পূরণ করার পর, আপনি ওয়েব ক্রল শুরু করতে পারেন। নরকনেক্স এইচটিটিপি কালেক্টর ওয়েব ক্রল করে এবং মূল বাইনারি বা টেক্সট ডকুমেন্টের বিষয়বস্তু ক্লাউড সার্চ ইন্ডেক্সিং এপিআই-তে আপলোড করে।
সিস্টেমের প্রয়োজনীয়তা
- অপারেটিং সিস্টেম : শুধুমাত্র লিনাক্স।
- নরকনেক্স সংস্করণ : সংস্করণ ২.৮.০।
- সফটওয়্যার : জাভা জেআরই ১.৮।
ACL সমর্থন
ইনডেক্সার প্লাগইনটি গুগল ওয়ার্কস্পেস ডোমেইনের ডকুমেন্টগুলোতে অ্যাক্সেস নিয়ন্ত্রণের জন্য অ্যাক্সেস কন্ট্রোল লিস্ট (ACL) সমর্থন করে।
যদি আপনি প্লাগইন কনফিগারেশনে ডিফল্ট ACL সক্রিয় করেন ( defaultAcl.mode none ' ছাড়া অন্য কিছুতে সেট করে), তাহলে প্লাগইনটি এই ডিফল্টগুলো প্রয়োগ করে। অন্যথায়, প্লাগইনটি সম্পূর্ণ ডোমেইনে পড়ার অনুমতি প্রদান করে। গুগল-প্রদত্ত কানেক্টর প্যারামিটারগুলো দেখুন।
পূর্বশর্ত
ইনডেক্সার প্লাগইনটি ডেপ্লয় করার আগে, এই উপাদানগুলো সংগ্রহ করুন:
- গুগল ওয়ার্কস্পেস প্রাইভেট কী (যার মধ্যে সার্ভিস অ্যাকাউন্ট আইডি থাকে)। ক্লাউড সার্চ এপিআই-তে অ্যাক্সেস কনফিগার করতে দেখুন।
- গুগল ওয়ার্কস্পেস ডেটা সোর্স আইডি। তৃতীয় পক্ষের ডেটা সোর্স পরিচালনা দেখুন।
স্থাপনের ধাপগুলি
- Norconex HTTP Collector এবং প্লাগইন সফটওয়্যার ইনস্টল করুন
- ক্লাউড সার্চ কনফিগার করুন
- নরকনেক্স HTTP কালেক্টর কনফিগার করুন
- ওয়েব ক্রল কনফিগার করুন
- ওয়েব ক্রল এবং কন্টেন্ট আপলোড শুরু করুন
ধাপ ১: Norconex HTTP Collector এবং প্লাগইন সফটওয়্যারটি ইনস্টল করুন।
- Norconex ডাউনলোড পেজ থেকে Norconex কমিটার সফটওয়্যারটি ডাউনলোড করুন।
- সফটওয়্যারটি
~/norconex/ফোল্ডারে এক্সট্র্যাক্ট করুন। কমিটার প্লাগইনটি ক্লোন করুন:
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git cd norconex-committer-pluginআপনার নির্বাচিত সংস্করণটি চেক করুন এবং প্লাগইনটি বিল্ড করুন:
git checkout tags/v1-0.0.3 mvn packageটেস্টগুলি এড়িয়ে যেতে,
mvn package -DskipTestsব্যবহার করুন।JAR ফাইলটি Norconex
libডিরেক্টরিতে কপি করুন:cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/libবিল্ড করা ZIP ফাইলটি এক্সট্র্যাক্ট করুন:
unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3ইনস্টল স্ক্রিপ্টটি চালান এবং Norconex
libডিরেক্টরির সম্পূর্ণ পাথ প্রদান করুন:sh install.shসদৃশ ফাইলের জন্য অনুরোধ করা হলে, বিকল্প
1নির্বাচন করুন।
ধাপ ২: ক্লাউড সার্চ কনফিগার করুন
Norconex ডিরেক্টরিতে sdk-configuration.properties ফাইলটি তৈরি করুন। ফাইলটিতে অবশ্যই এই প্যারামিটারগুলো উল্লেখ করতে হবে:
| সেটিং | প্যারামিটার |
| ডেটা উৎস আইডি | api.sourceId = 1234567890abcdefআবশ্যক। আপনার গুগল ওয়ার্কস্পেস প্রশাসকের কাছ থেকে প্রাপ্ত উৎস আইডি। |
| পরিষেবা অ্যাকাউন্ট | api.serviceAccountPrivateKeyFile = ./PrivateKey.jsonপ্রয়োজনীয় সার্ভিস অ্যাকাউন্ট কী ফাইল। |
উদাহরণ sdk-configuration.properties :
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
প্লাগইনটি কীভাবে ডেটা পাঠাবে তা নিয়ন্ত্রণ করতে আপনি batch.* গুগল-প্রদত্ত কানেক্টর প্যারামিটারগুলো দেখুন।
মেটাডেটা পূরণ করতে, এই ঐচ্ছিক প্যারামিটারগুলো কনফিগার করুন:
| সেটিং | প্যারামিটার |
| শিরোনাম | itemMetadata.title.field= movieTitle |
| স্কিমা অবজেক্ট টাইপ | itemMetadata.objectType= movie |
ধাপ ৩: নরকনেক্স এইচটিটিপি কালেক্টর কনফিগার করুন
প্লাগইনটিতে minimum-config.xml একটি নমুনা ফাইল অন্তর্ভুক্ত রয়েছে।
Norconex ডিরেক্টরিতে যান এবং নমুনাটি কপি করুন:
cd ~/norconex/norconex-collector-http-VERSION/ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml<committer>এবং<tagger>নোড যোগ বা প্রতিস্থাপন করতেgcs-crawl-config.xmlসম্পাদনা করুন:
| সেটিং | প্যারামিটার |
<committer> নোড | <committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">আবশ্যক। এটি <httpcollector> নোডের অধীনে যোগ করুন। |
<uploadFormat> | <uploadFormat>raw</uploadFormat>ঐচ্ছিক। raw বা text )। ডিফল্ট হলো raw )। |
উদাহরণ gcs-crawl-config.xml :
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
ধাপ ৪: ওয়েব ক্রল কনফিগার করুন
আপনার প্রয়োজন অনুযায়ী <crawler> নোডগুলি কনফিগার করুন, যার মধ্যে অন্তর্ভুক্ত রয়েছে:
- শুরু ইউআরএল
- সর্বোচ্চ ক্রল গভীরতা
- থ্রেডের সংখ্যা
নরকনেক্স কনফিগারেশন পৃষ্ঠাটি দেখুন।
ধাপ ৫: ওয়েব ক্রল এবং কন্টেন্ট আপলোড শুরু করুন
কালেক্টরটি লোকাল মোডে চালান:
./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
JEF মনিটর দিয়ে ক্রলারটি পর্যবেক্ষণ করুন।
নরকনেক্স জেএফ (জব এক্সিকিউশন ফ্রেমওয়ার্ক) মনিটর অগ্রগতির একটি গ্রাফিক্যাল চিত্র প্রদান করে। জেএফ মনিটর দিয়ে আপনার ক্রলার মনিটর করুন দেখুন।