คู่มือนี้มีไว้สำหรับผู้ดูแลระบบที่รับผิดชอบในการดาวน์โหลด ทำให้ใช้งานได้ และดูแลรักษาปลั๊กอินตัวจัดทำดัชนี Norconex HTTP Collector ของ Google Cloud Search คุณควรมีความคุ้นเคยกับ Linux, หลักการพื้นฐานของการรวบรวมข้อมูลเว็บ, XML และ Norconex HTTP Collector
คู่มือนี้มีวิธีการดังนี้
- ดาวน์โหลดซอฟต์แวร์ปลั๊กอินตัวจัดทำดัชนี
- กำหนดค่า Cloud Search
- กำหนดค่า Norconex HTTP Collector และการรวบรวมข้อมูลเว็บ
- เริ่มการรวบรวมข้อมูลเว็บและอัปโหลดเนื้อหา
ข้อมูลเกี่ยวกับงานที่ผู้ดูแลระบบ Google Workspace ต้องดำเนินการจะไม่ปรากฏในคู่มือนี้ หากต้องการดูข้อมูลเกี่ยวกับงานเหล่านั้น โปรดดูหัวข้อ จัดการแหล่งข้อมูลของบุคคลที่สาม
ภาพรวมของปลั๊กอินตัวจัดทำดัชนี Norconex HTTP Collector
โดยค่าเริ่มต้น Cloud Search สามารถค้นพบ จัดทำดัชนี และแสดงเนื้อหาจากผลิตภัณฑ์ของ Google Workspace เช่น Google เอกสารและ Gmail คุณสามารถขยายขอบเขตให้รวมเนื้อหาเว็บได้โดยทำให้ใช้งานได้ ปลั๊กอินตัวจัดทำดัชนีสำหรับ Norconex HTTP Collector ซึ่งเป็น Web Crawler แบบโอเพนซอร์สสำหรับองค์กร
ไฟล์พร็อพเพอร์ตี้การกำหนดค่า
หากต้องการให้ปลั๊กอินรวบรวมข้อมูลและอัปโหลดเนื้อหา คุณต้องระบุข้อมูลที่เฉพาะเจาะจงในไฟล์การกำหนดค่า 2 ไฟล์ ดังนี้
{gcs-crawl-config.xml}: การตั้งค่าสำหรับ Norconex HTTP Collectorsdk-configuration.properties: การตั้งค่าสำหรับ Cloud Search
การรวบรวมข้อมูลเว็บและการอัปโหลดเนื้อหา
หลังจากป้อนข้อมูลในไฟล์การกำหนดค่าแล้ว คุณจะ เริ่มการรวบรวมข้อมูลเว็บ ได้ Norconex HTTP Collector จะรวบรวมข้อมูลเว็บและอัปโหลดเนื้อหาเอกสารไบนารีหรือข้อความต้นฉบับไปยัง Cloud Search Indexing API
ข้อกำหนดของระบบ
- ระบบปฏิบัติการ: Linux เท่านั้น
- Norconex เวอร์ชัน: เวอร์ชัน 2.8.0
- ซอฟต์แวร์: Java JRE 1.8
การรองรับ ACL
ปลั๊กอินตัวจัดทำดัชนีรองรับรายการควบคุมการเข้าถึง (ACL) เพื่อควบคุมการเข้าถึงเอกสารในโดเมน Google Workspace
หากคุณเปิดใช้ ACL เริ่มต้นในการกำหนดค่าปลั๊กอิน (defaultAcl.mode ตั้งค่าเป็นค่าอื่นที่ไม่ใช่ none) ปลั๊กอินจะใช้ค่าเริ่มต้นเหล่านี้ ไม่เช่นนั้น ปลั๊กอินจะให้สิทธิ์อ่านแก่ทั้งโดเมน ดู
พารามิเตอร์ตัวเชื่อมต่อที่ Google จัดหาให้
ข้อกำหนดเบื้องต้น
รวบรวมคอมโพเนนต์ต่อไปนี้ก่อนทำให้ใช้งานได้ปลั๊กอินตัวจัดทำดัชนี
- คีย์ส่วนตัวของ Google Workspace (ที่มีรหัสบัญชีบริการ) ดูหัวข้อ กำหนดค่าการเข้าถึง Cloud Search API
- รหัสแหล่งข้อมูลของ Google Workspace ดูหัวข้อ จัดการแหล่งข้อมูลของบุคคลที่สาม
ขั้นตอนการทำให้ใช้งานได้
- ติดตั้ง Norconex HTTP Collector และซอฟต์แวร์ปลั๊กอิน
- กำหนดค่า Cloud Search
- กำหนดค่า Norconex HTTP Collector
- กำหนดค่าการรวบรวมข้อมูลเว็บ
- เริ่มการรวบรวมข้อมูลเว็บและการอัปโหลดเนื้อหา
ขั้นตอนที่ 1: ติดตั้ง Norconex HTTP Collector และซอฟต์แวร์ปลั๊กอิน
- ดาวน์โหลดซอฟต์แวร์ Committer ของ Norconex จากหน้า ดาวน์โหลด ของ Norconex
- แตกไฟล์ซอฟต์แวร์ไปยัง
~/norconex/ โคลนปลั๊กอิน Committer โดยใช้คำสั่งต่อไปนี้
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git cd norconex-committer-pluginตรวจสอบเวอร์ชันที่เลือกและสร้างปลั๊กอินโดยใช้คำสั่งต่อไปนี้
git checkout tags/v1-0.0.3 mvn packageหากต้องการข้ามการทดสอบ ให้ใช้คำสั่ง
mvn package -DskipTestsคัดลอกไฟล์ JAR ไปยังไดเรกทอรี
libของ Norconex โดยใช้คำสั่งต่อไปนี้cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/libแตกไฟล์ ZIP ที่สร้างขึ้นโดยใช้คำสั่งต่อไปนี้
unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3เรียกใช้สคริปต์การติดตั้งและระบุเส้นทางแบบเต็ม ไปยังไดเรกทอรี
libของ Norconex โดยใช้คำสั่งต่อไปนี้sh install.shหากระบบแจ้งให้เลือกไฟล์ที่ซ้ำกัน ให้เลือกตัวเลือก
1
ขั้นตอนที่ 2: กำหนดค่า Cloud Search
สร้างไฟล์ sdk-configuration.properties ในไดเรกทอรี Norconex ไฟล์ต้องระบุพารามิเตอร์ต่อไปนี้
| การตั้งค่า | พารามิเตอร์ |
| รหัสแหล่งข้อมูล | api.sourceId = 1234567890abcdef
ต้องระบุ รหัสแหล่งข้อมูลจากผู้ดูแลระบบ Google Workspace |
| บัญชีบริการ | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
ต้องระบุ ไฟล์คีย์บัญชีบริการ |
ตัวอย่างไฟล์ sdk-configuration.properties
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
นอกจากนี้ คุณยังใส่พารามิเตอร์ เช่น batch.* เพื่อควบคุมวิธีที่ปลั๊กอินส่งข้อมูลได้ด้วย ดู
พารามิเตอร์ตัวเชื่อมต่อที่ Google จัดหาให้
หากต้องการป้อนข้อมูลเมตา ให้กำหนดค่าพารามิเตอร์ที่ไม่บังคับต่อไปนี้
| การตั้งค่า | พารามิเตอร์ |
| ชื่อ | itemMetadata.title.field=movieTitle |
| ประเภทออบเจ็กต์สคีมา | itemMetadata.objectType=movie |
ขั้นตอนที่ 3: กำหนดค่า Norconex HTTP Collector
ปลั๊กอินมีไฟล์ตัวอย่าง minimum-config.xml
เปลี่ยนไปยังไดเรกทอรี Norconex และคัดลอกตัวอย่างโดยใช้คำสั่งต่อไปนี้
cd ~/norconex/norconex-collector-http-VERSION/ cp examples/minimum/minimum-config.xml gcs-crawl-config.xmlแก้ไข
gcs-crawl-config.xmlเพื่อเพิ่มหรือแทนที่<committer>และ<tagger>โหนด:
| การตั้งค่า | พารามิเตอร์ |
<committer> โหนด |
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
ต้องระบุ เพิ่มโหนดนี้ภายใต้โหนด <httpcollector> |
<uploadFormat> |
<uploadFormat>raw</uploadFormat>
ไม่บังคับ raw หรือ text ค่าเริ่มต้นคือ
raw |
ตัวอย่างไฟล์ gcs-crawl-config.xml
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
ขั้นตอนที่ 4: กำหนดค่าการรวบรวมข้อมูลเว็บ
กำหนดค่าโหนด <crawler> ตามความต้องการของคุณ ซึ่งรวมถึง
- URL เริ่มต้น
- ความลึกสูงสุดของการรวบรวมข้อมูล
- จำนวนเธรด
ดูหน้าการกำหนดค่า Norconex page
ขั้นตอนที่ 5: เริ่มการรวบรวมข้อมูลเว็บและการอัปโหลดเนื้อหา
เรียกใช้ Collector ในโหมด Local โดยใช้คำสั่งต่อไปนี้
./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
ตรวจสอบโปรแกรมรวบรวมข้อมูลด้วย JEF Monitor
Norconex JEF (Job Execution Framework) Monitor แสดงความคืบหน้าในรูปแบบกราฟิก ดูหัวข้อ ตรวจสอบโปรแกรมรวบรวมข้อมูลด้วย JEF Monitor