ใช้งานปลั๊กอิน Norconex HTTP Collector Indexer

คู่มือนี้มีไว้สำหรับผู้ดูแลระบบปลั๊กอินตัวจัดทำดัชนี Norconex HTTP Collector ของ Google Cloud Search ซึ่งก็คือทุกคนที่รับผิดชอบในการดาวน์โหลด การติดตั้งใช้งาน การกำหนดค่า และการบำรุงรักษาปลั๊กอินตัวจัดทำดัชนี คู่มือนี้มีสมมติฐานว่าคุณคุ้นเคยกับระบบปฏิบัติการ Linux, พื้นฐานของการ Crawl เว็บ, XML และ Norconex HTTP Collector

คู่มือนี้มีวิธีการสำหรับงานสำคัญที่เกี่ยวข้องกับการติดตั้งใช้งานปลั๊กอิน Indexer ดังนี้

  • ดาวน์โหลดซอฟต์แวร์ปลั๊กอินเครื่องมือจัดทำดัชนี
  • กำหนดค่า Google Cloud Search
  • กำหนดค่า Norconex HTTP Collector และการ Crawl เว็บ
  • เริ่มการ Crawl เว็บและอัปโหลดเนื้อหา

ข้อมูลเกี่ยวกับงานที่ผู้ดูแลระบบ Google Workspace ต้อง ดำเนินการเพื่อแมป Google Cloud Search กับปลั๊กอินเครื่องมือจัดทำดัชนี Norconex HTTP Collector จะไม่ปรากฏในคู่มือนี้ ดูข้อมูลเกี่ยวกับงานเหล่านั้นได้ที่จัดการแหล่งข้อมูลของบุคคลที่สาม

ภาพรวมของปลั๊กอินเครื่องจัดทำดัชนี Norconex HTTP Collector ของ Cloud Search

โดยค่าเริ่มต้น Cloud Search จะค้นหา จัดทำดัชนี และแสดงเนื้อหาจาก ผลิตภัณฑ์ Google Workspace เช่น Google เอกสารและ Gmail ได้ คุณขยายการเข้าถึงของ Google Cloud Search ให้รวมการแสดงเนื้อหาเว็บแก่ผู้ใช้ได้โดยการติดตั้งใช้งานปลั๊กอินเครื่องมือจัดทำดัชนีสำหรับ Norconex HTTP Collector ซึ่งเป็นโปรแกรม Crawl เว็บแบบโอเพนซอร์สสำหรับองค์กร

ไฟล์พร็อพเพอร์ตี้การกำหนดค่า

หากต้องการเปิดใช้ปลั๊กอินเครื่องจัดทำดัชนีเพื่อทำการ Crawl เว็บและอัปโหลดเนื้อหาไปยัง Indexing API คุณในฐานะผู้ดูแลระบบปลั๊กอินเครื่องจัดทำดัชนีจะต้องระบุข้อมูลที่เฉพาะเจาะจง ในขั้นตอนการกำหนดค่าที่อธิบายไว้ในเอกสารนี้ในขั้นตอนการติดตั้งใช้งาน

หากต้องการใช้ปลั๊กอินเครื่องมือจัดทำดัชนี คุณต้องตั้งค่าพร็อพเพอร์ตี้ในไฟล์การกำหนดค่า 2 ไฟล์ ดังนี้

  • {gcs-crawl-config.xml}-- มีการตั้งค่าสำหรับ Norconex HTTP Collector
  • sdk-configuration.properties-- มีการตั้งค่าสำหรับ Google Cloud Search

พร็อพเพอร์ตี้ในแต่ละไฟล์ช่วยให้ปลั๊กอินเครื่องจัดทำดัชนีของ Google Cloud Search และ Norconex HTTP Collector สื่อสารกันได้

การ Crawl เว็บและการอัปโหลดเนื้อหา

หลังจากป้อนข้อมูลในไฟล์การกำหนดค่าแล้ว คุณจะมี การตั้งค่าที่จำเป็นในการเริ่มการ Crawl เว็บ Norconex HTTP Collector จะทำการ Crawl เว็บ โดยค้นหาเนื้อหาเอกสารที่เกี่ยวข้องกับการกำหนดค่า และอัปโหลดเนื้อหาเอกสารเวอร์ชันไบนารี (หรือข้อความ) ต้นฉบับไปยัง Cloud Search Indexing API ซึ่งจะจัดทำดัชนีและแสดงต่อผู้ใช้ในที่สุด

ระบบปฏิบัติการที่รองรับ

ต้องติดตั้งปลั๊กอินเครื่องมือจัดทำดัชนี Norconex HTTP Collector ของ Google Cloud Search ใน Linux

เวอร์ชัน Norconex HTTP Collector ที่รองรับ

ปลั๊กอิน Indexer ของ Norconex HTTP Collector สำหรับ Google Cloud Search รองรับเวอร์ชัน 2.8.0

การรองรับ ACL

ปลั๊กอินเครื่องจัดทำดัชนีรองรับการควบคุมการเข้าถึงเอกสารในโดเมน Google Workspace โดยใช้รายการควบคุมการเข้าถึง (ACL)

หากเปิดใช้ ACL เริ่มต้นในการกำหนดค่าปลั๊กอิน Google Cloud Search (defaultAcl.mode ตั้งค่าเป็นค่าอื่นที่ไม่ใช่ none และกำหนดค่าด้วย defaultAcl.*) ปลั๊กอินเครื่องมือจัดทำดัชนีจะพยายามสร้างและใช้ ACL เริ่มต้นก่อน

หากไม่ได้เปิดใช้ ACL เริ่มต้น ปลั๊กอินจะกลับไปให้สิทธิ์อ่าน แก่โดเมน Google Workspace ทั้งหมด

ดูคำอธิบายโดยละเอียดเกี่ยวกับพารามิเตอร์การกำหนดค่า ACL ได้ที่ พารามิเตอร์ตัวเชื่อมต่อที่ Google จัดหาให้

ข้อกำหนดเบื้องต้น

ก่อนที่จะติดตั้งใช้งานปลั๊กอินเครื่องจัดทำดัชนี โปรดตรวจสอบว่าคุณมีคอมโพเนนต์ที่จำเป็นต่อไปนี้

  • ติดตั้ง Java JRE 1.8 ในคอมพิวเตอร์ที่เรียกใช้ปลั๊กอิน Indexer
  • ข้อมูล Google Workspace ที่จำเป็นต่อการสร้างความสัมพันธ์ระหว่าง Cloud Search กับ Norconex HTTP Collector มีดังนี้

    โดยปกติแล้ว ผู้ดูแลระบบ Google Workspace ของโดเมนจะให้ข้อมูลเข้าสู่ระบบเหล่านี้แก่คุณได้

ขั้นตอนการติดตั้งใช้งาน

หากต้องการติดตั้งใช้งานปลั๊กอินเครื่องจัดทำดัชนี ให้ทำตามขั้นตอนต่อไปนี้

  1. ติดตั้ง Norconex HTTP Collector และซอฟต์แวร์ปลั๊กอิน Indexer
  2. กำหนดค่า Google Cloud Search
  3. กำหนดค่า Norconex HTTP Collector
  4. กำหนดค่าการ Crawl เว็บ
  5. เริ่มการ Crawl เว็บและการอัปโหลดเนื้อหา

ขั้นตอนที่ 1: ติดตั้ง Norconex HTTP Collector และซอฟต์แวร์ปลั๊กอิน Indexer

  1. ดาวน์โหลดซอฟต์แวร์ Committer ของ Norconex จากหน้านี้
  2. แตกไฟล์ซอฟต์แวร์ที่ดาวน์โหลดไปยังโฟลเดอร์ ~/norconex/
  3. โคลนปลั๊กอิน Commiter จาก GitHub git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git และ จากนั้น cd norconex-committer-plugin
  4. ตรวจสอบปลั๊กอิน Commiter เวอร์ชันที่ต้องการและสร้างไฟล์ ZIP โดยทำดังนี้ git checkout tags/v1-0.0.3 และ mvn package (หากต้องการข้ามการทดสอบเมื่อสร้าง ตัวเชื่อมต่อ ให้ใช้ mvn package -DskipTests)
  5. cd target
  6. คัดลอกไฟล์ JAR ของปลั๊กอินที่สร้างขึ้นไปยังไดเรกทอรี lib ของ Norconex cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. แตกไฟล์ ZIP ที่เพิ่งสร้าง แล้วคลายไฟล์ ZIP ดังนี้ unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. เรียกใช้สคริปต์การติดตั้งเพื่อคัดลอก .jar ของปลั๊กอินและไลบรารีที่จำเป็นทั้งหมด ลงในไดเรกทอรีของตัวรวบรวม http ดังนี้
    1. เปลี่ยนไปใช้ปลั๊กอิน Commiter ที่แยกออกมาและคลายซิปไว้ข้างต้น: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. เรียกใช้ $ sh install.sh และระบุเส้นทางแบบเต็มไปยัง norconex/norconex-collector-http-{version}/lib เป็นไดเรกทอรีเป้าหมาย เมื่อได้รับแจ้ง
    3. หากพบไฟล์ JAR ที่ซ้ำกัน ให้เลือกตัวเลือก 1 (คัดลอกเฉพาะ JAR ต้นทาง หากมีเวอร์ชันสูงกว่าหรือเท่ากับ JAR เป้าหมายหลังจากเปลี่ยนชื่อ JAR เป้าหมาย)

ขั้นตอนที่ 2: กำหนดค่า Google Cloud Search

หากต้องการให้ปลั๊กอิน Indexer เชื่อมต่อกับ Norconex HTTP Collector และจัดทำดัชนีเนื้อหาที่เกี่ยวข้อง คุณต้องสร้างไฟล์กำหนดค่า Cloud Search ในไดเรกทอรี Norconex ที่ติดตั้ง Norconex HTTP Collector Google แนะนำ ให้ตั้งชื่อไฟล์การกำหนดค่า Cloud Search sdk-configuration.properties

ไฟล์การกำหนดค่านี้ต้องมีคู่คีย์/ค่าที่กำหนดพารามิเตอร์ ไฟล์การกำหนดค่าต้องระบุพารามิเตอร์ต่อไปนี้อย่างน้อย ซึ่งจำเป็นต่อการเข้าถึงแหล่งข้อมูล Cloud Search

การตั้งค่า พารามิเตอร์
รหัสแหล่งข้อมูล api.sourceId = 1234567890abcdef
ต้องระบุ รหัสแหล่งข้อมูล Cloud Search ที่ผู้ดูแลระบบ Google Workspace ตั้งค่าไว้
บัญชีบริการ api.serviceAccountPrivateKeyFile = ./PrivateKey.json
ต้องระบุ ไฟล์คีย์บัญชีบริการ Cloud Search ที่ผู้ดูแลระบบ Google Workspace สร้างขึ้นเพื่อให้ปลั๊กอินเครื่องจัดทำดัชนีเข้าถึงได้

ตัวอย่างต่อไปนี้แสดงsdk-configuration.propertiesไฟล์

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

ไฟล์การกำหนดค่ายังมีพารามิเตอร์การกำหนดค่าที่ Google จัดหาให้ได้ด้วย พารามิเตอร์เหล่านี้อาจส่งผลต่อวิธีที่ปลั๊กอินนี้ส่งข้อมูลไปยัง Google Cloud Search API เช่น batch.*ชุดพารามิเตอร์ จะระบุวิธีที่ตัวเชื่อมต่อรวมคำขอ

หากคุณไม่ได้กำหนดพารามิเตอร์ในไฟล์การกำหนดค่า ระบบจะใช้ค่าเริ่มต้น (หากมี) ดูคำอธิบายโดยละเอียดของพารามิเตอร์แต่ละรายการได้ที่พารามิเตอร์ตัวเชื่อมต่อที่ Google จัดหาให้

คุณสามารถกำหนดค่าปลั๊กอินเครื่องมือจัดทำดัชนีเพื่อสร้างข้อมูลเมตาและ Structured Data สำหรับ เนื้อหาที่กำลังจัดทำดัชนี ค่าที่จะป้อนสำหรับฟิลด์ข้อมูลเมตาและ Structured Data สามารถดึงมาจากเมตาแท็กในเนื้อหา HTML ที่กำลังจัดทำดัชนี หรือ ระบุค่าเริ่มต้นในไฟล์การกำหนดค่า

การตั้งค่า พารามิเตอร์
ชื่อ itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
โดยค่าเริ่มต้น ปลั๊กอินจะใช้ HTML title เป็นชื่อของเอกสารที่กำลังจัดทำดัชนี ในกรณีที่ไม่มีชื่อ คุณสามารถอ้างอิงถึง แอตทริบิวต์ข้อมูลเมตาที่มีค่าที่สอดคล้องกับชื่อเอกสาร หรือตั้งค่าเริ่มต้น
การประทับเวลาที่สร้าง itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
แอตทริบิวต์ข้อมูลเมตาที่มีค่าสำหรับการประทับเวลาการสร้างเอกสาร
เวลาที่แก้ไขล่าสุด itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
แอตทริบิวต์ข้อมูลเมตาที่มีค่าสำหรับการประทับเวลาการแก้ไขล่าสุดของเอกสาร
ภาษาของเอกสาร itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
ภาษาของเนื้อหาสำหรับเอกสารที่กำลังจัดทำดัชนี
ประเภทออบเจ็กต์สคีมา itemMetadata.objectType=movie
ประเภทออบเจ็กต์ที่เว็บไซต์ใช้ตามที่กำหนดไว้ใน คำจำกัดความของออบเจ็กต์สคีมาแหล่งข้อมูล เครื่องมือเชื่อมต่อจะไม่จัดทำดัชนี Structured Data หากไม่ได้ระบุพร็อพเพอร์ตี้นี้

หมายเหตุ: พร็อพเพอร์ตี้การกำหนดค่านี้ชี้ไปยังค่า ไม่ใช่แอตทริบิวต์ข้อมูลเมตา และระบบไม่รองรับคำต่อท้าย .field และ .defaultValue

รูปแบบเวลาและวันที่

รูปแบบวันที่และเวลาจะระบุรูปแบบที่คาดไว้ในแอตทริบิวต์ข้อมูลเมตา หากไฟล์กําหนดค่าไม่มีพารามิเตอร์นี้ ระบบจะใช้ค่าเริ่มต้น ตารางต่อไปนี้แสดงพารามิเตอร์นี้

การตั้งค่า

พารามิเตอร์

รูปแบบวันที่และเวลาเพิ่มเติม

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

รายการรูปแบบ java.time.format.DateTimeFormatter เพิ่มเติมที่คั่นด้วยเครื่องหมายอัฒภาค ระบบจะใช้รูปแบบเมื่อแยกวิเคราะห์ค่าสตริงสำหรับฟิลด์วันที่หรือวันที่และเวลา ในข้อมูลเมตาหรือสคีมา ค่าเริ่มต้นคือรายการว่าง แต่ระบบจะรองรับรูปแบบ RFC 3339 และ RFC 1123 เสมอ

ขั้นตอนที่ 3: กำหนดค่า Norconex HTTP Collector

ไฟล์เก็บถาวร ZIP norconex-committer-google-cloud-search-{version}.zipมี ไฟล์การกำหนดค่าตัวอย่างminimum-config.xml

Google ขอแนะนำให้คุณเริ่มการกำหนดค่าโดยการคัดลอกไฟล์ตัวอย่าง ดังนี้

  1. เปลี่ยนไปที่ไดเรกทอรี Norconex HTTP Collector:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. คัดลอกไฟล์การกำหนดค่า:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. แก้ไขไฟล์ที่สร้างขึ้นใหม่ (ในตัวอย่างนี้คือ gcs-crawl-config.xml) และ เพิ่มหรือแทนที่โหนด <committer> และ <tagger> ที่มีอยู่ตามที่อธิบายไว้ใน ตารางต่อไปนี้
การตั้งค่า พารามิเตอร์
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

ต้องระบุ หากต้องการเปิดใช้ปลั๊กอิน คุณต้องเพิ่มโหนด <committer> เป็นโหนดย่อยของโหนด <httpcollector> รูท
<UploadFormat> <uploadFormat>raw</uploadFormat>
ไม่บังคับ รูปแบบที่ปลั๊กอินเครื่องมือจัดทำดัชนีพุชเนื้อหาเอกสารไปยัง Google Cloud Search Indexer API ค่าที่ใช้ได้มีดังนี้
  • raw: ปลั๊กอินเครื่องจัดทำดัชนีจะพุชเนื้อหาเอกสารต้นฉบับที่ยังไม่ได้แปลง
  • text: ปลั๊กอิน Indexer จะพุชเนื้อหาที่เป็นข้อความที่แยกออกมา

ค่าเริ่มต้นคือ raw
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
ต้องระบุหากค่าของ <UploadFormat> คือ raw ในกรณีนี้ ปลั๊กอิน Indexer ต้องมีฟิลด์เนื้อหาไบนารีของเอกสาร

คุณต้องเพิ่มโหนด BinaryContentTagger <tagger> เป็นองค์ประกอบย่อยของโหนด <importer> / <preParseHandlers>

ตัวอย่างต่อไปนี้แสดงการแก้ไขที่จำเป็น สำหรับ gcs-crawl-config.xml

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

ขั้นตอนที่ 4: กำหนดค่าการ Crawl เว็บ

ก่อนเริ่มการ Crawl เว็บ คุณต้องกำหนดค่าการ Crawl เพื่อให้มีเฉพาะข้อมูลที่องค์กรต้องการให้แสดงในผลการค้นหา การตั้งค่าที่สำคัญที่สุดสำหรับการ Crawl เว็บเป็นส่วนหนึ่งของ<crawler> โหนด และอาจรวมถึงสิ่งต่อไปนี้

  • URL เริ่มต้น
  • ความลึกสูงสุดของการ Crawl
  • จำนวนเธรด

เปลี่ยนค่าการกำหนดค่าเหล่านี้ตามความต้องการ ดูข้อมูลโดยละเอียดเกี่ยวกับการตั้งค่าการ Crawl เว็บ รวมถึงรายการพารามิเตอร์การกำหนดค่าทั้งหมดที่มีได้ในหน้าการกำหนดค่า ของ HTTP Collector

ขั้นตอนที่ 5: เริ่มการ Crawl เว็บและการอัปโหลดเนื้อหา

หลังจากติดตั้งและตั้งค่าปลั๊กอินเครื่องจัดทำดัชนีแล้ว คุณจะเรียกใช้ปลั๊กอินนี้ได้ ด้วยตัวเองในโหมดภายใน

ตัวอย่างต่อไปนี้ถือว่าคอมโพเนนต์ที่จำเป็นอยู่ในไดเรกทอรี ในเครื่องในระบบ Linux เรียกใช้คำสั่งต่อไปนี้

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

ตรวจสอบ Crawler ด้วย JEF Monitor

Norconex JEF (Job Execution Framework) Monitor เป็นเครื่องมือแบบกราฟิกสำหรับ ตรวจสอบความคืบหน้าของกระบวนการและงานของ Norconex Web Crawler (HTTP Collector) ดูบทแนะนำฉบับสมบูรณ์เกี่ยวกับวิธีกำหนดค่าเครื่องมือนี้ได้ที่ ตรวจสอบความคืบหน้าของ Crawler ด้วย JEF Monitor