ใช้งานปลั๊กอิน Norconex HTTP Collector Indexer

คู่มือนี้มีไว้สำหรับผู้ดูแลระบบปลั๊กอินเครื่องมือจัดทำดัชนี HTTP ของ Google Cloud Search Norconex ซึ่งก็คือทุกคนที่มีหน้าที่ดาวน์โหลด ทำให้ใช้งานได้ กำหนดค่า และดูแลรักษาปลั๊กอินเครื่องมือจัดทำดัชนี คู่มือนี้จะถือว่าคุณคุ้นเคยกับระบบปฏิบัติการ Linux, พื้นฐานของการรวบรวมข้อมูลเว็บ, XML และ Norconex HTTP Collector

คู่มือนี้มีคำแนะนำสำหรับการทำงานสำคัญที่เกี่ยวข้องกับการทำให้ปลั๊กอินดัชนีใช้งานได้ ดังนี้

  • ดาวน์โหลดซอฟต์แวร์ปลั๊กอินตัวจัดทำดัชนี
  • กำหนดค่า Google Cloud Search
  • กำหนดค่า Norconex HTTP Collector และการ Crawl เว็บ
  • เริ่มการ Crawl เว็บและอัปโหลดเนื้อหา

ข้อมูลเกี่ยวกับงานที่ผู้ดูแลระบบ Google Workspace ต้องทำเพื่อแมป Google Cloud Search กับปลั๊กอินเครื่องมือจัดทำดัชนี HTTP ของ Norconex HTTP Collector จะไม่ปรากฏในคู่มือนี้ ดูข้อมูลเกี่ยวกับงานเหล่านั้นได้ที่จัดการแหล่งข้อมูลของบุคคลที่สาม

ภาพรวมของปลั๊กอินเครื่องมือจัดทำดัชนี HTTP Collector ของ Cloud Search Norconex

โดยค่าเริ่มต้น Cloud Search จะค้นพบ จัดทำดัชนี และแสดงเนื้อหาจากผลิตภัณฑ์ Google Workspace ได้ เช่น Google เอกสารและ Gmail คุณขยายขอบเขตการเข้าถึงของ Google Cloud Search ให้รวมการแสดงเนื้อหาเว็บแก่ผู้ใช้ได้โดยทำให้ปลั๊กอินเครื่องมือจัดทำดัชนีสำหรับ Norconex HTTP Collector ซึ่งเป็นโปรแกรมรวบรวมข้อมูลเว็บขององค์กรแบบโอเพนซอร์ส

ไฟล์คุณสมบัติการกำหนดค่า

หากต้องการเปิดใช้ปลั๊กอินเครื่องมือจัดทำดัชนีเพื่อทำการ Crawl และอัปโหลดเนื้อหาไปยัง API การจัดทำดัชนี คุณในฐานะผู้ดูแลระบบปลั๊กอินสำหรับจัดทำดัชนี จะให้ข้อมูลที่เฉพาะเจาะจงในขั้นตอนการกำหนดค่าที่อธิบายไว้ในเอกสารนี้ในขั้นตอนการทำให้ใช้งานได้

หากต้องการใช้ปลั๊กอินตัวจัดทำดัชนี คุณต้องตั้งค่าพร็อพเพอร์ตี้ในไฟล์การกำหนดค่า 2 ไฟล์ดังนี้

  • {gcs-crawl-config.xml} มีการตั้งค่าสำหรับ Norconex HTTP Collector
  • sdk-configuration.properties มีการตั้งค่าสำหรับ Google Cloud Search

พร็อพเพอร์ตี้ในแต่ละไฟล์ช่วยให้ปลั๊กอินเครื่องมือจัดทำดัชนีของ Google Cloud Search และ Norconex HTTP Collector สื่อสารกันได้

การ Crawl เว็บและการอัปโหลดเนื้อหา

หลังจากสร้างไฟล์การกำหนดค่าแล้ว คุณจะมีการตั้งค่าที่จำเป็นเพื่อเริ่มการ Crawl เว็บ Norconex HTTP Collector จะรวบรวมข้อมูลเว็บโดยค้นหาเนื้อหาเอกสารที่เกี่ยวข้องกับการกำหนดค่าและอัปโหลดเนื้อหาเอกสารเวอร์ชันไบนารี (หรือข้อความ) ต้นฉบับไปยัง Cloud Search API การจัดทำดัชนี ซึ่งจะได้รับการจัดทำดัชนีและแสดงต่อผู้ใช้ในที่สุด

ระบบปฏิบัติการที่รองรับ

ต้องติดตั้งปลั๊กอินตัวจัดทำดัชนี HTTP Collector ของ Google Cloud Search Norconex ใน Linux

เวอร์ชันเครื่องมือรวบรวมข้อมูล HTTP ของ Norconex ที่รองรับ

ปลั๊กอินเครื่องมือจัดทำดัชนี HTTP Collector ของ Google Cloud Search Norconex รองรับเวอร์ชัน 2.8.0

การรองรับ ACL

ปลั๊กอินเครื่องมือจัดทำดัชนีรองรับการควบคุมการเข้าถึงเอกสารในโดเมน Google Workspace โดยใช้รายการควบคุมการเข้าถึง (ACL)

หากมีการเปิดใช้ ACL เริ่มต้นในการกำหนดค่าปลั๊กอิน Google Cloud Search (ตั้งค่า defaultAcl.mode เป็นอื่นที่ไม่ใช่ none และกำหนดค่าด้วย defaultAcl.*) ปลั๊กอินตัวจัดทำดัชนีจะพยายามสร้างและใช้ ACL เริ่มต้นก่อน

หากไม่ได้เปิดใช้ ACL เริ่มต้น ปลั๊กอินจะกลับไปให้สิทธิ์การอ่านแก่ทั้งโดเมน Google Workspace

สำหรับคำอธิบายโดยละเอียดของพารามิเตอร์การกำหนดค่า ACL โปรดดูพารามิเตอร์เครื่องมือเชื่อมต่อที่ Google จัดหา

ข้อกำหนดเบื้องต้น

ก่อนทำให้ปลั๊กอินตัวจัดทำดัชนีใช้งานได้ โปรดตรวจสอบว่าคุณมีคอมโพเนนต์ที่จำเป็นต่อไปนี้

  • Java JRE 1.8 ที่ติดตั้งบนคอมพิวเตอร์ที่เรียกใช้ปลั๊กอินตัวจัดทำดัชนี
  • ข้อมูล Google Workspace ที่จำเป็นต่อการสร้างความสัมพันธ์ระหว่าง Cloud Search และ Norconex HTTP Collector

    โดยปกติแล้ว ผู้ดูแลระบบ Google Workspace ของโดเมนจะส่งข้อมูลเข้าสู่ระบบเหล่านี้ให้คุณได้

ขั้นตอนการติดตั้งใช้งาน

หากต้องการใช้งานปลั๊กอินตัวจัดทำดัชนี ให้ทำตามขั้นตอนต่อไปนี้

  1. ติดตั้ง Norconex HTTP Collector และซอฟต์แวร์ปลั๊กอินตัวจัดทำดัชนี
  2. กำหนดค่า Google Cloud Search
  3. กำหนดค่า Norconex HTTP Collector
  4. กำหนดค่าการ Crawl เว็บ
  5. เริ่มการรวบรวมข้อมูลเว็บและการอัปโหลดเนื้อหา

ขั้นตอนที่ 1: ติดตั้ง Norconex HTTP Collector และซอฟต์แวร์ปลั๊กอินตัวจัดทำดัชนี

  1. ดาวน์โหลดซอฟต์แวร์ Norconex Commissioner จากหน้านี้
  2. แตกไฟล์ซอฟต์แวร์ที่ดาวน์โหลดลงในโฟลเดอร์ ~/norconex/
  3. โคลนปลั๊กอินคอมมิตจาก GitHub git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git จากนั้นจ่าย cd norconex-committer-plugin
  4. ตรวจสอบเวอร์ชันปลั๊กอินของคอมมิตเวอร์ชันที่ต้องการและสร้างไฟล์ ZIP: git checkout tags/v1-0.0.3 และ mvn package (หากต้องการข้ามการทดสอบเมื่อสร้างเครื่องมือเชื่อมต่อ ให้ใช้ mvn package -DskipTests)
  5. cd target
  6. คัดลอกไฟล์ Jar ปลั๊กอินที่สร้างลงในไดเรกทอรี Norconex Lib cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. แตกไฟล์ ZIP ที่คุณเพิ่งสร้าง จากนั้นแตกไฟล์: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. เรียกใช้สคริปต์การติดตั้งเพื่อคัดลอก .jar ของปลั๊กอินและไลบรารีที่จำเป็นทั้งหมดลงในไดเรกทอรีของผู้รวบรวม HTTP ดังนี้
    1. การเปลี่ยนแปลงปลั๊กอินคอมมิตที่ดึงมาซึ่งคลายการบีบอัดด้านบน: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. ดำเนินการ $ sh install.sh และระบุเส้นทางแบบเต็มไปยัง norconex/norconex-collector-http-{version}/lib เป็นไดเรกทอรีเป้าหมายเมื่อได้รับข้อความแจ้ง
    3. หากพบไฟล์ Jar ที่ซ้ำกัน ให้เลือกตัวเลือก 1 (คัดลอก Jar ต้นทางเฉพาะในกรณีที่เวอร์ชันสูงกว่าหรือเหมือนกับ Jar เป้าหมายหลังจากเปลี่ยนชื่อ Jar เป้าหมายเท่านั้น)

ขั้นตอนที่ 2: กำหนดค่า Google Cloud Search

หากต้องการให้ปลั๊กอินเครื่องมือจัดทำดัชนีเชื่อมต่อกับ Norconex HTTP Collector และจัดทำดัชนีเนื้อหาที่เกี่ยวข้อง คุณต้องสร้างไฟล์การกำหนดค่า Cloud Search ในไดเรกทอรี Norconex ที่มีการติดตั้ง Norconex HTTP Collector Google ขอแนะนำให้คุณตั้งชื่อไฟล์การกำหนดค่า Cloud Search เป็น sdk-configuration.properties

ไฟล์การกำหนดค่านี้ต้องมีคู่คีย์/ค่าที่กำหนดพารามิเตอร์ ไฟล์การกำหนดค่าต้องระบุพารามิเตอร์ต่อไปนี้เป็นอย่างน้อย ซึ่งจำเป็นสำหรับการเข้าถึงแหล่งข้อมูล Cloud Search

การเกริ่นนำ พารามิเตอร์
รหัสแหล่งข้อมูล api.sourceId = 1234567890abcdef
ต้องระบุ รหัสแหล่งที่มาของ Cloud Search ที่ผู้ดูแลระบบ Google Workspace ตั้งค่า
บัญชีบริการ api.serviceAccountPrivateKeyFile = ./PrivateKey.json
ต้องระบุ ไฟล์คีย์บัญชีบริการ Cloud Search ที่ผู้ดูแลระบบ Google Workspace สร้างขึ้นสำหรับการช่วยเหลือพิเศษของปลั๊กอินเครื่องมือจัดทำดัชนี

ตัวอย่างต่อไปนี้จะแสดงไฟล์ sdk-configuration.properties

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

นอกจากนี้ ไฟล์การกำหนดค่าอาจมีพารามิเตอร์การกำหนดค่าที่ Google จัดหาให้ด้วย พารามิเตอร์เหล่านี้อาจส่งผลต่อวิธีที่ปลั๊กอินนี้พุชข้อมูลไปยัง Google Cloud Search API ตัวอย่างเช่น ชุดพารามิเตอร์ batch.* จะระบุวิธีที่เครื่องมือเชื่อมต่อรวมคำขอ

หากคุณไม่ได้กำหนดพารามิเตอร์ในไฟล์การกำหนดค่า ระบบจะใช้ค่าเริ่มต้น (หากมี) สำหรับคำอธิบายโดยละเอียดของพารามิเตอร์แต่ละรายการ โปรดดูพารามิเตอร์เครื่องมือเชื่อมต่อที่ Google จัดหา

คุณกำหนดค่าปลั๊กอินตัวจัดทำดัชนีเพื่อเติมข้อมูลเมตาและข้อมูลที่มีโครงสร้างสำหรับเนื้อหาที่กำลังจัดทำดัชนีได้ ค่าที่จะป้อนสำหรับข้อมูลเมตาและช่องข้อมูลที่มีโครงสร้างจะดึงมาจากเมตาแท็กในเนื้อหา HTML ที่จัดทำดัชนีอยู่ หรือระบุค่าเริ่มต้นในไฟล์การกำหนดค่าได้

การตั้งค่า พารามิเตอร์
ชื่อ itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
โดยค่าเริ่มต้น ปลั๊กอินจะใช้ HTML title เป็นชื่อเอกสารที่กำลังจัดทำดัชนี ในกรณีที่ไม่มีชื่อ คุณอาจดูแอตทริบิวต์ข้อมูลเมตาที่มีค่าที่สอดคล้องกับชื่อเอกสารหรือตั้งค่าเริ่มต้น
การประทับเวลาที่สร้าง itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
แอตทริบิวต์ข้อมูลเมตาที่มีค่าสำหรับการประทับเวลาการสร้างเอกสาร
เวลาที่แก้ไขล่าสุด itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
แอตทริบิวต์ข้อมูลเมตาที่มีค่าสำหรับการประทับเวลาการแก้ไขครั้งล่าสุดสำหรับเอกสาร
ภาษาของเอกสาร itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
ภาษาของเนื้อหาสำหรับเอกสารที่กำลังจัดทำดัชนี
ประเภทออบเจ็กต์สคีมา itemMetadata.objectType=movie
ประเภทออบเจ็กต์ที่เว็บไซต์ใช้ตามที่ระบุไว้ใน คำจำกัดความออบเจ็กต์สคีมาแหล่งข้อมูล เครื่องมือเชื่อมต่อจะไม่จัดทำดัชนี Structured Data หากไม่ได้ระบุพร็อพเพอร์ตี้นี้

หมายเหตุ: พร็อพเพอร์ตี้การกำหนดค่านี้จะชี้ไปยังค่าแทนแอตทริบิวต์ข้อมูลเมตา และไม่รองรับคำต่อท้าย .field และ .defaultValue

รูปแบบวันที่และเวลา

รูปแบบวันที่และเวลาจะระบุรูปแบบที่ต้องการในแอตทริบิวต์ของข้อมูลเมตา หากไฟล์การกำหนดค่าไม่มีพารามิเตอร์นี้ ระบบจะใช้ค่าเริ่มต้น ตารางต่อไปนี้จะแสดงพารามิเตอร์นี้

การตั้งค่า

พารามิเตอร์

รูปแบบวันที่และเวลาเพิ่มเติม

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

รายการรูปแบบเพิ่มเติม java.time.format.DateTimeFormatter ที่คั่นด้วยเครื่องหมายอัฒภาค ระบบจะใช้รูปแบบเหล่านี้เมื่อแยกวิเคราะห์ค่าสตริงสำหรับช่องวันที่หรือวันที่และเวลาในข้อมูลเมตาหรือสคีมา ค่าเริ่มต้นจะเป็นรายการที่ว่างเปล่า แต่รองรับรูปแบบ RFC 3339 และ RFC 1123 เสมอ

ขั้นตอนที่ 3: กำหนดค่า Norconex HTTP Collector

ไฟล์ ZIP norconex-committer-google-cloud-search-{version}.zip จะมีตัวอย่างไฟล์การกำหนดค่า minimum-config.xml

Google ขอแนะนำให้คุณเริ่มการกำหนดค่าโดยการคัดลอกไฟล์ตัวอย่าง ดังนี้

  1. เปลี่ยนเป็นไดเรกทอรี Norconex HTTP Collector:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. คัดลอกไฟล์การกำหนดค่า:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. แก้ไขไฟล์ที่สร้างขึ้นใหม่ (ในตัวอย่างนี้คือ gcs-crawl-config.xml) และเพิ่มหรือแทนที่โหนด <committer> และ <tagger> ที่มีอยู่ตามที่อธิบายไว้ในตารางต่อไปนี้
การเกริ่นนำ พารามิเตอร์
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

ต้องระบุ หากต้องการเปิดใช้ปลั๊กอิน คุณต้องเพิ่มโหนด <committer> เป็นรายการย่อยของโหนดราก <httpcollector>
<UploadFormat> <uploadFormat>raw</uploadFormat>
ไม่บังคับ รูปแบบที่ปลั๊กอินตัวจัดทำดัชนีจะพุชเนื้อหาเอกสารไปยัง API เครื่องมือจัดทำดัชนีของ Google Cloud Search ค่าที่ใช้ได้มีดังนี้:
  • raw: ปลั๊กอินเครื่องมือจัดทำดัชนีจะพุชเนื้อหาเอกสารที่เป็นต้นฉบับและไม่ได้แปลง
  • text: ปลั๊กอินเครื่องมือจัดทำดัชนีจะพุชเนื้อหาที่เป็นข้อความที่ดึงมา

ค่าเริ่มต้นคือ raw
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
ต้องระบุหากค่าของ <UploadFormat> คือ raw ในกรณีนี้ ปลั๊กอินตัวจัดทำดัชนีต้องมีช่องเนื้อหาไบนารีของเอกสาร

คุณต้องเพิ่มโหนด BinaryContentTagger <tagger> เป็นองค์ประกอบย่อยของโหนด <importer> / <preParseHandlers>

ตัวอย่างต่อไปนี้แสดงการแก้ไขที่จำเป็นของ gcs-crawl-config.xml

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

ขั้นตอนที่ 4: กำหนดค่าการ Crawl เว็บ

ก่อนที่จะเริ่มการรวบรวมข้อมูลเว็บ คุณต้องกำหนดค่าการรวบรวมข้อมูลเพื่อให้มีเฉพาะข้อมูลที่องค์กรของคุณต้องการให้ปรากฏในผลการค้นหา การตั้งค่าที่สําคัญที่สุดสําหรับการ Crawl เว็บเป็นส่วนหนึ่งของ <crawler> โหนด และอาจรวมถึงสิ่งต่อไปนี้

  • URL เริ่มต้น
  • ความลึกสูงสุดของการรวบรวมข้อมูล
  • จำนวนชุดข้อความ

เปลี่ยนค่าของการกำหนดค่าเหล่านี้ตามความต้องการของคุณ สำหรับข้อมูลโดยละเอียดเพิ่มเติมเกี่ยวกับการตั้งค่าการรวบรวมข้อมูลเว็บและรายการพารามิเตอร์การกำหนดค่าที่ใช้ได้ทั้งหมด โปรดดูหน้าการกำหนดค่าของเครื่องมือรวบรวม HTTP

ขั้นตอนที่ 5: เริ่มการรวบรวมข้อมูลเว็บและอัปโหลดเนื้อหา

หลังจากติดตั้งและตั้งค่าปลั๊กอินเครื่องมือจัดทำดัชนีแล้ว คุณจะเรียกใช้ปลั๊กอินดังกล่าวในโหมดในเครื่องได้

ตัวอย่างต่อไปนี้ถือว่าคอมโพเนนต์ที่จำเป็นอยู่ในไดเรกทอรีภายในของระบบ Linux เรียกใช้คำสั่งต่อไปนี้

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

ตรวจสอบ Crawler ด้วย JEF Monitor

Norconex JEF (Job Execution Framework) Monitor เป็นเครื่องมือกราฟิกสำหรับตรวจสอบความคืบหน้าของกระบวนการและงานของ Norconex Web Crawler (HTTP Collector) ดูบทแนะนำทั้งหมดเกี่ยวกับวิธีตั้งค่ายูทิลิตีนี้ได้ที่ตรวจสอบความคืบหน้าของ Crawler ด้วย JEF Monitor