Menerapkan Plugin Pengindeks Norconex HTTP Collector

Panduan ini ditujukan bagi administrator yang bertanggung jawab untuk mendownload, men-deploy, dan mengelola plugin pengindeks Norconex HTTP Collector Google Cloud Search. Anda harus memahami Linux, dasar-dasar crawling web, XML, dan Norconex HTTP Collector.

Panduan ini mencakup petunjuk untuk:

  • Download software plugin pengindeks.
  • Konfigurasi Cloud Search.
  • Konfigurasi Norconex HTTP Collector dan crawl web.
  • Mulai crawl web dan upload konten.

Informasi tentang tugas yang harus dilakukan administrator Google Workspace tidak ada dalam panduan ini. Untuk informasi tentang tugas-tugas tersebut, lihat Mengelola sumber data pihak ketiga.

Ringkasan plugin pengindeks Norconex HTTP Collector

Secara default, Cloud Search dapat menemukan, mengindeks, dan menayangkan konten dari produk Google Workspace, seperti Google Dokumen dan Gmail. Anda dapat memperluasnya untuk menyertakan konten web dengan men-deploy plugin pengindeks untuk Norconex HTTP Collector, crawler web perusahaan sumber terbuka.

File properti konfigurasi

Agar plugin dapat meng-crawl dan mengupload konten, Anda harus memberikan informasi spesifik dalam dua file konfigurasi:

  • {gcs-crawl-config.xml}: setelan untuk Norconex HTTP Collector.
  • sdk-configuration.properties: setelan untuk Cloud Search.

Crawl web dan upload konten

Setelah mengisi file konfigurasi, Anda dapat memulai crawl web. Norconex HTTP Collector melakukan crawl web dan mengupload konten dokumen biner atau teks asli ke API pengindeksan Cloud Search.

Persyaratan sistem

  • Sistem operasi: Khusus Linux.
  • Versi Norconex: Versi 2.8.0.
  • Software: Java JRE 1.8.

Dukungan ACL

Plugin pengindeks mendukung Daftar Kontrol Akses (ACL) untuk mengontrol akses ke dokumen di domain Google Workspace.

Jika Anda mengaktifkan ACL default di konfigurasi plugin (defaultAcl.mode ditetapkan ke selain none), plugin akan menerapkan default ini. Jika tidak, plugin akan memberikan izin baca ke seluruh domain. Lihat Parameter konektor yang disediakan Google.

Prasyarat

Sebelum Anda menerapkan plugin pengindeks, kumpulkan komponen berikut:

Langkah-langkah penerapan

  1. Instal Norconex HTTP Collector dan software plugin
  2. Mengonfigurasi Cloud Search
  3. Mengonfigurasi Norconex HTTP Collector
  4. Mengonfigurasi crawl web
  5. Mulai crawl web dan upload konten

Langkah 1: Instal Norconex HTTP Collector dan software plugin

  1. Download software committer Norconex dari halaman download Norconex.
  2. Ekstrak software ke ~/norconex/.
  3. Clone plugin committer:

    git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
    cd norconex-committer-plugin
    
  4. Lihat versi yang Anda pilih dan buat plugin:

    git checkout tags/v1-0.0.3
    mvn package
    

    Untuk melewati pengujian, gunakan mvn package -DskipTests.

  5. Salin file JAR ke direktori lib Norconex:

    cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib
    
  6. Ekstrak file ZIP yang dibuat:

    unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
    cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    
  7. Jalankan skrip penginstalan dan berikan lokasi lengkap ke direktori lib Norconex:

    sh install.sh
    

    Jika diminta untuk memilih file duplikat, pilih opsi 1.

Langkah 2: Konfigurasi Cloud Search

Buat sdk-configuration.properties di direktori Norconex. File harus menentukan parameter berikut:

Setelan Parameter
ID sumber data api.sourceId = 1234567890abcdef
Wajib diisi. ID sumber dari administrator Google Workspace Anda.
Akun layanan api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Wajib diisi. File kunci akun layanan.

Contoh sdk-configuration.properties:

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

Anda juga dapat menyertakan parameter seperti batch.* untuk mengontrol cara plugin mengirimkan data. Lihat Parameter konektor yang disediakan Google.

Untuk mengisi metadata, konfigurasikan parameter opsional berikut:

Setelan Parameter
Judul itemMetadata.title.field=movieTitle
Jenis objek skema itemMetadata.objectType=movie

Langkah 3: Konfigurasi Norconex HTTP Collector

Plugin ini menyertakan file contoh, minimum-config.xml.

  1. Ubah ke direktori Norconex dan salin contoh:

    cd ~/norconex/norconex-collector-http-VERSION/
    cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
    
  2. Edit gcs-crawl-config.xml untuk menambahkan atau mengganti node <committer> dan <tagger>:

Setelan Parameter
<committer> node <committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
Wajib diisi. Tambahkan ini di bawah node <httpcollector>.
<uploadFormat> <uploadFormat>raw</uploadFormat>
Opsional. raw atau text. Default-nya adalah raw.

Contoh gcs-crawl-config.xml:

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Langkah 4: Konfigurasikan crawl web

Konfigurasi node <crawler> sesuai kebutuhan Anda, termasuk:

  • URL awal
  • Kedalaman crawl maksimum
  • Jumlah thread

Lihat halaman konfigurasi Norconex.

Langkah 5: Mulai crawl web dan upload konten

Jalankan pengumpul dalam mode lokal:

./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Memantau crawler dengan JEF Monitor

Norconex JEF (Job Execution Framework) Monitor memberikan tampilan grafis tentang progres. Lihat Memantau crawler Anda dengan JEF Monitor.