Menerapkan Plugin Pengindeks Norconex HTTP Collector

Panduan ini ditujukan untuk administrator plugin pengindeks Norconex HTTP Collector Google Cloud Search, yaitu siapa pun yang bertanggung jawab untuk mendownload, menerapkan, mengonfigurasi, dan mengelola plugin pengindeks. Panduan ini menganggap bahwa Anda memahami sistem operasi Linux, dasar-dasar crawling web, XML dan Norconex HTTP Collector.

Panduan ini mencakup petunjuk untuk melakukan tugas utama yang terkait dengan penerapan plugin pengindeks:

  • Mendownload software plugin pengindeks
  • Mengonfigurasikan Google Cloud Search
  • Mengonfigurasikan Norconex HTTP Collector dan crawl web
  • Memulai crawl web dan upload konten

Informasi tentang tugas yang harus dilakukan admin G Suite untuk memetakan Google Cloud search ke plugin pengindeks Norconex HTTP Collector tidak tersedia dalam panduan ini. Untuk informasi tentang tugas-tugas tersebut, lihat Mengelola sumber data pihak ketiga.

Ringkasan plugin pengindeks Norconex HTTP Collector Cloud Search

Secara default, Google Cloud Search dapat menemukan, mengindeks, dan menayangkan konten dari produk G Suite, seperti Google Dokumen dan Gmail. Anda dapat memperluas jangkauan Google Cloud Search untuk menyertakan penayangan konten web kepada pengguna Anda dengan menerapkan plugin pengindeks untuk Norconex HTTP Collector, crawler web perusahaan sumber terbuka.

File properti konfigurasi

Untuk mengaktifkan plugin pengindeks agar melakukan crawl web dan mengupload konten ke API pengindeksan, Anda, sebagai administrator plugin pengindeks, harus memberikan informasi spesifik selama menjalankan langkah-langkah konfigurasi yang dijelaskan dalam dokumen ini pada Langkah-langkah penerapan.

Untuk menggunakan plugin pengindeks, Anda harus mengatur properti di dua file konfigurasi:

  • {gcs-crawl-config.xml} - berisi setelan untuk Norconex HTTP Collector.
  • sdk-configuration.properties - berisi setelan untuk Google Cloud Search.

Dengan properti di setiap file, plugin pengindeksan Google Cloud Search dan Norconex HTTP Collector dapat saling berkomunikasi.

Crawl web dan upload konten

Setelah mengisi file konfigurasi, Anda memiliki setelan yang diperlukan untuk memulai crawl web. Norconex HTTP Collector melakukan crawl web, menemukan konten dokumen yang berkaitan dengan konfigurasinya dan mengupload versi biner asli konten dokumen (atau teks) ke API pengindeksan Cloud Search yang akan diindeks dan akhirnya ditayangkan kepada pengguna Anda.

Sistem operasi yang didukung

Plugin pengindeks Norconex HTTP Collector Google Cloud Search harus diinstal di Linux.

Versi Norconex HTTP Collector yang didukung

Plugin pengindeks Norconex HTTP Collector Google Cloud Search mendukung versi 2.8.0. Software plugin pengindeks dilengkapi dengan versi Norconex HTTP Collector ini.

Dukungan ACL

Plugin pengindeks mendukung akses pengontrol ke dokumen di domain G Suite dengan menggunakan Daftar Kontrol Akses (ACL).

Jika ACL default diaktifkan di konfigurasi plugin Google Cloud Search (defaultAcl.mode yang ditetapkan ke selain none dan dikonfigurasikan dengan defaultAcl.*), plugin pengindeks akan terlebih dahulu mencoba membuat dan menerapkan ACL default.

Jika ACL default tidak diaktifkan, plugin akan kembali untuk memberikan izin membaca ke seluruh domain G Suite.

Untuk mengetahui deskripsi mendetail tentang parameter konfigurasi ACL, lihat parameter konektor yang disediakan Google.

Prasyarat

Sebelum menerapkan plugin pengindeks, pastikan Anda memiliki komponen yang diperlukan berikut ini:

  • Java JRE 1.8 yang diinstal di komputer yang menjalankan plugin pengindeks
  • Informasi G Suite yang diperlukan untuk menghubungkan Cloud Search dan Norconex HTTP Collector:

    Biasanya, admin G Suite untuk domain dapat menyediakan kredensial ini untuk Anda.

Langkah-langkah penerapan

Untuk menerapkan plugin pengindeks, ikuti langkah-langkah ini:

  1. Instal Norconex HTTP Collector dan software plugin pengindeks
  2. Konfigurasikan Google Cloud Search
  3. Konfigurasikan Norconex HTTP Collector
  4. Konfigurasikan crawl web
  5. Mulai crawl web dan upload konten

Langkah 1: Instal Norconex HTTP Collector dan software plugin pengindeks

Instal SDK ke repositori Maven lokal Anda.

  1. Buat clone repositori SDK dari GitHub. git clone https://github.com/google-cloudsearch/connector-sdk.git dan kemudian cd connector-sdk
  2. Periksa versi SDK yang diinginkan: git checkout tags/v1-0.0.3
  3. Instal komponen SDK: mvn install

Buat konektor.

  1. Download software commiter Norconex dari halaman ini.
  2. Ekstrak software yang didownload ke folder ~/norconex/
  3. Lakukan clone plugin commiter dari GitHub. git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git, lalu cd norconex-committer-plugin
  4. Periksa versi plugin commiter yang diinginkan dan buat file ZIP: git checkout tags/v1-0.0.3 dan mvn package (Untuk melewati tes ketika membuat konektor, gunakan mvn package -DskipTests.)
  5. cd target
  6. Salin file jar plugin yang dibuat ke direktori norconex lib. cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. Ekstrak file ZIP yang baru saja Anda buat, lalu ekstrak file: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. Jalankan skrip instal untuk menyalin .jar plugin dan semua library yang diperlukan ke direktori http collector:
    1. Ubah ke plugin commiter yang diekstrak dan ekstrak di atas: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. Jalankan $ sh install.sh dan berikan lokasi lengkap ke norconex/norconex-collector-http-{version}/lib sebagai direktori target jika diminta.
    3. Jika terdapat file jar duplikat, pilih opsi (4) yaitu Salin Jar sumber, apa pun Jar target

Agar plugin pengindeks terhubung ke Norconex HTTP Collector dan mengindeks konten yang relevan, Anda harus membuat file konfigurasi Cloud Search di direktori Norconex tempat Norconex HTTP Collector diinstal. Google merekomendasikan agar memberi nama file konfigurasi Cloud Search sdk-configuration.properties.

File konfigurasi ini harus berisi key-value pair yang menentukan parameter. File konfigurasi harus menentukan setidaknya parameter berikut, yang diperlukan untuk mengakses sumber data Cloud Search.

Setelan Parameter
ID sumber data api.sourceId = 1234567890abcdef
Wajib ada. ID sumber Cloud Search disiapkan oleh admin G Suite.
Akun layanan api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Wajib ada. File kunci akun layanan Cloud Search yang dibuat oleh admin G Suite untuk aksesibilitas plugin pengindeks.

Contoh berikut menunjukkan file sdk-configuration.properties.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

File konfigurasi juga dapat berisi parameter konfigurasi yang disediakan Google. Parameter ini dapat memengaruhi cara plugin ini mendorong data ke dalam Google Cloud Search API. Misalnya, batch.* kumpulan parameter mengidentifikasi cara konektor menggabungkan permintaan.

Jika Anda tidak menentukan parameter dalam file konfigurasi, nilai default, jika tersedia, akan digunakan. Untuk deskripsi mendetail tentang setiap parameter, lihat parameter konektor yang disediakan Google.

Anda dapat mengonfigurasi plugin pengindeks untuk mengisi metadata dan data terstruktur untuk konten yang diindeks. Nilai yang akan diisi untuk metadata dan bidang data terstruktur dapat diekstrak dari tag meta dalam konten HTML yang diindeks atau nilai-nilai default dapat ditentukan dalam file konfigurasi.

Setelan Parameter
Nama itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
Secara default, plugin menggunakan HTML title sebagai judul dokumen yang diindeks. Jika judul tidak ada, Anda dapat merujuk atribut metadata yang berisi nilai yang sesuai dengan judul dokumen atau menetapkan nilai default.
Stempel waktu pembuatan itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
Atribut metadata yang berisi nilai untuk stempel waktu pembuatan dokumen.
Waktu terakhir diubah itemMetadata.updatetime.field=releaseDate
itemMetadata.updatetime.defaultValue=1940-01-17
Atribut metadata yang berisi nilai stempel waktu dokumen terakhir diubah.
Bahasa dokumen itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
Bahasa konten dokumen yang diindeks.
Jenis objek skema itemMetadata.objectType=movie
Jenis objek yang digunakan oleh situs, seperti yang ditetapkan dalam definisi objek skema sumber data. Konektor tidak akan mengindeks data terstruktur jika properti ini tidak ditentukan.

Catatan: Properti konfigurasi ini menunjuk ke nilai, bukan atribut metadata, dan akhiran .field dan .defaultValue tidak didukung.

Format tanggal dan waktu

Format tanggal dan waktu menentukan format yang diharapkan dalam atribut metadata. Jika file konfigurasi tidak berisi parameter ini, nilai default akan digunakan. Tabel berikut menunjukkan parameter tersebut.

Setelan

Parameter

Pola tanggal dan waktu tambahan

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

Daftar yang dipisahkan titik koma pada pola java.time.format.DateTimeFormatter tambahan. Pola digunakan saat mengurai nilai string untuk kolom tanggal atau waktu pada metadata atau skema. Nilai default adalah daftar kosong, tetapi format RFC 3339 dan RFC 1123 selalu didukung.

Langkah 3: Konfigurasi Norconex HTTP Collector

Arsip zip norconex-committer-google-cloud-search-{version}.zip menyertakan file konfigurasi sampel, minimum-config.xml.

Google merekomendasikan agar memulai konfigurasi dengan menyalin file sampel:

  1. Ubah ke direktori Norconex HTTP Collector:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. Salin file konfigurasi:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. Edit file yang baru dibuat (dalam contoh ini, gcs-crawl-config.xml) dan tambahkan atau ganti node <committer> dan <tagger> yang ada seperti dijelaskan dalam tabel berikut.
Setelan Parameter
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

Wajib ada. Untuk mengaktifkan plugin, Anda harus menambahkan node <committer> sebagai turunan node root <httpcollector>.
<UploadFormat> <uploadFormat>raw</uploadFormat>
Opsional. Format di mana plugin pengindeks mendorong konten dokumen ke API pengindeks Google Cloud Search. Nilai yang valid adalah:
  • raw: plugin pengindeks mendorong konten dokumen asli dan yang belum dikonversi.
  • text: plugin pengindeks yang mendorong konten tekstual yang diekstrak.

Nilai default adalah raw.
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
Diperlukan jika nilai <UploadFormat> raw. Dalam hal ini, plugin pengindeks membutuhkan tersedianya kolom konten biner dokumen.

Anda harus menambahkan node BinaryContentTagger <tagger> sebagai elemen turunan node <importer> / <preParseHandlers>.

Contoh berikut menunjukkan modifikasi yang diperlukan untuk gcs-crawl-config.xml.

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <!-- Optional, value="[raw|text]". Default value: raw -->
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Langkah 4: Konfigurasikan crawl web

Sebelum memulai crawl web, Anda harus mengonfigurasi crawl sehingga hanya mencakup informasi yang ingin disediakan organisasi Anda dalam hasil pencarian. Pengaturan paling penting untuk crawl web adalah bagian node <crawler> dan dapat mencakup:

  • URL awal
  • Kedalaman maksimum crawl
  • Jumlah thread

Ubah nilai konfigurasi ini sesuai dengan kebutuhan Anda. Untuk informasi yang lebih mendetail tentang pengaturan crawl web, serta daftar lengkap parameter konfigurasi yang tersedia, lihat halaman Konfigurasi HTTP Collector.

Langkah 5: Mulai crawl web dan upload konten

Setelah Anda menginstal dan mengatur plugin pengindeks, Anda dapat menjalankannya sendiri dalam mode lokal.

Contoh berikut mengasumsikan bahwa komponen yang diperlukan berada di direktori lokal pada sistem Linux. Jalankan perintah berikut:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Memantau crawler dengan JEF Monitor

Norconex JEF (Job Execution Framework) Monitor adalah alat grafis untuk memantau kemajuan proses dan pekerjaan Norconex Web Crawler (HTTP Collector). Untuk tutorial lengkap tentang cara mengatur utilitas ini, kunjungi Memantau kemajuan crawler Anda dengan JEF Monitor.