Panduan ini ditujukan bagi administrator yang bertanggung jawab untuk mendownload, men-deploy, dan mengelola plugin pengindeks Norconex HTTP Collector Google Cloud Search. Anda harus memahami Linux, dasar-dasar crawling web, XML, dan Norconex HTTP Collector.
Panduan ini mencakup petunjuk untuk:
- Download software plugin pengindeks.
- Konfigurasi Cloud Search.
- Konfigurasi Norconex HTTP Collector dan crawl web.
- Mulai crawl web dan upload konten.
Informasi tentang tugas yang harus dilakukan administrator Google Workspace tidak ada dalam panduan ini. Untuk informasi tentang tugas-tugas tersebut, lihat Mengelola sumber data pihak ketiga.
Ringkasan plugin pengindeks Norconex HTTP Collector
Secara default, Cloud Search dapat menemukan, mengindeks, dan menayangkan konten dari produk Google Workspace, seperti Google Dokumen dan Gmail. Anda dapat memperluasnya untuk menyertakan konten web dengan men-deploy plugin pengindeks untuk Norconex HTTP Collector, crawler web perusahaan sumber terbuka.
File properti konfigurasi
Agar plugin dapat meng-crawl dan mengupload konten, Anda harus memberikan informasi spesifik dalam dua file konfigurasi:
{gcs-crawl-config.xml}: setelan untuk Norconex HTTP Collector.sdk-configuration.properties: setelan untuk Cloud Search.
Crawl web dan upload konten
Setelah mengisi file konfigurasi, Anda dapat memulai crawl web. Norconex HTTP Collector melakukan crawl web dan mengupload konten dokumen biner atau teks asli ke API pengindeksan Cloud Search.
Persyaratan sistem
- Sistem operasi: Khusus Linux.
- Versi Norconex: Versi 2.8.0.
- Software: Java JRE 1.8.
Dukungan ACL
Plugin pengindeks mendukung Daftar Kontrol Akses (ACL) untuk mengontrol akses ke dokumen di domain Google Workspace.
Jika Anda mengaktifkan ACL default di konfigurasi plugin (defaultAcl.mode ditetapkan ke selain none), plugin akan menerapkan default ini. Jika tidak, plugin akan memberikan izin baca ke seluruh domain. Lihat
Parameter konektor yang disediakan Google.
Prasyarat
Sebelum Anda menerapkan plugin pengindeks, kumpulkan komponen berikut:
- Kunci pribadi Google Workspace (yang berisi ID akun layanan). Lihat Mengonfigurasi akses ke Cloud Search API.
- ID sumber data Google Workspace. Lihat Mengelola sumber data pihak ketiga.
Langkah-langkah penerapan
- Instal Norconex HTTP Collector dan software plugin
- Mengonfigurasi Cloud Search
- Mengonfigurasi Norconex HTTP Collector
- Mengonfigurasi crawl web
- Mulai crawl web dan upload konten
Langkah 1: Instal Norconex HTTP Collector dan software plugin
- Download software committer Norconex dari halaman download Norconex.
- Ekstrak software ke
~/norconex/. Clone plugin committer:
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git cd norconex-committer-pluginLihat versi yang Anda pilih dan buat plugin:
git checkout tags/v1-0.0.3 mvn packageUntuk melewati pengujian, gunakan
mvn package -DskipTests.Salin file JAR ke direktori
libNorconex:cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/libEkstrak file ZIP yang dibuat:
unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3Jalankan skrip penginstalan dan berikan lokasi lengkap ke direktori
libNorconex:sh install.shJika diminta untuk memilih file duplikat, pilih opsi
1.
Langkah 2: Konfigurasi Cloud Search
Buat sdk-configuration.properties di direktori Norconex. File harus
menentukan parameter berikut:
| Setelan | Parameter |
| ID sumber data | api.sourceId = 1234567890abcdef
Wajib diisi. ID sumber dari administrator Google Workspace Anda. |
| Akun layanan | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Wajib diisi. File kunci akun layanan. |
Contoh sdk-configuration.properties:
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
Anda juga dapat menyertakan parameter seperti batch.* untuk mengontrol cara plugin mengirimkan data. Lihat
Parameter konektor yang disediakan Google.
Untuk mengisi metadata, konfigurasikan parameter opsional berikut:
| Setelan | Parameter |
| Judul | itemMetadata.title.field=movieTitle |
| Jenis objek skema | itemMetadata.objectType=movie |
Langkah 3: Konfigurasi Norconex HTTP Collector
Plugin ini menyertakan file contoh, minimum-config.xml.
Ubah ke direktori Norconex dan salin contoh:
cd ~/norconex/norconex-collector-http-VERSION/ cp examples/minimum/minimum-config.xml gcs-crawl-config.xmlEdit
gcs-crawl-config.xmluntuk menambahkan atau mengganti node<committer>dan<tagger>:
| Setelan | Parameter |
<committer> node |
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
Wajib diisi. Tambahkan ini di bawah node <httpcollector>. |
<uploadFormat> |
<uploadFormat>raw</uploadFormat>
Opsional. raw atau text. Default-nya adalah
raw. |
Contoh gcs-crawl-config.xml:
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
Langkah 4: Konfigurasikan crawl web
Konfigurasi node <crawler> sesuai kebutuhan Anda, termasuk:
- URL awal
- Kedalaman crawl maksimum
- Jumlah thread
Lihat halaman konfigurasi Norconex.
Langkah 5: Mulai crawl web dan upload konten
Jalankan pengumpul dalam mode lokal:
./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
Memantau crawler dengan JEF Monitor
Norconex JEF (Job Execution Framework) Monitor memberikan tampilan grafis tentang progres. Lihat Memantau crawler Anda dengan JEF Monitor.