部署 Norconex HTTP 收集器索引工具外掛程式

本指南適用於負責下載、部署及維護 Google Cloud Search Norconex HTTP Collector 索引外掛程式的管理員。您應熟悉 Linux、網頁檢索基礎知識、XML 和 Norconex HTTP Collector

本指南包含下列操作說明:

  • 下載索引外掛程式軟體。
  • 設定 Cloud Search。
  • 設定 Norconex HTTP Collector 和網頁檢索。
  • 開始網頁檢索並上傳內容。

本指南不會說明 Google Workspace 管理員必須執行的工作。如要瞭解如何執行這些工作,請參閱「管理第三方資料來源」。

Norconex HTTP Collector 索引外掛程式總覽

根據預設,Cloud Search 可以探索、建立索引及提供 Google Workspace 產品 (例如 Google 文件和 Gmail) 的內容。您可以部署 Norconex HTTP Collector 的索引外掛程式,將這項功能擴展至網路內容。Norconex HTTP Collector 是開放原始碼的企業級網頁檢索器。

設定屬性檔案

如要啟用外掛程式來檢索及上傳內容,您必須在兩個設定檔中提供特定資訊:

  • {gcs-crawl-config.xml}:Norconex HTTP Collector 的設定。
  • sdk-configuration.properties:Cloud Search 設定。

網頁檢索和內容上傳

填入設定檔後,即可開始進行網站檢索。Norconex HTTP Collector 會檢索網路,並將原始二進位或文字文件內容上傳至 Cloud Search 索引 API。

系統需求

  • 作業系統:僅限 Linux。
  • Norconex 版本:2.8.0 版。
  • 軟體:Java JRE 1.8。

ACL 支援

索引外掛程式支援存取控制清單 (ACL),可控管 Google Workspace 網域中文件的存取權。

如果在外掛程式設定中啟用預設 ACL (defaultAcl.mode 設為 none 以外的值),外掛程式會套用這些預設值。否則外掛程式會將整個網域的讀取權限授予使用者。請參閱「Google 提供的連結器參數」。

必要條件

部署索引外掛程式前,請先收集下列元件:

部署步驟

  1. 安裝 Norconex HTTP Collector 和外掛程式軟體
  2. 設定 Cloud Search
  3. 設定 Norconex HTTP Collector
  4. 設定網頁檢索
  5. 開始網頁檢索並上傳內容

步驟 1:安裝 Norconex HTTP Collector 和外掛程式軟體

  1. 從 Norconex 下載頁面下載 Norconex 提交者軟體。
  2. 將軟體解壓縮至 ~/norconex/
  3. 複製提交者外掛程式:

    git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
    cd norconex-committer-plugin
    
  4. 查看所選版本並建構外掛程式:

    git checkout tags/v1-0.0.3
    mvn package
    

    如要略過測試,請使用 mvn package -DskipTests

  5. 將 JAR 檔案複製到 Norconex lib 目錄:

    cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib
    
  6. 解壓縮建構的 ZIP 檔案:

    unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
    cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    
  7. 執行安裝指令碼,並提供 Norconex lib 目錄的完整路徑

    sh install.sh
    

    如果系統提示有重複的檔案,請選取選項 1

步驟 2:設定 Cloud Search

在 Norconex 目錄中建立 sdk-configuration.properties。檔案必須指定下列參數:

設定 參數
資料來源 ID api.sourceId = 1234567890abcdef
這是必要欄位。Google Workspace 管理員提供的來源 ID。
服務帳戶 api.serviceAccountPrivateKeyFile = ./PrivateKey.json
這是必要欄位。服務帳戶金鑰檔案。

sdk-configuration.properties 範例:

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

您也可以加入 batch.* 等參數,控制外掛程式推送資料的方式。請參閱「Google 提供的連結器參數」。

如要填入中繼資料,請設定下列選用參數:

設定 參數
標題 itemMetadata.title.field=movieTitle
結構定義物件類型 itemMetadata.objectType=movie

步驟 3:設定 Norconex HTTP Collector

外掛程式包含範例檔案 minimum-config.xml

  1. 變更為 Norconex 目錄並複製範例:

    cd ~/norconex/norconex-collector-http-VERSION/
    cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
    
  2. 編輯 gcs-crawl-config.xml,新增或取代 <committer><tagger> 節點:

設定 參數
<committer> 個節點 <committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
這是必要欄位。在 <httpcollector> 節點下方新增這項內容。
<uploadFormat> <uploadFormat>raw</uploadFormat>
選用。rawtext。預設值為 raw

gcs-crawl-config.xml 範例:

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

步驟 4:設定網頁檢索

根據需求設定 <crawler> 節點,包括:

  • 起始網址
  • 最大檢索深度
  • 執行緒數量

請參閱 Norconex 設定頁面

步驟 5:開始網頁檢索和內容上傳

以本機模式執行收集器:

./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

使用 JEF Monitor 監控檢索器

Norconex JEF (工作執行架構) 監控器會以圖形顯示進度。請參閱「使用 JEF Monitor 監控檢索器」。