本指南適用於負責下載、部署及維護 Google Cloud Search Norconex HTTP Collector 索引外掛程式的管理員。您應熟悉 Linux、網頁檢索基礎知識、XML 和 Norconex HTTP Collector。
本指南包含下列操作說明:
- 下載索引外掛程式軟體。
- 設定 Cloud Search。
- 設定 Norconex HTTP Collector 和網頁檢索。
- 開始網頁檢索並上傳內容。
本指南不會說明 Google Workspace 管理員必須執行的工作。如要瞭解如何執行這些工作,請參閱「管理第三方資料來源」。
Norconex HTTP Collector 索引外掛程式總覽
根據預設,Cloud Search 可以探索、建立索引及提供 Google Workspace 產品 (例如 Google 文件和 Gmail) 的內容。您可以部署 Norconex HTTP Collector 的索引外掛程式,將這項功能擴展至網路內容。Norconex HTTP Collector 是開放原始碼的企業級網頁檢索器。
設定屬性檔案
如要啟用外掛程式來檢索及上傳內容,您必須在兩個設定檔中提供特定資訊:
{gcs-crawl-config.xml}:Norconex HTTP Collector 的設定。sdk-configuration.properties:Cloud Search 設定。
網頁檢索和內容上傳
填入設定檔後,即可開始進行網站檢索。Norconex HTTP Collector 會檢索網路,並將原始二進位或文字文件內容上傳至 Cloud Search 索引 API。
系統需求
- 作業系統:僅限 Linux。
- Norconex 版本:2.8.0 版。
- 軟體:Java JRE 1.8。
ACL 支援
索引外掛程式支援存取控制清單 (ACL),可控管 Google Workspace 網域中文件的存取權。
如果在外掛程式設定中啟用預設 ACL (defaultAcl.mode 設為 none 以外的值),外掛程式會套用這些預設值。否則外掛程式會將整個網域的讀取權限授予使用者。請參閱「Google 提供的連結器參數」。
必要條件
部署索引外掛程式前,請先收集下列元件:
- Google Workspace 私密金鑰 (內含服務帳戶 ID)。請參閱「設定 Cloud Search API 的存取權」。
- Google Workspace 資料來源 ID。請參閱「管理第三方資料來源」。
部署步驟
步驟 1:安裝 Norconex HTTP Collector 和外掛程式軟體
- 從 Norconex 下載頁面下載 Norconex 提交者軟體。
- 將軟體解壓縮至
~/norconex/。 複製提交者外掛程式:
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git cd norconex-committer-plugin查看所選版本並建構外掛程式:
git checkout tags/v1-0.0.3 mvn package如要略過測試,請使用
mvn package -DskipTests。將 JAR 檔案複製到 Norconex
lib目錄:cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib解壓縮建構的 ZIP 檔案:
unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3執行安裝指令碼,並提供 Norconex
lib目錄的完整路徑:sh install.sh如果系統提示有重複的檔案,請選取選項
1。
步驟 2:設定 Cloud Search
在 Norconex 目錄中建立 sdk-configuration.properties。檔案必須指定下列參數:
| 設定 | 參數 |
| 資料來源 ID | api.sourceId = 1234567890abcdef
這是必要欄位。Google Workspace 管理員提供的來源 ID。 |
| 服務帳戶 | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
這是必要欄位。服務帳戶金鑰檔案。 |
sdk-configuration.properties 範例:
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
您也可以加入 batch.* 等參數,控制外掛程式推送資料的方式。請參閱「Google 提供的連結器參數」。
如要填入中繼資料,請設定下列選用參數:
| 設定 | 參數 |
| 標題 | itemMetadata.title.field=movieTitle |
| 結構定義物件類型 | itemMetadata.objectType=movie |
步驟 3:設定 Norconex HTTP Collector
外掛程式包含範例檔案 minimum-config.xml。
變更為 Norconex 目錄並複製範例:
cd ~/norconex/norconex-collector-http-VERSION/ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml編輯
gcs-crawl-config.xml,新增或取代<committer>和<tagger>節點:
| 設定 | 參數 |
<committer> 個節點 |
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
這是必要欄位。在 <httpcollector> 節點下方新增這項內容。 |
<uploadFormat> |
<uploadFormat>raw</uploadFormat>
選用。 raw 或 text。預設值為 raw。 |
gcs-crawl-config.xml 範例:
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
步驟 4:設定網頁檢索
根據需求設定 <crawler> 節點,包括:
- 起始網址
- 最大檢索深度
- 執行緒數量
請參閱 Norconex 設定頁面。
步驟 5:開始網頁檢索和內容上傳
以本機模式執行收集器:
./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
使用 JEF Monitor 監控檢索器
Norconex JEF (工作執行架構) 監控器會以圖形顯示進度。請參閱「使用 JEF Monitor 監控檢索器」。