このページは Cloud Translation API によって翻訳されました。

Norconex HTTP Collector インデクサプラグインをデプロイする

このガイドは、Google Cloud Search Norconex HTTP Collector インデクサプラグインの管理者、つまり、インデクサプラグインのダウンロード、デプロイ、構成、保守を担当するユーザーを対象としています。また、読者が Linux オペレーティングシステムに精通し、ウェブクロール、XML、Norconex HTTP Collector の基礎知識があることを前提としています。

このガイドでは、インデクサプラグインのデプロイに関連する主要なタスクの実施手順について説明します。

インデクサプラグインソフトウェアをダウンロードする
Google Cloud Search を構成する
Norconex HTTP Collector とウェブクロールを構成する
ウェブクロールを開始してコンテンツをアップロードする

Google Workspace 管理者が Google Cloud Search を Norconex HTTP Collector インデクサプラグインにマッピングするために行う必要があるタスクについては、このガイドでは説明しません。これらのタスクについては、サードパーティのデータソースを管理するをご覧ください。

Cloud Search Norconex HTTP Collector インデクサプラグインの概要

デフォルトでは、Cloud Search は Google ドキュメントや Gmail などの Google Workspace プロダクトからコンテンツを検出し、インデックスに登録して提供できます。オープンソースのエンタープライズウェブクローラである Norconex HTTP Collector のインデクサプラグインをデプロイすると、Google Cloud Search の範囲を拡張して、ユーザーにウェブコンテンツを提供することもできます。

構成プロパティファイル

インデクサプラグインがウェブクロールを行って、インデックス API にコンテンツをアップロードできるようにするために、インデクサプラグイン管理者は、このドキュメントのデプロイ手順に記載されている構成手順の中で具体的な情報を指定します。

インデクサプラグインを使用するには、次の 2 つの構成ファイルでプロパティを設定する必要があります。

{gcs-crawl-config.xml}-- Norconex HTTP Collector の設定が含まれます。
sdk-configuration.properties-- Google Cloud Search の設定が含まれています。

各ファイルのプロパティにより、Google Cloud Search インデクサプラグインと Norconex HTTP Collector が相互に通信できるようになります。

ウェブクロールとコンテンツのアップロード

構成ファイルを設定すると、ウェブクロールを開始するために必要な設定がそろいます。Norconex HTTP Collector によってウェブがクロールされ、その構成に関連するドキュメントコンテンツが検出されます。また、元のバイナリ（またはテキスト）バージョンのドキュメントコンテンツが Cloud Search インデックス API にアップロードされ、インデックスに登録されて、最終的にユーザーに提供されます。

サポートされているオペレーティングシステム

Google Cloud Search Norconex HTTP Collector インデクサプラグインは、Linux にインストールする必要があります。

サポートされている Norconex HTTP Collector のバージョン

Google Cloud Search Norconex HTTP Collector インデクサプラグインは、バージョン 2.8.0 をサポートしています。

ACL のサポート

インデクサプラグインは、アクセス制御リスト（ACL）を使用した Google Workspace ドメイン内のドキュメントへのアクセスの制御をサポートしています。

Google Cloud Search プラグインの構成でデフォルトの ACL が有効になっている場合（defaultAcl.mode が none 以外に設定され、defaultAcl.* で構成されている場合）、インデクサプラグインはまず、デフォルトの ACL を作成して適用しようとします。

デフォルトの ACL が有効になっていない場合、プラグインはフォールバックして、Google Workspace ドメイン全体に読み取り権限を付与します。

ACL 構成パラメータの詳細な説明については、Google 提供のコネクタパラメータをご覧ください。

前提条件

インデクサプラグインをデプロイする前に、次の要件を満たしていることを確認してください。

インデクサプラグインを実行するコンピュータに Java JRE 1.8 がインストールされている
Cloud Search と Norconex HTTP Collector の関係を確立するために必要な Google Workspace の情報:
- Google Workspace の秘密鍵（サービスアカウント ID を含む）
- Google Workspace データソース ID
通常、これらの認証情報はドメインの Google Workspace 管理者から提供されます。

デプロイ手順

インデクサプラグインをデプロイする手順は、次のとおりです。

Norconex HTTP Collector とインデクサプラグインソフトウェアをインストールする
Google Cloud Search を構成する
Norconex HTTP Collector を構成する
ウェブクロールを設定する
ウェブクロールとコンテンツのアップロードを開始する

ステップ 1: Norconex HTTP Collector とインデクサプラグインソフトウェアをインストールする

こちらのページから Norconex コミッターソフトウェアをダウンロードします。
ダウンロードしたソフトウェアを ~/norconex/ フォルダに解凍します。
GitHub からコミッタープラグインのクローンを作成します。git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git、さらに cd norconex-committer-plugin
目的のコミッタープラグインのバージョンを確認し、ZIP ファイル（git checkout tags/v1-0.0.3 と mvn package）をビルドします（コネクタのビルド時にテストをスキップするには、mvn package -DskipTests を使用します）。
cd target
ビルドされたプラグイン jar ファイルを Norconex lib ディレクトリにコピーします。 cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
ビルドした ZIP ファイルを解凍して、ファイルを展開します。unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
インストールスクリプトを実行して、プラグインの .jar とすべての必要なライブラリを http コレクタのディレクトリにコピーします。
1. 上で解凍した抽出済みコミッタープラグインに変更します。cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
2. $ sh install.sh を実行します。プロンプトが表示されたら、ターゲットディレクトリとして norconex/norconex-collector-http-{version}/lib へのフルパスを指定します。
3. 重複する jar ファイルが見つかった場合は、オプション 1 を選択します（ターゲット Jar の名前を変更した後に、ターゲット Jar と同じかそれ以上のバージョンがある場合にのみソース Jar をコピーしてください）。

ステップ 2: Google Cloud Search を構成する

インデクサコネクタが Norconex HTTP Collector に接続し、関連コンテンツをインデックスに登録できるようにするには、Norconex HTTP Collector がインストールされている Norconex ディレクトリに Cloud Search 構成ファイルを作成する必要があります。Cloud Search 構成ファイルには sdk-configuration.properties という名前を付けることをおすすめします。

この構成ファイルには、パラメータを定義する Key-Value ペアが含まれている必要があります。構成ファイルでは、Cloud Search データソースにアクセスするために必要な次のパラメータを少なくとも指定する必要があります。

設定	パラメータ
データソースの ID	`api.sourceId = 1234567890abcdef` 必須。Google Workspace 管理者がセットアップした Cloud Search ソース ID。
サービスアカウント	`api.serviceAccountPrivateKeyFile = ./PrivateKey.json` 必須。インデクサプラグインにアクセスできるように Google Workspace 管理者が作成した Cloud Search サービスアカウントキーファイル。

次の例は、sdk-configuration.properties ファイルを示しています。

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

構成ファイルには、Google 提供の構成パラメータを含めることもできます。これらのパラメータは、このプラグインが Google Cloud Search API にデータを push する方法に影響を与える可能性があります。たとえば、パラメータの batch.* セットは、コネクタがリクエストを結合する方法を指定します。

構成ファイルでパラメータを定義しない場合は、デフォルト値（使用可能な場合）が使用されます。各パラメータの詳細については、Google 提供のコネクタパラメータをご覧ください。

インデクサプラグインは、インデックス登録するコンテンツのメタデータや構造化データが入力されるように構成できます。メタデータや構造化データの項目に入力される値は、インデックス登録する HTML コンテンツのメタタグから抽出することも、構成ファイルでデフォルト値を指定することもできます。

設定	パラメータ
タイトル	`itemMetadata.title.field=movieTitle` `itemMetadata.title.defaultValue=Gone with the Wind` デフォルトでは、プラグインはインデックス登録するドキュメントのタイトルとして `HTML title` を使用します。タイトルがない場合は、ドキュメントタイトルに対応する値を含むメタデータ属性を参照するか、デフォルト値を設定できます。
作成タイムスタンプ	`itemMetadata.createTime.field=releaseDate` `itemMetadata.createTime.defaultValue=1940-01-17` ドキュメント作成タイムスタンプの値を含むメタデータ属性。
最終更新時刻	`itemMetadata.updateTime.field=releaseDate` `itemMetadata.updateTime.defaultValue=1940-01-17` ドキュメントの最終変更タイムスタンプの値を含むメタデータ属性。
ドキュメント言語	`itemMetadata.contentLanguage.field=languageCode` `itemMetadata.contentLanguage.defaultValue=en-US` インデックス登録されるドキュメントのコンテンツ言語。
スキーマオブジェクトタイプ	`itemMetadata.objectType=movie` サイトで使用されるオブジェクトタイプ（データソーススキーマオブジェクト定義で定義されている）。このプロパティを指定しなかった場合、コネクタは構造化データをインデックスに登録しません。注: この構成プロパティは、メタデータ属性ではなく値を指します。`.field` と `.defaultValue` の接尾辞はサポートされません。

日時書式

日時形式は、メタデータ属性で想定される形式を指定します。構成ファイルにこのパラメータが含まれていない場合は、デフォルト値が使用されます。次の表に、このパラメータを示します。

設定

パラメータ

追加の日時パターン

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

追加の java.time.format.DateTimeFormatter パターンのセミコロン区切りのリスト。これらのパターンは、メタデータまたはスキーマ内の日付や日時の項目の文字列値を解析するときに使用されます。デフォルト値は空のリストですが、RFC 3339 と RFC 1123 の書式は常にサポートされています。

ステップ 3: Norconex HTTP Collector を構成する

zip アーカイブ norconex-committer-google-cloud-search-{version}.zip には、サンプル構成ファイル minimum-config.xml が含まれています。

サンプルファイルをコピーして構成を開始することをおすすめします。

Norconex HTTP Collector ディレクトリに移動します。
$ cd ~/norconex/norconex-collector-http-{version}/
構成ファイルをコピーします。
$ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
新しく作成したファイル（この例では gcs-crawl-config.xml）を編集し、次の表の説明に従って既存の <committer> ノードと <tagger> ノードを追加または置き換えます。

設定	パラメータ
`<committer> node`	`<committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">` 必須。プラグインを有効にするには、ルート `<httpcollector>` ノードの子として `<committer>` ノードを追加する必要があります。
`<UploadFormat>`	`<uploadFormat>raw</uploadFormat>` 省略可。インデクサプラグインがドキュメントコンテンツを Google Cloud Search インデクサ API に push する形式。有効な値は次のとおりです。 `raw`: インデクサプラグインは、変換されていない元のドキュメントコンテンツを push します。 `text`: インデクサプラグインは、抽出されたテキストコンテンツを push します。デフォルト値は `raw` です。
`BinaryContent Tagger <tagger> node`	`<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>` `<UploadFormat>` の値が `raw` の場合は必須です。この場合、インデクサプラグインでは、ドキュメントのバイナリコンテンツフィールドが使用可能である必要があります。 `BinaryContentTagger <tagger>` ノードを `<importer> / <preParseHandlers>` ノードの子要素として追加する必要があります。

次の例は、gcs-crawl-config.xml に必要な変更を示しています。

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

ステップ 4: ウェブクロールを構成する

ウェブクロールを開始する前に、組織が検索結果で使用できるようにする情報のみが含まれるようにクロールを構成する必要があります。ウェブクロールの最も重要な設定は <crawler> ノードの一部であり、以下を含めることができます。

開始 URL
クロールの最大深度
スレッド数

必要に応じて、これらの構成値を変更します。ウェブクロールの設定および使用可能なすべての構成パラメータについて詳しくは、HTTP Collector の Configuration ページをご覧ください。

ステップ 5: ウェブクロールとコンテンツのアップロードを開始する

インデクサプラグインをインストールして設定したら、ローカルモードで独自に実行できます。

次の例は、必要なコンポーネントが Linux システムのローカルディレクトリにあることを前提としています。次のコマンドを実行します。

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

JEF Monitor でクローラをモニタリングする

Norconex JEF（Job Execution Framework）Monitor は、Norconex Web Crawler（HTTP Collector）プロセスおよびジョブの進行状況をモニタリングするためのグラフィカルなツールです。このユーティリティの設定方法に関する詳しいチュートリアルについては、Monitor Your Crawler's Progress with JEF Monitor をご覧ください。

Norconex HTTP Collector インデクサ プラグインをデプロイする

Cloud Search Norconex HTTP Collector インデクサ プラグインの概要

構成プロパティ ファイル