Apache Nutch インデクサ プラグインのデプロイ

オープンソースのウェブクローラである Apache Nutch 用の Google Cloud Search インデクサ プラグインをデプロイすると、ユーザーにウェブ コンテンツを提供するように Google Cloud Search を設定できます。

ウェブクロールを開始すると、Apache Nutch はウェブをクロールし、インデクサ プラグインを使用して、ドキュメント コンテンツの元のバイナリ(またはテキスト)バージョンを Google Cloud Search Indexing API にアップロードします。Indexing API はコンテンツをインデックスに登録し、ユーザーに結果を提供します。

重要な考慮事項

システム要件

システム要件
オペレーティング システム Linux のみ:
  • Ubuntu
  • Red Hat Enterprise Linux 5.0
  • SUSE Enterprise Linux 10(64 ビット)
ソフトウェア
  • Apache Nutch バージョン 1.15。インデクサ プラグイン ソフトウェアには、このバージョンの Nutch が含まれています。
  • インデクサ プラグインを実行するコンピュータに Java JRE 1.8 がインストールされていること
Apache Tika ドキュメント タイプ Apache Tika 1.18 でサポートされているドキュメント形式

インデクサ プラグインをデプロイする

以下では、インデクサ プラグインをインストールし、指定された URL をクロールして結果を Cloud Search に返すようにコンポーネントを構成する方法について説明します。

前提条件

Cloud Search の Apache Nutch インデクサ プラグインをデプロイする前に、Google Cloud Search とデータソースを接続するために必要な情報を収集します。

ステップ 1: プラグイン ソフトウェアと Apache Nutch をビルドしてインストールする

  1. GitHub からインデクサ プラグイン リポジトリのクローンを作成します。

    $ git clone https://github.com/google-cloudsearch/apache-nutch-indexer-plugin.git
    $ cd apache-nutch-indexer-plugin
  2. 目的のインデクサ プラグインのバージョンを確認します。

    $ git checkout tags/v1-0.0.5
  3. インデクサ プラグインをビルドします。

    $ mvn package

    インデクサ プラグインの作成時にテストをスキップするには、mvn package -DskipTests を使用します。

  4. Apache Nutch 1.15ダウンロード し、Apache Nutch のインストール手順に従います。

  5. target/google-cloudsearch-apache-nutch-indexer-plugin-v1.0.0.5.zip(手順 2 で作成)をフォルダに展開します。plugins/indexer-google-cloudsearch フォルダを Apache Nutch インストール プラグイン フォルダ(apache-nutch-1.15/plugins)にコピーします。

ステップ 2: インデクサ プラグインを構成する

Apache Nutch インデクサー プラグインを構成するには、plugin-configuration.properties というファイルを作成します。

構成ファイルでは、Google Cloud Search データソースにアクセスするために必要な次のパラメータを指定する必要があります。

設定 パラメータ
データソースの ID api.sourceId = 1234567890abcdef
必須。Google Workspace 管理者がインデクサ プラグイン用に設定した Google Cloud Search ソース ID。
サービス アカウント api.serviceAccountPrivateKeyFile = ./PrivateKey.json
必須。インデクサー プラグインへのアクセス用に Google Workspace 管理者が作成した Google Cloud Search サービス アカウント キーファイル。

次の例は、必須パラメータを含むサンプル構成ファイルを示しています。

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

構成ファイルには、インデクサ プラグインの動作を制御する他のパラメータを含めることもできます。プラグインが Cloud Search API(defaultAcl.*batch.*)にデータを push する方法を構成できます。インデクサ プラグインによるメタデータと構造化データの入力方法を構成することもできます。

これらのパラメータの説明については、Google 提供のコネクタ パラメータをご覧ください。

ステップ 3: Apache Nutch を構成する

  1. conf/nutch-site.xml を開き、次のパラメータを追加します。

    設定 パラメータ
    プラグインに含まれるもの plugin.includes = text

    必須。使用するプラグインのリスト。以下の情報を最低限含める必要があります。

    • index-basic
    • index-more
    • indexer-google-cloudsearch
    conf/nutch-default.xml はこのプロパティのデフォルト値を指定しますが、手動で indexer-google-cloudsearch も追加する必要があります。
    メタタグ名 metatags.names = text

    (省略可)対応するデータソースのスキーマ内のプロパティにマッピングされるタグのカンマ区切りリスト。メタタグ用に Apache Nutch を設定する方法について詳しくは、Nutch-parse メタタグをご覧ください。

    次の例は、nutch-site.xml に必要な変更を示しています。

    <property>
      <name>plugin.includes</name>
      <value>protocol-(http|httpclient)|urlfilter-regex|index-(basic|more| metadata)|query-(basic|site|url|lang)|indexer-google-cloudsearch|nutch-extensionpoints|parse-(text|html|msexcel|msword|mspowerpoint|pdf|metatags)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)|parse-(html|tika|metatags)|index-(basic|anchor|more|metadata)</value>
    </property>
    
  2. conf/index-writers.xml を開き、次のセクションを追加します。

    <writer id="indexer_google_cloud_search_1" class="org.apache.nutch.indexwriter.gcs.GoogleCloudSearchIndexWriter">
      <parameters>
        <param name="gcs.config.file" value="path/to/sdk-configuration.properties"/>
      </parameters>
      <mapping>
        <copy />
        <rename />
        <remove />
      </mapping>
    </writer>
    

    <writer> セクションには、次のパラメータが含まれています。

    設定 パラメータ
    Google Cloud Search 構成ファイルのパス gcs.config.file = path

    必須。Google Cloud Search 構成ファイルのフル(絶対)パス。

    アップロード形式 gcs.uploadFormat = text

    (省略可)インデクサ プラグインがドキュメント コンテンツを Google Cloud Search インデクサ API に push する形式。指定できる値は次のとおりです。

    • raw: インデクサ プラグインは、変換されていない元のドキュメント コンテンツを push します。
    • text: インデクサ プラグインは、抽出されたテキスト コンテンツを push します。デフォルト値は raw です。

ステップ 4: ウェブクロールを設定する

ウェブクロールを開始する前に、組織が検索結果に掲載したい情報のみが含まれるようにクロールを構成します。このセクションでは概要について説明します。ウェブクロールの設定方法について詳しくは、Nutch のチュートリアルをご覧ください。

  1. 開始 URL を設定します。

    開始 URL では、Apache Nutch ウェブクローラがコンテンツのクロールを開始する場所を制御します。開始 URL は、ウェブクローラがリンクをたどって、特定のクロールに含めるすべてのコンテンツにアクセスできるようにする必要があります。開始 URL は必須です。

    開始 URL を設定するには:

    1. 作業ディレクトリを nutch インストール ディレクトリに変更します。

      $ cd ~/nutch/apache-nutch-X.Y/
    2. URL のディレクトリを作成します。

      $ mkdir urls
    3. seed.txt という名前のファイルを作成し、そのファイル内に URL を 1 行に 1 つずつ入力します。

  2. 「フォローする」ルールと「フォローしない」ルールを設定します。

    「URL に従う」ルールは、どの URL をクロールして Google Cloud Search インデックスに登録するかを制御します。ウェブクローラは、URL が「フォローする URL」のルールと照合されます。これらのルールに適合した URL のみがクロールされて、インデックスに登録されます。

    「フォローしない」ルールを使用すると、URL がクロールされて Google Cloud Search のインデックスから除外されます。クロールしないパターンが URL に含まれている場合、ウェブクローラはその URL をクロールしません。

    「対象にする URL」ルールと「除外する URL」ルールを設定するには:

    1. 作業ディレクトリを nutch インストール ディレクトリに変更します。

      $ cd ~/nutch/apache-nutch-X.Y/
    2. フォローするルール/フォローしないルールを変更するには、conf/regex-urlfilter.txt を編集してください。\

      $ nano conf/regex-urlfilter.txt
    3. 以下の例のように、先頭に「+」または「-」を付けた正規表現を入力し、URL のパターンや拡張子について、または従わない URL を指定します。自由形式の式を使用できます。

      # skip file extensions
      -\.(gif|GIF|jpg|JPG|png|PNG|ico)
      
      # skip protocols (file: ftp: and mailto:)
          -^(file|ftp|mailto):
      
      # allow urls starting with https://support.google.com/gsa/
      +^https://support.google.com/gsa/
      
      # accept anything else
      # (commented out due to the single url-prefix allowed above)
      #+.
      
  3. クロール スクリプトを編集します。

    gcs.uploadFormat パラメータが存在しないか「raw」に設定されている場合は、「-addBinaryContent -base64」引数を追加して nutch index コマンドに渡す必要があります。これらの引数は、Nutch Indexer モジュールがインデクサ プラグインを呼び出すときにバイナリ コンテンツを Base64 に含めるように指示します。デフォルトでは、./bin/crawl スクリプトにはこれらの引数がありません。

    1. apache-nutch-1.15/bincrawl スクリプトを開きます。
    2. 次の例のように、-addBinaryContent -base64 オプションをスクリプトに追加します。

            if $INDEXFLAG; then
                echo "Indexing $SEGMENT to index"
                __bin_nutch index $JAVA_PROPERTIES "$CRAWL_PATH"/crawldb -addBinaryContent -base64 -linkdb "$CRAWL_PATH"/linkdb "$CRAWL_PATH"/segments/$SEGMENT
      
                echo "Cleaning up index if possible"
                __bin_nutch clean $JAVA_PROPERTIES "$CRAWL_PATH"/crawldb
            else
                echo "Skipping indexing ..."
      

ステップ 5: ウェブクロールとコンテンツのアップロードを開始する

インデクサ プラグインをインストールして設定したら、ローカルモードで独自に実行できます。./bin のスクリプトを使用して、クロールジョブまたは個々の Nutch コマンドを実行します。

次の例では、必要なコンポーネントがローカル ディレクトリにあることを前提としています。apache-nutch-1.15 ディレクトリから次のコマンドを実行し、Nutch を実行します。

$ bin/crawl -i -s urls/ crawl-test/ 5

クロールログは、std 出力(ターミナル)または logs/ ディレクトリで参照できます。ロギング出力を送信する場合や、詳細なロギングを行う場合は、conf/log4j.properties を編集します。