Indexierungs-Plug-in für den Norconex HTTP Collector bereitstellen

Dieser Leitfaden richtet sich an Administratoren, die mit dem Cloud Search-Indexierungs-Plug-in für den Norconex HTTP Collector arbeiten und für das Herunterladen, Konfigurieren, Ausführen und Verwalten des Plug-ins verantwortlich sind. Es wird davon ausgegangen, dass Sie mit Linux-Betriebssystemen, mit den Grundlagen des Web-Crawlings, mit XML und mit dem Norconex HTTP Collector vertraut sind.

Folgende Hauptaufgaben für das Deployment des Indexierungs-Plug-ins sind in diesem Leitfaden enthalten:

  • Indexierungs-Plug-in herunterladen
  • Google Cloud Search konfigurieren
  • Den Norconex HTTP Collector und das Web-Crawling konfigurieren
  • Web-Crawling und den Upload von Inhalten starten

In diesem Leitfaden erhalten Sie jedoch keine Informationen dazu, wie Google Cloud Search dem Indexierungs-Plug-in für den Norconex HTTP Collector zugeordnet wird. Weitere Informationen dazu finden Sie unter Integration von Drittanbietern.

Das Indexierungs-Plug-in für den Norconex HTTP Collector

Mit Google Cloud Search können Sie in G Suite-Diensten wie Google Docs und Gmail nach Inhalten suchen und diese indexieren sowie bereitstellen. Wenn Sie das Indexierungs-Plug-in für den Norconex HTTP Collector bereitstellen, können Sie die Reichweite von Google Cloud Search auf Webinhalte ausweiten. Das Plug-in ist ein Open-Source-Web-Crawler für Unternehmen.

Datei mit Konfigurationseigenschaften

Wenn Sie das Indexierungs-Plug-in aktivieren möchten, um Web-Crawls auszuführen und Inhalt in die Indexing API hochzuladen, müssen Sie während der Konfigurationsschritte bestimmte Informationen angeben. Die Anleitung dazu finden Sie in diesem Dokument im Abschnitt Deployment.

Damit das Indexierungs-Plug-in verwendet werden kann, müssen Sie in zwei Konfigurationsdateien Attribute festlegen:

  • {gcs-crawl-config.xml}: enthält Einstellungen für den Norconex HTTP Collector
  • sdk-configuration.properties: enthält Einstellungen für Google Cloud Search

Die Attribute in jeder Datei ermöglichen die Kommunikation zwischen dem Indexierungs-Plug-in für Google Cloud Search und dem Norconex HTTP Collector.

Web crawlen und Inhalte hochladen

Nachdem Sie die Konfigurationsdateien vollständig befüllt haben, stehen Ihnen die erforderlichen Einstellungen für das Web-Crawling zur Verfügung. Der Norconex HTTP Collector crawlt das Web, erfasst seiner Konfiguration entsprechend Dokumentinhalte und lädt die ursprüngliche Binär- oder Textversion der Inhalte in die Indexierungs-API von Cloud Search hoch. Dort werden die Inhalte indexiert und Nutzern zur Verfügung gestellt.

Unterstützte Betriebssysteme

Das Indexierungs-Plug-in für den Norconex HTTP Collector muss unter Linux installiert werden.

Unterstützte Version des Norconex HTTP Collectors

Das Indexierungs-Plug-in für Google Cloud Search unterstützt Version 2.8.0 des Norconex HTTP Collectors. Diese Version ist bereits in der Software des Indexierungs-Plug-ins enthalten.

ACL-Unterstützung

Das Indexierungs-Plug-in unterstützt die Steuerung des Zugriffs auf Dokumente in der G Suite-Domain mithilfe von Zugriffssteuerungslisten (Access Control Lists, ACLs).

Wenn in der Konfiguration des Google Cloud Search-Plug-ins Standard-ACLs aktiviert sind, versucht das Indexierungs-Plug-in zuerst, eine Standard-ACL zu erstellen und anzuwenden. Standard-ACLs sind aktiviert, wenn defaultAcl.mode auf einen anderen Wert als none festgelegt ist und mit defaultAcl.* konfiguriert ist.

Sollten Standard-ACLs nicht aktiviert sein, vergibt das Plug-in wieder Leseberechtigungen für die gesamte G Suite-Domain.

Ausführliche Beschreibungen der Konfigurationsparameter für ACLs finden Sie im Artikel zu den von Google bereitgestellten Connectorparametern.

Voraussetzungen

Für die Bereitstellung des Indexierungs-Plug-in benötigen Sie die folgenden Komponenten:

  • Java JRE 1.8, installiert auf einem Computer, auf dem das Indexierungs-Plug-in ausgeführt wird
  • Die folgenden G Suite-Informationen. Sie sind erforderlich, um Beziehungen zwischen Cloud Search und dem Norconex HTTP Collector herzustellen:

    In der Regel erhalten Sie diese Anmeldedaten vom G Suite-Administrator der Domain.

Deployment

So stellen Sie das Indexierungs-Plug-in bereit:

  1. Installieren Sie den Norconex HTTP Collector und das Indexierungs-Plug-in.
  2. Konfigurieren Sie Google Cloud Search.
  3. Konfigurieren Sie den Norconex HTTP Collector.
  4. Konfigurieren Sie das Web-Crawling.
  5. Starten Sie einen Web-Crawl und den Upload von Inhalten.

Schritt 1: Den Norconex HTTP Collector und das Indexierungs-Plug-in installieren

Das Indexierungs-Plug-in für Cloud Search muss auf einem Hostcomputer installiert werden. Google bietet die Plug-in-Software in der folgenden vorgefertigten Binärdistribution an:

norconex-committer-google-cloud-search-v1-0.0.2.zip

Die Binärdistribution enthält auch das Google Cloud Search Connector SDK.

So installieren Sie den Norconex HTTP Collector und das Indexierungs-Plug-in für Google Cloud Search:

  1. Laden Sie das Norconex HTTP Collector-Plug-in in das Norconex-Verzeichnis herunter, in dem der HTTP Collector installiert ist.

  2. Wechseln Sie in das Norconex-Verzeichnis:
    $ cd ~/norconex/norconex-collector-http-{version}/

  3. Entpacken Sie das Downloadarchiv:
    $ unzip norconex-committer-google-cloud-search-v1-0.0.1.zip

  4. Wechseln Sie in das Verzeichnis norconex-committer-google-cloud-search-{version}:
    $ cd ~/norconex/norconex-collector-http-{version}/ \ norconex-committer-google-cloud-search-v1-0.0.1.zip

  5. Führen Sie das Installationsskript aus, um die JAR-Datei des Plug-ins und alle erforderlichen Bibliotheken in das Verzeichnis des HTTP Collectors zu kopieren:
    $ sh install.sh ~/norconex/norconex-collector-http-{version}/lib

Damit das Indexierungs-Plug-in eine Verbindung zum Norconex HTTP Collector herstellen und den relevanten Inhalt indexieren kann, müssen Sie die Cloud Search-Konfigurationsdatei im Norconex-Verzeichnis erstellen, in dem der Norconex HTTP Collector installiert ist. Google empfiehlt, dass Sie die Cloud Search-Konfigurationsdatei sdk-configuration.properties nennen.

Diese Konfigurationsdatei muss Schlüssel/Wert-Paare enthalten, die einen Parameter definieren. In der Datei müssen außerdem mindestens die folgenden Parameter angegeben werden, denn sie sind für den Zugriff auf die Cloud Search-Datenquelle erforderlich.

Einstellung Parameter
ID der Datenquelle api.sourceId = 1234567890abcdef
Pflichtangabe. Die ID der Cloud Search-Quelle, die vom G Suite-Administrator eingerichtet wurde.
Dienstkonto api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Pflichtangabe. Die Schlüsseldatei des Cloud Search-Dienstkontos, die vom G Suite-Administrator damit das Indexierungs-Plug-in Zugriff erhält.

Im folgenden Beispiel sehen Sie eine sdk-configuration.properties-Datei.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

Die Konfigurationsdatei kann auch mehrere andere für Cloud Search spezifische Konfigurationsparameter enthalten, die sich darauf auswirken können, wie das Indexierungs-Plug-in Daten an die Google Cloud Search API überträgt. Beispiele für diese Parameter: defaultAcl.* und batch.*

Wenn Sie in der Konfigurationsdatei keinen Parameter definieren, wird der Standardwert verwendet, falls es einen gibt. Weitere Informationen zu den von Google bereitgestellten Connectorparametern

Sie können das Indexierungs-Plug-in so konfigurieren, dass für Inhalte, die gerade indexiert werden, Metadaten und strukturierte Daten aufgefüllt werden. Die zu befüllenden Werte für Metadaten und strukturierte Daten können entweder aus Metatags in zu indexierenden HTML-Inhalten extrahiert oder aus in der Konfigurationsdatei hinterlegten Standardwerten entnommen werden.

Einstellung Parameter
Titel itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
Für das Plug-in wird standardmäßig HTML title als Titel des zu indexierenden Dokuments verwendet. Falls der Titel fehlt, können Sie entweder auf das Metadatenattribut verweisen, das den Wert enthält, der dem Dokumenttitel entspricht, oder einen Standardwert festlegen.
Zeitstempel bei Erstellung itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
Das Metadatenattribut, das den Wert für den Zeitstempel der Dokumenterstellung enthält.
Zeitpunkt der letzten Änderung itemMetadata.updatetime.field=releaseDate
itemMetadata.updatetime.defaultValue=1940-01-17
Das Metadatenattribut, das den Wert für den Zeitstempel der letzten Änderung des Dokuments enthält.
Sprache des Dokuments itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
Die Inhaltssprache des zu indexierenden Dokuments.
Objekttyp des Schemas itemMetadata.objectType=movie
Der von der Website verwendete Objekttyp. Dieser ist in den Definitionen der Schemaobjekte in der Datenquelle definiert. Es werden keine strukturierten Daten mithilfe des Connectors indexiert, wenn diese Eigenschaft nicht angegeben ist.

Hinweis: Diese Konfigurationseigenschaft verweist auf einen Wert und nicht auf ein Metadatenattribut. Außerdem werden die Suffixe .field und .defaultValue nicht unterstützt.

Datum/Uhrzeit-Formate

Mit Datum/Uhrzeit-Formaten werden die in Metadatenattributen erwarteten Formate angegeben. Wenn die Konfigurationsdatei diesen Parameter nicht enthält, werden Standardwerte verwendet. In der folgenden Tabelle wird der Parameter dargestellt.

Einstellung

Parameter

Zusätzliche Datum/Uhrzeit-Muster

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

Eine durch Semikolons (semicolon) getrennte Liste von zusätzlichen Mustern des Typs java.time.format.DateTimeFormatter. Die Muster werden verwendet, wenn Stringwerte für Datums- oder Datum/Uhrzeit-Felder in den Metadaten oder im Schema geparst werden. Der Standardwert ist eine leere Liste. Die Formate "RFC 3339" und "RFC 1123" werden jedoch immer unterstützt.

Schritt 3: Den Norconex HTTP Collector konfigurieren

Das Zip-Archiv norconex-committer-google-cloud-search-{version}.zip enthält die Beispielkonfigurationsdatei minimum-config.xml.

Wir empfehlen, dass Sie mit der Konfiguration beginnen, indem Sie die folgende Beispieldatei kopieren:

  1. Wechseln Sie in das Verzeichnis des Norconex HTTP Collectors:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. Kopieren Sie die Konfigurationsdatei:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. Bearbeiten Sie die neu erstellte Datei, in diesem Beispiel gcs-crawl-config.xml. Fügen Sie außerdem vorhandene <committer>- und <tagger>-Knoten hinzu oder ersetzen Sie sie. Dies wird in der folgenden Tabelle beschrieben.
Einstellung Parameter
Knoten Pflichtangabe. Wenn Sie das Plug-in aktivieren möchten, müssen Sie einen Knoten als untergeordnetes Element des Stammknotens hinzufügen.
raw Optional. Das Format, in dem das Indexierungs-Plug-in Dokumentinhalt an die Indexierungs-API für Google Cloud Search überträgt. Gültige Werte sind:
  • raw: Das Indexierungs-Plug-in überträgt den ursprünglichen, nicht konvertierten Dokumentinhalt.
  • text: Das Indexierungs-Plug-in überträgt den extrahierten Textinhalt. Der Standardwert ist raw.
BinaryContent\Tagger-Knoten \ Pflichtangabe, wenn der Wert raw ist. In diesem Fall benötigt das Indexierungs-Plug-in das binäre Inhaltsfeld des Dokuments, um verfügbar zu sein. Sie müssen den BinaryContentTagger -Knoten als untergeordnetes Element des / -Knotens hinzufügen.

Im folgenden Beispiel wird die erforderliche Änderung an gcs-crawl-config.xml gezeigt:

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <!-- Optional, value="[raw|text]". Default value: raw -->
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Schritt 4: Web-Crawling konfigurieren

Bevor Sie das Web-Crawling starten, müssen Sie den Crawler so konfigurieren, dass er nur Informationen erfasst, die Ihre Organisation in den Suchergebnissen verfügbar machen möchte. Die wichtigsten Einstellungen für das Web-Crawling sind Teil der <crawler>-Knoten und können Folgendes enthalten:

  • Start-URLs
  • Maximale Tiefe des Crawlings
  • Anzahl der Threads

Ändern Sie diese Konfigurationswerte Ihren Anforderungen entsprechend. Weitere Informationen zum Einrichten eines Web-Crawlings und eine vollständige Liste der verfügbaren Konfigurationsparameter finden Sie auf der Konfigurationsseite des HTTP Collectors.

Schritt 5: Web-Crawling und Inhaltsupload starten

Nachdem Sie das Indexierungs-Plug-in installiert und eingerichtet haben, können Sie es im lokalen Modus ausführen.

Im folgenden Beispiel wird davon ausgegangen, dass sich die erforderlichen Komponenten im lokalen Verzeichnis eines Linux-Systems befinden. Führen Sie den folgenden Befehl aus:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Crawler mit JEF Monitor überwachen

Norconex JEF Monitor (Job Execution Framework) ist ein grafisches Tool, mit dem sich der Fortschritt der Prozesse und Jobs des Norconex Web Crawlers (HTTP Collector) überwachen lassen. Ein vollständiges Tutorial zum Einrichten dieses Dienstprogramms finden Sie in der Norconex-Dokumentation.