Diese Seite wurde von der Cloud Translation API übersetzt.

Inhaltsconnector erstellen

Ein Inhaltsconnector ist ein Softwareprogramm, mit dem die Daten im Repository eines Unternehmens durchsucht und eine Datenquelle dargestellt wird. Google bietet folgende Optionen zum Entwickeln von Inhalts-Connectors:

Das Content Connector SDK Dies ist eine gute Option, wenn Sie in Java programmieren. Das Content Connector SDK ist ein Wrapper für die REST API, mit dem Sie schnell Connectors erstellen können. Weitere Informationen zum Erstellen eines Inhaltsconnectors mit dem Content Connector SDK
Eine Low-Level-REST API oder API-Bibliotheken. Verwenden Sie diese Optionen, wenn Sie nicht mit Java programmieren oder wenn Ihre Codebasis eine REST API oder eine Bibliothek besser unterstützt. Weitere Informationen zum Erstellen eines Inhaltsconnectors mit der REST API

Ein typischer Inhaltsconnector führt die folgenden Aufgaben aus:

Liest und verarbeitet Konfigurationsparameter.
Diskrete Blöcke indexierbarer Daten, sogenannte Elemente, aus dem Inhalts-Repository eines Drittanbieters abrufen
ACLs, Metadaten und Inhaltsdaten werden zu indexierbaren Elementen kombiniert.
Elemente werden in der Cloud Search-Datenquelle indexiert.
(Optional) Wartet auf Änderungsbenachrichtigungen aus dem Inhalts-Repository des Drittanbieters. Änderungsbenachrichtigungen werden in Indexierungsanfragen umgewandelt, um die Cloud Search-Datenquelle mit dem Repository des Drittanbieters synchron zu halten. Der Connector führt diese Aufgabe nur aus, wenn das Repository die Änderungserkennung unterstützt.

Inhaltsconnectors mit dem Content Connector SDK erstellen

In den folgenden Abschnitten wird erläutert, wie Sie mit dem Content Connector SDK einen Inhaltsconnector erstellen.

Abhängigkeiten einrichten

Sie müssen bestimmte Abhängigkeiten in Ihre Build-Datei aufnehmen, um das SDK verwenden zu können. Klicken Sie unten auf einen Tab, um die Abhängigkeiten für Ihre Build-Umgebung anzusehen:

Maven

<dependency>
<groupId>com.google.enterprise.cloudsearch</groupId>
<artifactId>google-cloudsearch-indexing-connector-sdk</artifactId>
<version>v1-0.0.3</version>
</dependency>

Gradle

compile group: 'com.google.enterprise.cloudsearch',
        name: 'google-cloudsearch-indexing-connector-sdk',
        version: 'v1-0.0.3'

Connector-Konfiguration erstellen

Jeder Connector hat eine Konfigurationsdatei mit Parametern, die vom Connector verwendet werden, z. B. die ID für Ihr Repository. Parameter werden als Schlüssel/Wert-Paare wie api.sourceId=1234567890abcdef definiert.

Das Google Cloud Search SDK enthält mehrere von Google bereitgestellte Konfigurationsparameter, die von allen Connectors verwendet werden. Sie müssen die folgenden von Google bereitgestellten Parameter in Ihrer Konfigurationsdatei deklarieren:

Für einen Inhaltsconnector müssen Sie api.sourceId und api.serviceAccountPrivateKeyFile deklarieren, da diese Parameter den Speicherort Ihres Repositorys und des privaten Schlüssels angeben, der für den Zugriff auf das Repository benötigt wird.

Für einen Identitätsconnector benötigen Sie den api.identitySourceId, da dieser Parameter den Speicherort Ihrer externen Identitätsquelle angibt. Wenn Sie Nutzer synchronisieren, müssen Sie auch api.customerId als eindeutige ID für das Google Workspace-Konto Ihres Unternehmens deklarieren.

Wenn Sie die Standardwerte anderer von Google bereitgestellter Parameter nicht überschreiben möchten, müssen Sie diese nicht in Ihrer Konfigurationsdatei deklarieren. Weitere Informationen zu den von Google bereitgestellten Konfigurationsparametern, z. B. zum Generieren bestimmter IDs und Schlüssel, finden Sie unter Von Google bereitgestellte Konfigurationsparameter.

Sie können auch eigene Repository-spezifische Parameter zur Verwendung in Ihrer Konfigurationsdatei definieren.

Konfigurationsdatei an den Connector übergeben

Legen Sie das Systemattribut config fest, um die Konfigurationsdatei an Ihren Connector zu übergeben. Dazu verwenden Sie beim Starten des Connectors das Argument -D. Mit dem folgenden Befehl wird der Connector beispielsweise mit der Konfigurationsdatei MyConfig.properties gestartet:

java -classpath myconnector.jar;... -Dconfig=MyConfig.properties MyConnector

Wenn dieses Argument fehlt, versucht das SDK, auf eine Standardkonfigurationsdatei mit dem Namen connector-config.properties zuzugreifen.

Durchlaufstrategie festlegen

Die Hauptfunktion eines Inhaltsconnectors besteht darin, ein Repository zu durchsuchen und seine Daten zu indexieren. Sie müssen eine Durchlaufstrategie basierend auf der Größe und dem Layout der Daten in Ihrem Repository implementieren. Sie können Ihre eigene Strategie entwerfen oder eine der folgenden im SDK implementierten Strategien auswählen:

Durchlauf mit vollständiger Indexierung (Full Traversal)

Bei dieser Strategie wird das gesamte Repository gescannt und blind indexiert. Diese Strategie wird häufig verwendet, wenn Sie ein kleines Repository haben und es sich den Aufwand leisten kann, bei jeder Indexierung einen vollständigen Durchlauf durchzuführen.

Diese Durchlaufstrategie eignet sich für kleine Repositories, die hauptsächlich statische, nicht hierarchische Daten enthalten. Sie können diese Durchlaufstrategie auch verwenden, wenn die Änderungserkennung schwierig ist oder vom Repository nicht unterstützt wird.

List Traversal-Strategie

Bei dieser Strategie wird das gesamte Repository einschließlich aller untergeordneten Knoten gescannt, um den Status der einzelnen Elemente zu ermitteln. Anschließend führt der Connector einen zweiten Durchlauf aus und indexiert nur Elemente, die neu sind oder seit der letzten Indexierung aktualisiert wurden. Diese Strategie wird in der Regel verwendet, um inkrementelle Aktualisierungen eines vorhandenen Index durchzuführen, anstatt bei jeder Aktualisierung des Index einen vollständigen Durchlauf durchführen zu müssen.

Diese Durchlaufstrategie eignet sich, wenn die Änderungserkennung schwierig ist oder vom Repository nicht unterstützt wird, Sie nicht hierarchische Daten haben und mit sehr großen Datasets arbeiten.

Graph Traversal

Bei dieser Strategie wird der gesamte übergeordnete Knoten gescannt, um den Status der einzelnen Elemente zu ermitteln. Anschließend führt der Connector einen zweiten Durchlauf aus und indexiert nur Elemente im Stammknoten, die neu sind oder seit der letzten Indexierung aktualisiert wurden. Schließlich übergibt der Connector alle untergeordneten IDs und indexiert dann Elemente in den untergeordneten Knoten, die neu sind oder aktualisiert wurden. Der Connector durchläuft rekursiv alle untergeordneten Knoten, bis alle Elemente bearbeitet wurden. Ein solcher Durchlauf wird normalerweise für hierarchische Repositories verwendet, bei denen das Auflisten aller IDs nicht praktikabel ist.

Diese Strategie ist geeignet, wenn Sie hierarchische Daten haben, die gecrawlt werden müssen, z. B. eine Reihe von Verzeichnissen oder Webseiten.

Jede dieser Durchlaufstrategien wird durch eine Vorlagen-Connector-Klasse im SDK implementiert. Sie können zwar Ihre eigene Durchlaufstrategie implementieren, diese Vorlagen beschleunigen jedoch die Entwicklung Ihres Connectors erheblich. Wenn Sie einen Connector mithilfe einer Vorlage erstellen möchten, fahren Sie mit dem Abschnitt fort, der Ihrer Durchlaufstrategie entspricht:

Full Traversal-Connector mithilfe einer Vorlagenklasse erstellen
List Traversal-Connector mithilfe einer Vorlagenklasse erstellen
Graph Traversal-Connector mithilfe einer Vorlagenklasse erstellen

Einen Full Traversal-Connector mithilfe einer Vorlagenklasse erstellen

Dieser Abschnitt bezieht sich auf Code-Snippets aus dem Beispiel FullTraversalSample.

Einstiegspunkt des Connectors implementieren

Der Einstiegspunkt für einen Connector ist die Methode main(). Die primäre Aufgabe dieser Methode besteht darin, eine Instanz der Klasse Application zu erstellen und die Methode start() aufzurufen, um den Connector auszuführen.

Verwenden Sie vor dem Aufrufen von application.start() die Klasse IndexingApplication.Builder, um die Vorlage FullTraversalConnector zu instanziieren. Der FullTraversalConnector akzeptiert ein Repository-Objekt, dessen Methoden Sie implementieren. Das folgende Code-Snippet zeigt, wie die Methode main() implementiert wird:

FullTraversalSample.java

Inhaltsconnector erstellen

Inhaltsconnectors mit dem Content Connector SDK erstellen

Abhängigkeiten einrichten

Maven

Gradle

Connector-Konfiguration erstellen

Konfigurationsdatei an den Connector übergeben

Durchlaufstrategie festlegen

Einen Full Traversal-Connector mithilfe einer Vorlagenklasse erstellen

Einstiegspunkt des Connectors implementieren

Repository-Oberfläche implementieren

Benutzerdefinierte Konfigurationsparameter abrufen

Full Traversal durchführen

Berechtigungen für ein Element festlegen

Metadaten für ein Element festlegen

Indexierbares Element erstellen

Jedes indexierbare Element in einen Iterator verpacken

Nächste Schritte

List Traversal-Connector mithilfe einer Vorlagenklasse erstellen

Einstiegspunkt des Connectors implementieren

Repository-Oberfläche implementieren

Benutzerdefinierte Konfigurationsparameter abrufen

List Traversal durchführen

Element-IDs und Hashwerte per Push senden

Jedes Element abrufen und verarbeiten

Umgang mit gelöschten Elementen

Umgang mit unveränderten Elementen

Berechtigungen für ein Element festlegen

Metadaten für ein Element festlegen

Indexierbares Element erstellen

Nächste Schritte

Graph Traversal-Connector mithilfe einer Vorlagenklasse erstellen

Einstiegspunkt des Connectors implementieren

Repository-Oberfläche implementieren

Benutzerdefinierte Konfigurationsparameter abrufen

Graph Traversal durchführen

Element-IDs und Hashwerte per Push senden

Jedes Element abrufen und verarbeiten

Umgang mit gelöschten Elementen

Berechtigungen für ein Element festlegen

Metadaten für ein Element festlegen

Indexierbares Element erstellen

Untergeordnete IDs in die Cloud Search-Indexierungswarteschlange aufnehmen

Nächste Schritte

Inhaltsconnectors mit der REST API erstellen

Durchlaufstrategie festlegen

Durchlaufstrategie und Indexelemente implementieren

Umgang mit Repository-Änderungen

`Repository`-Oberfläche implementieren

`Repository`-Oberfläche implementieren

`Repository`-Oberfläche implementieren