Inhaltsconnector erstellen

Ein Inhaltsconnector ist ein Programm, mit dem die Daten im Repository eines Unternehmens durchsucht werden, um eine Datenquelle zu befüllen. Google bietet Ihnen folgende Möglichkeiten, Inhaltsconnectors zu entwickeln:

Das Content Connector SDK. Diese Option eignet sich gut für Java-Programmierer. Das SDK ist ein Wrapper für die REST API, mit dem Sie schnell Connectors erstellen können. Informationen zum Erstellen eines Inhaltsconnectors mit dem SDK finden Sie unter Mit dem Content Connector SDK Inhaltsconnectors erstellen.
Eine Low-Level-REST API oder API-Bibliotheken: Verwenden Sie diese Optionen, wenn Sie nicht Java verwenden oder wenn Ihre Codebasis besser für eine REST API oder eine Bibliothek geeignet ist. Weitere Informationen zum Erstellen eines Inhaltsconnectors mit der REST API finden Sie im Abschnitt Mithilfe der REST API Inhaltsconnectors erstellen.

Mit einem typischen Inhaltsconnector werden die folgenden Aufgaben ausgeführt:

Konfigurationsparameter lesen und verarbeiten
Diskrete Teile indexierbarer Daten, sogenannte Elemente, aus dem Repository eines Drittanbieters abrufen
Aus ACLs, Metadaten und Inhaltsdaten indexierbare Elemente erstellen
Elemente indexieren und in die Cloud Search-Datenquelle aufnehmen
Optional: Benachrichtigungen über Änderungen aus dem Repository erkennen. Änderungsbenachrichtigungen werden in Indexierungsanforderungen umgewandelt, um die Cloud Search-Datenquelle synchron zu halten. Diese Aufgabe wird nur ausgeführt, wenn das Repository die Änderungserkennung unterstützt.

Mit dem Content Connector SDK Inhaltsconnectors erstellen

In den folgenden Abschnitten wird erläutert, wie Sie mit dem Content Connector SDK einen Inhaltsconnector erstellen.

Abhängigkeiten einrichten

Fügen Sie diese Abhängigkeiten in Ihre Build-Datei ein.

Maven

xml <dependency> <groupId>com.google.enterprise.cloudsearch</groupId> <artifactId>google-cloudsearch-indexing-connector-sdk</artifactId> <version>v1-0.0.3</version> </dependency>

Gradle

groovy compile group: 'com.google.enterprise.cloudsearch', name: 'google-cloudsearch-indexing-connector-sdk', version: 'v1-0.0.3'

Connectorkonfiguration erstellen

Jeder Connector verwendet eine Konfigurationsdatei für Parameter wie Ihre Repository-ID. Definieren Sie Parameter als Schlüssel/Wert-Paare, z. B. api.sourceId=1234567890abcdef.

Das Google Cloud Search SDK enthält von Google bereitgestellte Parameter für alle Connectors. Sie müssen Folgendes in Ihrer Konfigurationsdatei deklarieren:

Inhaltsconnector: Deklarieren Sie api.sourceId und api.serviceAccountPrivateKeyFile. Diese identifizieren Ihr Repository und den für den Zugriff erforderlichen privaten Schlüssel.

Identitätsconnector: Deklarieren Sie api.identitySourceId, um Ihre externe Identitätsquelle zu identifizieren. Für die Nutzersynchronisierung müssen Sie auch api.customerId (die eindeutige ID für Ihr Google Workspace-Konto) deklarieren.

Andere von Google bereitgestellte Parameter müssen nur deklariert werden, wenn Sie ihre Standardwerte überschreiben möchten. Weitere Informationen zum Generieren von IDs und Schlüsseln finden Sie unter Von Google bereitgestellte Parameter.

Sie können auch Repository-spezifische Parameter in Ihrer Konfigurationsdatei definieren.

Konfigurationsdatei an den Connector übergeben

Legen Sie das Systemattribut config fest, um die Konfigurationsdatei zu übergeben. Verwenden Sie beim Starten des Connectors das Argument -D. Beispiel:

java -classpath myconnector.jar -Dconfig=MyConfig.properties MyConnector

Wenn Sie dieses Argument weglassen, versucht das SDK, eine Datei mit dem Namen connector-config.properties im lokalen Verzeichnis zu verwenden.

Durchlaufstrategie festlegen

Die Hauptfunktion eines Inhaltsconnectors besteht darin, ein Repository zu durchsuchen und seine Daten zu indexieren. Sie müssen eine Strategie implementieren, die auf die Größe und das Layout Ihres Repository abgestimmt ist. Sie können Ihre eigene entwerfen oder eine Strategie aus dem SDK auswählen:

Durchlauf mit vollständiger Indexierung (Full Traversal): Das gesamte Repository wird gescannt und jedes Element wird indexiert. Diese Strategie eignet sich am besten für kleine Repositories, bei denen ein vollständiger Durchlauf bei jeder Indexierung kein Problem darstellt. Verwenden Sie sie für kleine Repositories mit hauptsächlich statischen, nicht hierarchischen Daten oder wenn die Änderungserkennung schwierig ist.
Durchlauf mit Teilindexierung (List Traversal): – Das gesamte Repository wird gescannt, um den Status der einzelnen Elemente zu ermitteln. Anschließend werden nur neue oder aktualisierte Elemente indexiert. Verwenden Sie diese Option für inkrementelle Aktualisierungen eines großen, nicht hierarchischen Index, wenn die Änderungserkennung nicht unterstützt wird.
Knotenbasierter Durchlauf mit Teilindexierung (Graph Traversal): Scannt einen übergeordneten Knoten, um den Status seiner Elemente zu ermitteln, und indexiert dann neue oder aktualisierte Elemente in diesem Knoten. Anschließend werden untergeordnete Knoten rekursiv verarbeitet. Verwenden Sie diese Option für hierarchische Repositories, bei denen das Auflisten aller IDs nicht praktikabel ist, z. B. Verzeichnisstrukturen oder Websites.

Das SDK implementiert diese Strategien in Vorlagenklassen für Connectors. Diese Vorlagen können die Entwicklung beschleunigen. Informationen zur Verwendung einer Vorlage finden Sie im entsprechenden Abschnitt:

Full Traversal-Connector mithilfe einer Vorlagenklasse erstellen
List Traversal-Connector mithilfe einer Vorlagenklasse erstellen
Graph Traversal-Connector mithilfe einer Vorlagenklasse erstellen

Full Traversal-Connector mithilfe einer Vorlagenklasse erstellen

Dieser Abschnitt bezieht sich auf Code aus dem Beispiel FullTraversalSample.

Einstiegspunkt des Connectors implementieren

Der Einstiegspunkt ist die Methode main(). Dabei wird eine Application-Instanz erstellt und start() aufgerufen, um den Connector auszuführen.

Verwenden Sie die Klasse IndexingApplication.Builder, um die Vorlage FullTraversalConnector zu instanziieren, bevor Sie application.start() aufrufen. Diese Vorlage akzeptiert ein Repository -Objekt.

FullTraversalSample.java

Inhaltsconnector erstellen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Mit dem Content Connector SDK Inhaltsconnectors erstellen

Abhängigkeiten einrichten

Maven

Gradle

Connectorkonfiguration erstellen

Konfigurationsdatei an den Connector übergeben

Durchlaufstrategie festlegen

Full Traversal-Connector mithilfe einer Vorlagenklasse erstellen

Einstiegspunkt des Connectors implementieren

Repository-Schnittstelle implementieren

Benutzerdefinierte Konfigurationsparameter abrufen

Vollständigen Durchlauf durchführen

Berechtigungen für ein Element festlegen

Metadaten für ein Element festlegen

Indexierbares Element erstellen

Jedes indexierbare Element in einen Iterator verpacken

Nächste Schritte

List Traversal-Connector mithilfe einer Vorlagenklasse erstellen

Einstiegspunkt des Connectors implementieren

Repository-Schnittstelle implementieren

Listendurchlauf (List Traversal) durchführen

Element-IDs und Hashwerte per Push übertragen

Alle Elemente abrufen und verarbeiten

Umgang mit gelöschten Elementen

Umgang mit unveränderten Elementen

Berechtigungen für ein Element festlegen

Metadaten für ein Element festlegen

Indexierbares Element erstellen

Nächste Schritte

Graph Traversal-Connector mithilfe einer Vorlagenklasse erstellen

Einstiegspunkt des Connectors implementieren

Repository-Schnittstelle implementieren

Diagrammdurchlauf (Graph Traversal) durchführen

Element-IDs und Hashwerte per Push übertragen

Alle Elemente abrufen und verarbeiten

Umgang mit gelöschten Elementen

Metadaten festlegen und Element erstellen

Untergeordnete IDs in der Indexierungswarteschlange platzieren

Mithilfe der REST API Inhaltsconnectors erstellen

Durchlaufstrategie festlegen

Durchlaufstrategie und Indexelemente implementieren

Umgang mit Repository-Änderungen

Inhaltsconnector erstellen