Crea un connettore di contenuti

Un connettore di contenuti è un programma software che attraversa i dati in un repository aziendale e compila un'origine dati. Google offre le seguenti opzioni per lo sviluppo di connettori di contenuti:

L'SDK Content Connector. Questa è una buona opzione per i programmatori Java. L'SDK è un wrapper intorno all'API REST che ti consente di creare rapidamente connettori. Per creare un connettore di contenuti utilizzando l'SDK, consulta Creare un connettore di contenuti utilizzando l'SDK Content Connector.
Un'API REST di basso livello o librerie API. Utilizza queste opzioni se non utilizzi Java o se il tuo codebase si adatta meglio a un'API REST o a una libreria. Per creare un connettore di contenuti utilizzando l'API REST, consulta Creare un connettore di contenuti utilizzando l'API REST.

Un tipico connettore di contenuti esegue le seguenti attività:

Legge ed elabora i parametri di configurazione.
Estrae blocchi discreti di dati indicizzabili, chiamati "elementi", dal repository di terze parti.
Combina ACL, metadati e dati dei contenuti in elementi indicizzabili.
Indicizza gli elementi nell'origine dati Cloud Search.
(Facoltativo) Ascolta le notifiche di modifica dal repository. Le notifiche di modifica vengono convertite in richieste di indicizzazione per mantenere sincronizzata l'origine dati di Cloud Search. Il connettore esegue questa attività solo se il repository supporta il rilevamento delle modifiche.

Crea un connettore di contenuti utilizzando l'SDK Content Connector

Le sezioni seguenti spiegano come creare un connettore di contenuti utilizzando Content Connector SDK.

Configurare le dipendenze

Includi queste dipendenze nel file di build.

Maven

xml <dependency> <groupId>com.google.enterprise.cloudsearch</groupId> <artifactId>google-cloudsearch-indexing-connector-sdk</artifactId> <version>v1-0.0.3</version> </dependency>

Gradle

groovy compile group: 'com.google.enterprise.cloudsearch', name: 'google-cloudsearch-indexing-connector-sdk', version: 'v1-0.0.3'

Crea la configurazione del connettore

Ogni connettore utilizza un file di configurazione per parametri come l'ID repository. Definisci i parametri come coppie chiave-valore, ad esempio api.sourceId=1234567890abcdef.

Google Cloud Search SDK include parametri forniti da Google per tutti i connettori. Devi dichiarare quanto segue nel file di configurazione:

Connettore di contenuti: dichiara api.sourceId e api.serviceAccountPrivateKeyFile. Questi identificano il tuo repository e la chiave privata necessaria per l'accesso.

Connettore di identità: dichiara api.identitySourceId per identificare l'origine identità esterna. Per la sincronizzazione degli utenti, dichiara anche api.customerId (l'ID univoco del tuo account Google Workspace).

Dichiara altri parametri forniti da Google solo per eseguire l'override dei valori predefiniti. Per informazioni dettagliate sulla generazione di ID e chiavi, vedi Parametri forniti da Google.

Puoi anche definire parametri specifici per il repository nel file di configurazione.

Trasferisci il file di configurazione al connettore

Imposta la proprietà di sistema config per passare il file di configurazione. Utilizza l'argomento -D quando avvii il connettore. Ad esempio:

java -classpath myconnector.jar -Dconfig=MyConfig.properties MyConnector

Se ometti questo argomento, l'SDK tenta di utilizzare un file denominato connector-config.properties nella directory locale.

Determinare la strategia di attraversamento

La funzione principale di un connettore di contenuti è attraversare un repository e indicizzare i relativi dati. Devi implementare una strategia in base alle dimensioni e al layout del repository. Puoi progettare la tua strategia o sceglierne una dall'SDK:

Strategia di attraversamento completo: Scansiona l'intero repository e indicizza ogni elemento. Questa strategia è ideale per repository di piccole dimensioni in cui puoi permetterti l'overhead di un attraversamento completo durante ogni indicizzazione. Utilizzalo per repository di piccole dimensioni con dati per lo più statici e non gerarchici oppure quando il rilevamento delle modifiche è difficile.
Strategia di attraversamento degli elenchi: Esegue la scansione dell'intero repository per determinare lo stato di ogni elemento, quindi indicizza solo gli elementi nuovi o aggiornati. Utilizzalo per gli aggiornamenti incrementali di un indice di grandi dimensioni e non gerarchico quando il rilevamento delle modifiche non è supportato.
Attraversamento del grafico: Esegue la scansione di un nodo principale per determinare lo stato dei relativi elementi, quindi indicizza gli elementi nuovi o aggiornati nel nodo. Quindi, elabora in modo ricorsivo i nodi secondari. Utilizza questo formato per i repository gerarchici in cui elencare tutti gli ID non è pratico, ad esempio strutture di directory o siti web.

L'SDK implementa queste strategie nelle classi dei connettori dei modelli. Questi modelli possono accelerare lo sviluppo. Per utilizzare un modello, consulta la sezione corrispondente:

Creare un connettore di attraversamento completo utilizzando una classe modello
Creare un connettore di attraversamento di elenchi utilizzando una classe modello
Crea un connettore di attraversamento del grafico utilizzando una classe modello

Creare un connettore di attraversamento completo utilizzando una classe modello

Questa sezione fa riferimento al codice di FullTraversalSample.

Implementa il punto di ingresso del connettore

L'entry point è il metodo main(). Crea un'istanza di Application e chiama start() per eseguire il connettore.

Prima di chiamare application.start(), utilizza la classe IndexingApplication.Builder per creare un'istanza del modello FullTraversalConnector. Questo modello accetta un oggetto Repository.

FullTraversalSample.java

Crea un connettore di contenuti Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Crea un connettore di contenuti utilizzando l'SDK Content Connector

Configurare le dipendenze

Maven

Gradle

Crea la configurazione del connettore

Trasferisci il file di configurazione al connettore

Determinare la strategia di attraversamento

Creare un connettore di attraversamento completo utilizzando una classe modello

Implementa il punto di ingresso del connettore

Implementa l'interfaccia Repository

Ottenere parametri di configurazione personalizzati

Eseguire un'attraversamento completo

Impostare le autorizzazioni per un elemento

Impostare i metadati per un elemento

Crea l'elemento indicizzabile

Inserisci ogni elemento indicizzabile in un iteratore

Passaggi successivi

Crea un connettore di attraversamento di elenchi utilizzando una classe modello

Implementa il punto di ingresso del connettore

Implementa l'interfaccia Repository

Eseguire l'attraversamento della lista

Invio di ID articolo e valori hash

Recuperare e gestire ogni elemento

Gestire gli elementi eliminati

Gestire gli elementi non modificati

Impostare le autorizzazioni per un elemento

Impostare i metadati per un elemento

Creare un elemento indicizzabile

Passaggi successivi

Crea un connettore di attraversamento del grafico utilizzando una classe modello

Implementa il punto di ingresso del connettore

Implementa l'interfaccia Repository

Esegui l'attraversamento del grafico

Invio di ID articolo e valori hash

Recuperare e gestire ogni elemento

Gestire gli elementi eliminati

Imposta i metadati e crea l'elemento

Inserisci gli ID secondari nella coda di indicizzazione

Crea un connettore di contenuti utilizzando l'API REST

Determinare la strategia di attraversamento

Implementare la strategia di attraversamento e indicizzare gli elementi

Gestire le modifiche al repository

Crea un connettore di contenuti