Cette page a été traduite par l'API Cloud Translation.

Créer un connecteur de contenu

Un connecteur de contenu est un logiciel permettant de balayer les données d'un dépôt d'entreprise et de les insérer dans une source de données. Google propose les options suivantes pour développer des connecteurs de contenu:

SDK Content Connector C'est une bonne option si vous programmez en Java. Le SDK Content Connector est un wrapper pour l'API REST qui vous permet de créer rapidement des connecteurs. Pour créer un connecteur de contenu à l'aide du SDK, consultez l'article Créer un connecteur de contenu à l'aide du SDK Content Connector.
Une API REST de bas niveau ou des bibliothèques d'API. Utilisez ces options si vous ne programmez pas en Java, ou si votre codebase est mieux adapté à une API REST ou à une bibliothèque. Pour créer un connecteur de contenu avec l'API REST, consultez l'article Créer un connecteur de contenu à l'aide de l'API REST.

Un connecteur de contenu standard effectue les tâches suivantes:

Lit et traite les paramètres de configuration.
Extrait des fragments distincts de données indexables, appelés éléments, à partir du dépôt de contenu tiers.
Combine les LCA, les métadonnées et les données de contenu dans des éléments indexables.
Indexe des éléments dans la source de données Cloud Search.
(Facultatif) Écoute les notifications de modification du dépôt de contenu tiers. Les notifications de modification sont converties en requêtes d'indexation afin que la source de données Cloud Search reste synchronisée avec le dépôt tiers. Le connecteur n'effectue cette tâche que si le dépôt accepte la détection des modifications.

Créer un connecteur de contenu à l'aide du SDK Content Connector

Les sections suivantes expliquent comment créer un connecteur de contenu à l'aide du SDK Content Connector.

Configurer des dépendances

Vous devez inclure certaines dépendances dans votre fichier de compilation pour utiliser le SDK. Cliquez sur un onglet ci-dessous pour afficher les dépendances de votre environnement de compilation:

Maven

<dependency>
<groupId>com.google.enterprise.cloudsearch</groupId>
<artifactId>google-cloudsearch-indexing-connector-sdk</artifactId>
<version>v1-0.0.3</version>
</dependency>

Gradle

compile group: 'com.google.enterprise.cloudsearch',
        name: 'google-cloudsearch-indexing-connector-sdk',
        version: 'v1-0.0.3'

Créer votre configuration de connecteur

Chaque connecteur dispose d'un fichier de configuration contenant les paramètres qu'il utilise, tels que l'ID de votre dépôt. Les paramètres sont définis sous forme de paires clé/valeur (par exemple, api.sourceId=1234567890abcdef).

Le SDK Google Cloud Search contient plusieurs paramètres de configuration fournis par Google qui sont utilisés par tous les connecteurs. Vous devez déclarer les paramètres suivants, fournis par Google, dans votre fichier de configuration:

Pour un connecteur de contenu, vous devez déclarer api.sourceId et api.serviceAccountPrivateKeyFile, car ces paramètres identifient l'emplacement du dépôt et de la clé privée nécessaires pour y accéder.

Pour un connecteur d'identité, vous devez déclarer api.identitySourceId, car ce paramètre identifie l'emplacement de votre source d'identité externe. Si vous synchronisez les utilisateurs, vous devez également déclarer api.customerId comme ID unique du compte Google Workspace de votre entreprise.

À moins que vous ne souhaitiez remplacer les valeurs par défaut d'autres paramètres fournis par Google, vous n'avez pas besoin de les déclarer dans votre fichier de configuration. Pour en savoir plus sur les paramètres de configuration fournis par Google, tels que la génération de certains ID et de certaines clés, consultez la section Paramètres de configuration fournis par Google.

Vous pouvez également définir des paramètres spécifiques au dépôt à utiliser dans votre fichier de configuration.

Transmettre le fichier de configuration au connecteur

Définissez la propriété système config pour transmettre le fichier de configuration à votre connecteur. Vous pouvez définir cette propriété à l'aide de l'argument -D lors du démarrage du connecteur. Par exemple, la commande suivante permet de démarrer le connecteur avec le fichier de configuration MyConfig.properties:

java -classpath myconnector.jar;... -Dconfig=MyConfig.properties MyConnector

Si cet argument est manquant, le SDK tente d'accéder à un fichier de configuration par défaut nommé connector-config.properties.

Déterminer votre stratégie de balayage

La fonction principale d'un connecteur de contenu est de balayer un dépôt et d'en indexer les données. Vous devez mettre en œuvre une stratégie de balayage en fonction de la taille et de la disposition des données dans votre dépôt. Vous pouvez concevoir votre propre stratégie ou choisir parmi les stratégies suivantes, mises en œuvre dans le SDK:

Stratégie de balayage complet

La stratégie de balayage complet consiste à analyser l'intégralité du dépôt et à indexer chaque élément de façon aveugle. Cette stratégie est couramment utilisée lorsque vous disposez d'un petit dépôt et que vous pouvez vous permettre d'effectuer un balayage complet à chaque indexation.

Cette stratégie de balayage est adaptée aux petits dépôts contenant des données principalement statiques et non hiérarchiques. Vous pouvez également utiliser cette stratégie de balayage lorsque la détection des modifications est difficile ou incompatible avec le dépôt.

Stratégie de balayage de liste

Une stratégie de balayage de liste permet d'analyser l'ensemble du dépôt, y compris tous les nœuds enfants, pour déterminer l'état de chaque élément. Ensuite, lors d'une seconde passe, le connecteur n'indexe que les éléments nouveaux ou qui ont été mis à jour depuis la dernière indexation. Cette stratégie est couramment utilisée pour effectuer des mises à jour incrémentielles sur un index existant (au lieu d'avoir à effectuer un balayage complet à chaque mise à jour de l'index).

Cette stratégie de balayage convient lorsque la détection des modifications est difficile ou non compatible avec le dépôt, que vous disposez de données non hiérarchiques et que vous travaillez avec de très grands ensembles de données.

Balayage de graphe

Une stratégie de balayage de graphe analyse l'ensemble du nœud parent pour déterminer l'état de chaque élément. Ensuite, lors d'une seconde passe, le connecteur n'indexe que les éléments du nœud racine nouveaux ou ayant été mis à jour depuis la dernière indexation. Enfin, le connecteur transmet tous les ID enfants, puis indexe les éléments des nœuds enfants qui sont nouveaux ou qui ont été mis à jour. Il continue de passer par tous les nœuds enfants de manière récursive jusqu'à ce que tous les éléments soient traités. Ce type de balayage est généralement utilisé pour les dépôts hiérarchiques dans lesquels il n'est pas pratique de lister tous les ID.

Cette stratégie convient si vous devez explorer des données hiérarchiques telles qu'une série de répertoires ou de pages Web.

Chacune de ces stratégies de balayage est mise en œuvre par un modèle de classe de connecteur dans le SDK. Bien que vous puissiez mettre en œuvre votre propre stratégie de balayage, ces modèles accélèrent considérablement le développement de votre connecteur. Pour créer un connecteur à partir d'un modèle, accédez à la section correspondant à votre stratégie de balayage:

Créer un connecteur de balayage complet à partir d'un modèle de classe
Créer un connecteur de balayage de liste à partir d'un modèle de classe
Créer un connecteur de balayage de graphe à partir d'un modèle de classe

Créer un connecteur de balayage complet à partir d'un modèle de classe

Cette section fait référence aux extraits de code de l'exemple FullTraversalSample.

Implémenter le point d'entrée du connecteur

Le point d'entrée d'un connecteur est la méthode main(). La tâche principale de cette méthode consiste à créer une instance de la classe Application et à appeler sa méthode start() pour exécuter le connecteur.

Avant d'appeler application.start(), utilisez la classe IndexingApplication.Builder pour instancier le modèle FullTraversalConnector. Le modèle FullTraversalConnector accepte un objet Repository dont vous implémentez les méthodes. L'extrait de code suivant montre comment mettre en œuvre la méthode main():

FullTraversalSample.java

Créer un connecteur de contenu

Créer un connecteur de contenu à l'aide du SDK Content Connector

Configurer des dépendances

Maven

Gradle

Créer votre configuration de connecteur

Transmettre le fichier de configuration au connecteur

Déterminer votre stratégie de balayage

Créer un connecteur de balayage complet à partir d'un modèle de classe

Implémenter le point d'entrée du connecteur

Implémenter l'interface Repository

Obtenir des paramètres de configuration personnalisés

Effectuer un balayage complet

Définir les autorisations pour un élément

Définir les métadonnées d'un élément

Créer l'élément indexable

Empaqueter chaque élément indexable dans un itérateur

Étapes suivantes

Créer un connecteur de balayage de liste à l'aide d'un modèle de classe

Implémenter le point d'entrée du connecteur

Implémenter l'interface Repository

Obtenir des paramètres de configuration personnalisés

Effectuer un balayage de liste

Transmettre les ID et valeurs de hachage des éléments

Récupérer et traiter chaque élément

Gérer les éléments supprimés

Traiter les éléments inchangés

Définir les autorisations pour un élément

Définir les métadonnées d'un élément

Créer un élément indexable

Étapes suivantes

Créer un connecteur de balayage de graphe à l'aide d'un modèle de classe

Implémenter le point d'entrée du connecteur

Implémenter l'interface Repository

Obtenir des paramètres de configuration personnalisés

Effectuer un balayage de graphe

Transmettre les ID et valeurs de hachage des éléments

Récupérer et traiter chaque élément

Gérer les éléments supprimés

Définir les autorisations pour un élément

Définir les métadonnées d'un élément

Créer l'élément indexable

Placer les ID des éléments enfants dans la file d'attente d'indexation Cloud Search

Étapes suivantes

Créer un connecteur de contenu à l'aide de l'API REST

Déterminer votre stratégie de balayage

Implémenter votre stratégie de balayage et les éléments d'index

Gérer les modifications du dépôt

Implémenter l'interface `Repository`

Implémenter l'interface `Repository`

Implémenter l'interface `Repository`