Cette page a été traduite par l'API Cloud Translation.

Créer un connecteur de contenu

Un connecteur de contenu est un programme qui permet de balayer les données d'un dépôt d'entreprise et remplir une source de données. Google propose les fonctionnalités suivantes : options de développement de connecteurs de contenu:

SDK Content Connector C'est une bonne option si vous programmez en Java. Le SDK Content Connector est un wrapper l'API REST permettant de créer rapidement des connecteurs. Pour créer un contenu à l'aide du SDK, reportez-vous Créez un connecteur de contenu à l'aide du SDK Content Connector.
Une API REST de bas niveau ou des bibliothèques d'API. Utilisez ces options si vous n'êtes pas la programmation en Java, ou si votre codebase est mieux adapté ou une bibliothèque. Pour créer un connecteur de contenu à l'aide de l'API REST, consultez à Créez un connecteur de contenu à l'aide de l'API REST.

Un connecteur de contenu standard exécute les tâches suivantes:

Lit et traite les paramètres de configuration.
Elle extrait des fragments distincts de données indexables, appelées éléments, de l'application tierce un référentiel de contenu.
Combiner les listes de contrôle d'accès, les métadonnées et les données de contenu dans des éléments indexables.
Indexe des éléments dans la source de données Cloud Search.
(Facultatif) Écoute les notifications de modification du contenu tiers un dépôt de clés. Les notifications de modification sont converties en demandes d'indexation la source de données Cloud Search synchronisée avec le dépôt tiers. La le connecteur n'effectue cette tâche que si le dépôt prend en charge la détection des modifications.

Créer un connecteur de contenu à l'aide du SDK Content Connector

Les sections suivantes expliquent comment créer un connecteur de contenu à l'aide de la SDK Content Connector.

Configurer des dépendances

Vous devez inclure certaines dépendances dans votre fichier de compilation pour utiliser le SDK. Cliquez sur dans un onglet ci-dessous pour afficher les dépendances de votre environnement de compilation:

Maven

<dependency>
<groupId>com.google.enterprise.cloudsearch</groupId>
<artifactId>google-cloudsearch-indexing-connector-sdk</artifactId>
<version>v1-0.0.3</version>
</dependency>

Gradle

compile group: 'com.google.enterprise.cloudsearch',
        name: 'google-cloudsearch-indexing-connector-sdk',
        version: 'v1-0.0.3'

Créer une configuration de connecteur

Chaque connecteur dispose d'un fichier de configuration contenant les paramètres utilisés par par exemple l'ID de votre dépôt. Les paramètres sont définis comme suit : des paires clé-valeur : api.sourceId=1234567890abcdef

Le SDK Google Cloud Search contient plusieurs configurations fournies par Google paramètres utilisés par tous les connecteurs. Vous devez déclarer les éléments suivants : Paramètres fournis par Google dans votre fichier de configuration:

Pour un connecteur de contenu, vous devez déclarer api.sourceId et api.serviceAccountPrivateKeyFile, car ces paramètres identifient l'emplacement de votre dépôt et la clé privée nécessaire pour y accéder.

Pour un connecteur d'identité, vous devez déclarer api.identitySourceId comme ceci identifie l'emplacement de votre source d'identité externe. Si vous utilisez les utilisateurs synchronisés, vous devez également déclarer api.customerId comme identifiant unique pour le compte Google Workspace de votre entreprise.

À moins que vous ne souhaitiez remplacer les valeurs par défaut des autres vous n'avez pas besoin de les déclarer dans votre fichier de configuration. Pour en savoir plus sur les paramètres de configuration fournis par Google, tels que comment générer certains ID et clés, reportez-vous Paramètres de configuration fournis par Google.

Vous pouvez également définir des paramètres spécifiques au dépôt à utiliser dans votre fichier de configuration.

Transmettre le fichier de configuration au connecteur

Définissez la propriété système config pour transmettre le fichier de configuration à votre le connecteur d'alimentation. Vous pouvez définir la propriété à l'aide de l'argument -D au démarrage le connecteur. Par exemple, la commande suivante permet de démarrer le connecteur avec le fichier de configuration MyConfig.properties:

java -classpath myconnector.jar;... -Dconfig=MyConfig.properties MyConnector

Si cet argument est manquant, le SDK tente d'accéder à une configuration par défaut nommé connector-config.properties.

Déterminer votre stratégie de balayage

La fonction principale d'un connecteur de contenu est de balayer un référentiel pour indexer ses données. Vous devez implémenter une stratégie de balayage adaptée à la taille et la mise en page des données dans votre référentiel. Vous pouvez élaborer votre propre stratégie ou choisir à l'aide des stratégies suivantes implémentées dans le SDK:

Stratégie de balayage complet

Une stratégie de balayage complet consiste à analyser l'intégralité du dépôt et à l'indexer aveuglément. chaque élément. Cette stratégie est couramment utilisée lorsque vous avez un petit dépôt et un balayage complet à chaque indexation.

Cette stratégie de balayage convient aux petits dépôts des données statiques et non hiérarchisées. Vous pouvez également utiliser cette stratégie de balayage lorsque la détection des modifications est difficile ou n'est pas prise en charge par le dépôt.

Stratégie de balayage de liste

La stratégie de balayage de liste analyse l'ensemble du dépôt, y compris les fichiers enfants qui détermine l'état de chaque élément. Ensuite, le connecteur prend une seconde transmet et n'indexe que les éléments nouveaux ou mis à jour depuis la dernière ou l'indexation. Cette stratégie est généralement utilisée pour effectuer les mises à jour d'un index existant (au lieu d'avoir à effectuer un balayage complet lors de la mise à jour de l'index).

Cette stratégie de balayage est adaptée lorsque la détection des modifications est difficile ou non pris en charge par le référentiel, vous avez des données non hiérarchisées, travailler avec de très grands jeux de données.

Traversée de graphe

Une stratégie de balayage de graphe analyse l'intégralité du nœud parent l'état de chaque élément. Il effectue ensuite une seconde passe et n'indexe éléments du nœud racine sont nouveaux ou ont été mis à jour depuis la dernière indexation. Enfin, le connecteur transmet les ID enfants, puis indexe les éléments de ces nœuds qui sont nouveaux ou ont été mis à jour. Le connecteur se poursuit alors de manière récursive via tous les nœuds enfants jusqu'à ce que tous les éléments aient été traités. Ce type de balayage utilisé pour les référentiels hiérarchiques où la liste de tous les ID n'est pas pratiques.

Cette stratégie convient si vous avez des données hiérarchisées qui doivent être explorés, comme une série de répertoires ou de pages Web.

Chacune de ces stratégies de balayage est mise en œuvre par un modèle de connecteur dans le SDK. Vous pouvez implémenter votre propre stratégie de balayage, accélèrent considérablement le développement du connecteur. À créez un connecteur à l'aide d'un modèle, passez à la section correspondant à votre stratégie de balayage:

Créer un connecteur de balayage complet à partir d'un modèle de classe
Créer un connecteur de balayage de liste à l'aide d'un modèle de classe
Créer un connecteur de balayage de graphe à partir d'un modèle de classe

Créer un connecteur de balayage complet à partir d'un modèle de classe

Cette section fait référence aux extraits de code Exemple FullTraversalSample.

Implémenter le point d'entrée du connecteur

Le point d'entrée d'un connecteur est main(). La tâche principale de cette méthode est de créer une instance de Application et à appeler sa classe start() pour exécuter le connecteur.

Avant d'appeler application.start(), utilisez la IndexingApplication.Builder pour instancier FullTraversalConnector modèle. La FullTraversalConnector accepte un Repository dont vous allez implémenter les méthodes. L'extrait de code suivant montre comment pour implémenter la méthode main():

FullTraversalSample.java

Créer un connecteur de contenu

Créer un connecteur de contenu à l'aide du SDK Content Connector

Configurer des dépendances

Maven

Gradle

Créer une configuration de connecteur

Transmettre le fichier de configuration au connecteur

Déterminer votre stratégie de balayage

Créer un connecteur de balayage complet à partir d'un modèle de classe

Implémenter le point d'entrée du connecteur

Implémenter l'interface Repository

Obtenir les paramètres de configuration personnalisés

Effectuer un balayage complet

Définir les autorisations pour un élément

Définir les métadonnées d'un élément

Créer l'élément indexable

Empaqueter chaque élément indexable dans un itérateur

Étapes suivantes

Créer un connecteur de balayage de liste à partir d'un modèle de classe

Implémenter le point d'entrée du connecteur

Implémenter l'interface Repository

Obtenir les paramètres de configuration personnalisés

Effectuer un balayage de liste

Transmettre les ID et les valeurs de hachage des éléments

Récupérer et traiter chaque élément

Gérer les éléments supprimés

Traiter les éléments non modifiés

Définir les autorisations pour un élément

Définir les métadonnées d'un élément

Créer un élément indexable

Étapes suivantes

Créer un connecteur de balayage de graphe à partir d'un modèle de classe

Implémenter le point d'entrée du connecteur

Implémenter l'interface Repository

Obtenir les paramètres de configuration personnalisés

Effectuer un balayage de graphe

Transmettre les ID et les valeurs de hachage des éléments

Récupérer et traiter chaque élément

Gérer les éléments supprimés

Définir les autorisations pour un élément

Définir les métadonnées d'un élément

Créer l'élément indexable

Placer les ID des éléments enfants dans la file d'attente d'indexation Cloud Search

Étapes suivantes

Créer un connecteur de contenu à l'aide de l'API REST

Déterminer votre stratégie de balayage

Implémenter votre stratégie de balayage et vos éléments d'index

Gérer les modifications du dépôt

Implémenter l'interface `Repository`

Implémenter l'interface `Repository`

Implémenter l'interface `Repository`