Déployer un plug-in indexeur pour Norconex HTTP Collector

Ce guide s'adresse aux administrateurs chargés de télécharger, de déployer et de gérer le plug-in indexeur pour Norconex HTTP Collector de Google Cloud Search. Vous devez connaître Linux, les principes de base de l'exploration du Web, le langage XML et Norconex HTTP Collector.

Ce guide inclut des instructions pour :

  • Téléchargez le logiciel du plug-in d'indexation.
  • Configurez Cloud Search.
  • Configurez Norconex HTTP Collector et l'exploration du Web.
  • Démarrer l'exploration du Web et importer du contenu.

Ce guide ne fournit pas d'informations sur les tâches que l'administrateur Google Workspace doit effectuer. Pour en savoir plus sur ces tâches, consultez Gérer les sources de données tierces.

Présentation du plug-in indexeur pour Norconex HTTP Collector

Par défaut, Cloud Search peut explorer, indexer et diffuser du contenu à partir de produits Google Workspace (Google Docs, Gmail, etc.). Pour inclure du contenu Web, déployez le plug-in indexeur pour Norconex HTTP Collector, un robot d'exploration d'entreprise Open Source.

Fichiers de propriétés de configuration

Pour permettre au plug-in d'explorer et d'importer du contenu, vous devez fournir des informations spécifiques dans deux fichiers de configuration :

  • {gcs-crawl-config.xml} : paramètres de Norconex HTTP Collector.
  • sdk-configuration.properties : paramètres de Cloud Search.

Exploration du Web et importation de contenu

Une fois les fichiers de configuration renseignés, vous pouvez démarrer l'exploration du Web. Norconex HTTP Collector explore le Web et importe les versions binaires ou texte originales du contenu des documents dans l'API d'indexation de Cloud Search.

Configuration requise

  • Système d'exploitation : Linux uniquement.
  • Version de Norconex : version 2.8.0.
  • Logiciel : Java JRE 1.8.

Compatibilité avec les LCA

Le plug-in indexeur est compatible avec les listes de contrôle d'accès (LCA) pour contrôler l'accès aux documents du domaine Google Workspace.

Si vous activez les LCA par défaut dans la configuration du plug-in (defaultAcl.mode défini sur une valeur autre que none), le plug-in applique ces valeurs par défaut. Sinon, le plug-in accorde une autorisation de lecture pour l'ensemble du domaine. Consultez Paramètres de connecteur fournis par Google.

Prérequis

Avant de déployer le plug-in indexeur, rassemblez les composants suivants :

Procédure de déploiement

  1. Installer Norconex HTTP Collector et le logiciel du plug-in
  2. Configurer Cloud Search
  3. Configurer Norconex HTTP Collector
  4. Configurer l'exploration du Web
  5. Démarrer l'exploration du Web et importer du contenu

Étape 1 : Installer Norconex HTTP Collector et le logiciel du plug-in

  1. Téléchargez le logiciel de validation Norconex à partir de la page de téléchargement de Norconex.
  2. Extrayez le logiciel dans ~/norconex/.
  3. Clonez le plug-in de validation :

    git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
    cd norconex-committer-plugin
    
  4. Vérifiez la version sélectionnée et créez le plug-in :

    git checkout tags/v1-0.0.3
    mvn package
    

    Pour ignorer les tests, utilisez mvn package -DskipTests.

  5. Copiez le fichier JAR dans le répertoire lib de Norconex :

    cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib
    
  6. Extrayez le fichier ZIP créé :

    unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
    cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    
  7. Exécutez le script d'installation et indiquez le chemin d'accès complet au répertoire Norconex lib :

    sh install.sh
    

    Si vous êtes invité à choisir une option pour les fichiers en double, sélectionnez 1.

Étape 2 : Configurer Cloud Search

Créez sdk-configuration.properties dans le répertoire Norconex. Le fichier doit spécifier les paramètres suivants :

Paramètre Paramètre
ID de la source de données api.sourceId = 1234567890abcdef
Obligatoire. ID de la source fourni par votre administrateur Google Workspace.
Compte de service api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Obligatoire. Fichier de clé du compte de service.

Exemple de propriété sdk-configuration.properties :

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

Vous pouvez également inclure des paramètres tels que batch.* pour contrôler la façon dont le plug-in envoie les données. Consultez Paramètres de connecteur fournis par Google.

Pour renseigner les métadonnées, configurez les paramètres facultatifs suivants :

Paramètre Paramètre
Titre itemMetadata.title.field=movieTitle
Type d'objet de schéma itemMetadata.objectType=movie

Étape 3 : Configurer Norconex HTTP Collector

Le plug-in inclut un exemple de fichier, minimum-config.xml.

  1. Accédez au répertoire Norconex et copiez l'exemple :

    cd ~/norconex/norconex-collector-http-VERSION/
    cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
    
  2. Modifiez gcs-crawl-config.xml pour ajouter ou remplacer les nœuds <committer> et <tagger> :

Paramètre Paramètre
Nœud <committer> <committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
Obligatoire. Ajoutez-le sous le nœud <httpcollector>.
<uploadFormat> <uploadFormat>raw</uploadFormat>
Facultatif. raw ou text. La valeur par défaut est raw.

Exemple de propriété gcs-crawl-config.xml :

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Étape 4 : Configurer l'exploration du Web

Configurez les nœuds <crawler> selon vos besoins, y compris :

  • URL de démarrage
  • Profondeur d'exploration maximale
  • Nombre de threads

Consultez la page de configuration Norconex.

Étape 5 : Démarrer l'exploration du Web et importer du contenu

Exécutez le collecteur en mode local :

./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Surveiller le robot d'exploration avec JEF Monitor

Norconex JEF (Job Execution Framework) Monitor fournit une vue graphique de la progression. Consultez Surveiller le robot d'exploration avec JEF Monitor.