Ce guide s'adresse aux administrateurs chargés de télécharger, de déployer et de gérer le plug-in indexeur pour Norconex HTTP Collector de Google Cloud Search. Vous devez connaître Linux, les principes de base de l'exploration du Web, le langage XML et Norconex HTTP Collector.
Ce guide inclut des instructions pour :
- Téléchargez le logiciel du plug-in d'indexation.
- Configurez Cloud Search.
- Configurez Norconex HTTP Collector et l'exploration du Web.
- Démarrer l'exploration du Web et importer du contenu.
Ce guide ne fournit pas d'informations sur les tâches que l'administrateur Google Workspace doit effectuer. Pour en savoir plus sur ces tâches, consultez Gérer les sources de données tierces.
Présentation du plug-in indexeur pour Norconex HTTP Collector
Par défaut, Cloud Search peut explorer, indexer et diffuser du contenu à partir de produits Google Workspace (Google Docs, Gmail, etc.). Pour inclure du contenu Web, déployez le plug-in indexeur pour Norconex HTTP Collector, un robot d'exploration d'entreprise Open Source.
Fichiers de propriétés de configuration
Pour permettre au plug-in d'explorer et d'importer du contenu, vous devez fournir des informations spécifiques dans deux fichiers de configuration :
{gcs-crawl-config.xml}: paramètres de Norconex HTTP Collector.sdk-configuration.properties: paramètres de Cloud Search.
Exploration du Web et importation de contenu
Une fois les fichiers de configuration renseignés, vous pouvez démarrer l'exploration du Web. Norconex HTTP Collector explore le Web et importe les versions binaires ou texte originales du contenu des documents dans l'API d'indexation de Cloud Search.
Configuration requise
- Système d'exploitation : Linux uniquement.
- Version de Norconex : version 2.8.0.
- Logiciel : Java JRE 1.8.
Compatibilité avec les LCA
Le plug-in indexeur est compatible avec les listes de contrôle d'accès (LCA) pour contrôler l'accès aux documents du domaine Google Workspace.
Si vous activez les LCA par défaut dans la configuration du plug-in (defaultAcl.mode défini sur une valeur autre que none), le plug-in applique ces valeurs par défaut. Sinon, le plug-in accorde une autorisation de lecture pour l'ensemble du domaine. Consultez Paramètres de connecteur fournis par Google.
Prérequis
Avant de déployer le plug-in indexeur, rassemblez les composants suivants :
- Clé privée Google Workspace (contenant l'ID du compte de service). Consultez Configurer l'accès à l'API Cloud Search.
- ID de la source de données Google Workspace. Consultez Gérer les sources de données tierces.
Procédure de déploiement
- Installer Norconex HTTP Collector et le logiciel du plug-in
- Configurer Cloud Search
- Configurer Norconex HTTP Collector
- Configurer l'exploration du Web
- Démarrer l'exploration du Web et importer du contenu
Étape 1 : Installer Norconex HTTP Collector et le logiciel du plug-in
- Téléchargez le logiciel de validation Norconex à partir de la page de téléchargement de Norconex.
- Extrayez le logiciel dans
~/norconex/. Clonez le plug-in de validation :
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git cd norconex-committer-pluginVérifiez la version sélectionnée et créez le plug-in :
git checkout tags/v1-0.0.3 mvn packagePour ignorer les tests, utilisez
mvn package -DskipTests.Copiez le fichier JAR dans le répertoire
libde Norconex :cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/libExtrayez le fichier ZIP créé :
unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3Exécutez le script d'installation et indiquez le chemin d'accès complet au répertoire Norconex
lib:sh install.shSi vous êtes invité à choisir une option pour les fichiers en double, sélectionnez
1.
Étape 2 : Configurer Cloud Search
Créez sdk-configuration.properties dans le répertoire Norconex. Le fichier doit spécifier les paramètres suivants :
| Paramètre | Paramètre |
| ID de la source de données | api.sourceId = 1234567890abcdef
Obligatoire. ID de la source fourni par votre administrateur Google Workspace. |
| Compte de service | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Obligatoire. Fichier de clé du compte de service. |
Exemple de propriété sdk-configuration.properties :
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
Vous pouvez également inclure des paramètres tels que batch.* pour contrôler la façon dont le plug-in envoie les données. Consultez Paramètres de connecteur fournis par Google.
Pour renseigner les métadonnées, configurez les paramètres facultatifs suivants :
| Paramètre | Paramètre |
| Titre | itemMetadata.title.field=movieTitle |
| Type d'objet de schéma | itemMetadata.objectType=movie |
Étape 3 : Configurer Norconex HTTP Collector
Le plug-in inclut un exemple de fichier, minimum-config.xml.
Accédez au répertoire Norconex et copiez l'exemple :
cd ~/norconex/norconex-collector-http-VERSION/ cp examples/minimum/minimum-config.xml gcs-crawl-config.xmlModifiez
gcs-crawl-config.xmlpour ajouter ou remplacer les nœuds<committer>et<tagger>:
| Paramètre | Paramètre |
Nœud <committer> |
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
Obligatoire. Ajoutez-le sous le nœud <httpcollector>. |
<uploadFormat> |
<uploadFormat>raw</uploadFormat>
Facultatif. raw ou text. La valeur par défaut est raw. |
Exemple de propriété gcs-crawl-config.xml :
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
Étape 4 : Configurer l'exploration du Web
Configurez les nœuds <crawler> selon vos besoins, y compris :
- URL de démarrage
- Profondeur d'exploration maximale
- Nombre de threads
Consultez la page de configuration Norconex.
Étape 5 : Démarrer l'exploration du Web et importer du contenu
Exécutez le collecteur en mode local :
./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
Surveiller le robot d'exploration avec JEF Monitor
Norconex JEF (Job Execution Framework) Monitor fournit une vue graphique de la progression. Consultez Surveiller le robot d'exploration avec JEF Monitor.