Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Implementa un complemento indexador del colector HTTP de Norconex

Esta guía está destinada a los administradores responsables de descargar, implementar y mantener el complemento indexador del recopilador HTTP de Norconex de Google Cloud Search. Debes estar familiarizado con Linux, los aspectos principales del rastreo web, XML y el colector HTTP de Norconex.

En esta guía, se incluyen instrucciones para realizar las siguientes acciones:

Descarga el software del complemento indexador.
Configura Cloud Search.
Configura el colector HTTP de Norconex y el rastreo web.
Inicia el rastreo web y carga el contenido.

La información sobre las tareas que debe realizar el administrador de Google Workspace no aparece en esta guía. Para obtener información sobre esas tareas, consulta Administra fuentes de datos de terceros.

Descripción general del complemento indexador del recopilador HTTP de Norconex

De forma predeterminada, Cloud Search puede descubrir, indexar y entregar contenido de los productos de Google Workspace, como Documentos de Google y Gmail. Puedes ampliarlo para incluir contenido web si implementas el complemento indexador para el Colector HTTP de Norconex, un rastreador web empresarial de código abierto.

Archivos de propiedades de configuración

Para habilitar el complemento para que rastree y suba contenido, debes proporcionar información específica en dos archivos de configuración:

{gcs-crawl-config.xml}: Es la configuración del Colector HTTP de Norconex.
sdk-configuration.properties: Es la configuración de Cloud Search.

Rastreo web y carga de contenido

Después de propagar los archivos de configuración, puedes iniciar el rastreo web. El recopilador HTTP de Norconex rastrea la Web y sube contenido de documentos binarios o de texto originales a la API de Indexing de Cloud Search.

Requisitos del sistema

Sistema operativo: Solo Linux.
Versión de Norconex: Versión 2.8.0
Software: JRE 1.8 de Java.

Compatibilidad de LCA

El complemento del indexador admite Listas de control de acceso (LCA) para controlar el acceso a documentos en el dominio de Google Workspace.

Si habilitas las LCA predeterminadas en la configuración del complemento (defaultAcl.mode establecido en un valor distinto de none), el complemento aplica estos valores predeterminados. De lo contrario, el complemento otorga permiso de lectura a todo el dominio. Consulta los parámetros de conectores que proporciona Google.

Requisitos previos

Antes de implementar el complemento del indexador, reúne estos componentes:

Clave privada de Google Workspace (que contiene el ID de cuenta de servicio). Consulta Configura el acceso a la API de Cloud Search.
Es el ID de la fuente de datos de Google Workspace. Consulta Administra fuentes de datos de terceros.

Pasos para la implementación

Instala el recopilador HTTP de Norconex y el software del complemento
Configura Cloud Search
Configura el recopilador HTTP de Norconex
Configura el rastreo web
Inicia un rastreo web y carga de contenido

Paso 1: Instala el colector HTTP de Norconex y el software del complemento

Descarga el software de confirmación de Norconex desde la página de descarga de Norconex.
Extrae el software a ~/norconex/.

Clona el complemento committer:

git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
cd norconex-committer-plugin

Revisa la versión seleccionada y compila el complemento:
```
git checkout tags/v1-0.0.3
mvn package
```
Para omitir pruebas, usa mvn package -DskipTests.

Copia el archivo JAR en el directorio lib de Norconex:

cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib

Extrae el archivo ZIP compilado:

unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3

Ejecuta la secuencia de comandos de instalación y proporciona la ruta completa al directorio lib de Norconex:
```
sh install.sh
```
Si se te solicita que elijas entre archivos duplicados, selecciona la opción 1.

Paso 2: Configura Cloud Search

Crea sdk-configuration.properties en el directorio de Norconex. El archivo debe especificar los siguientes parámetros:

Configuración	Parámetro
ID de la fuente de datos	`api.sourceId = 1234567890abcdef` Obligatorio. Es el ID de la fuente que te proporcionó tu administrador de Google Workspace.
Cuenta de servicio	`api.serviceAccountPrivateKeyFile = ./PrivateKey.json` Obligatorio. Es el archivo de claves de la cuenta de servicio.

Ejemplo de sdk-configuration.properties:

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

También puedes incluir parámetros como batch.* para controlar cómo el complemento envía datos. Consulta los parámetros de conectores que proporciona Google.

Para completar los metadatos, configura estos parámetros opcionales:

Parámetro de configuración	Parámetro
Título	`itemMetadata.title.field=movieTitle`
Tipo de objeto de esquema	`itemMetadata.objectType=movie`

Paso 3: Configura el colector HTTP de Norconex

El complemento incluye un archivo de muestra, minimum-config.xml.

Cambia al directorio de Norconex y copia la muestra:

cd ~/norconex/norconex-collector-http-VERSION/
cp examples/minimum/minimum-config.xml gcs-crawl-config.xml

Edita gcs-crawl-config.xml para agregar o reemplazar los nodos <committer> y <tagger>:

Configuración	Parámetro
Nodo `<committer>`	`<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">` Obligatorio. Agrégalo debajo del nodo `<httpcollector>`.
`<uploadFormat>`	`<uploadFormat>raw</uploadFormat>` Opcional. `raw` o `text`. El valor predeterminado es `raw`.

Ejemplo de gcs-crawl-config.xml:

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Paso 4: Configura el rastreo web

Configura los nodos <crawler> según tus necesidades, incluidos los siguientes:

URL de inicio
Profundidad máxima del rastreo
Cantidad de subprocesos

Consulta la página de configuración de Norconex.

Paso 5: Inicia un rastreo web y la carga de contenido

Ejecuta el recopilador en modo local:

./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Supervisa el rastreador con JEF Monitor

JEF (Job Execution Framework) Monitor de Norconex proporciona una vista gráfica del progreso. Consulta Supervisa tu rastreador con JEF Monitor.