Implementar un complemento indexador de recopiladores HTTP de Norconex

Esta guía está destinada a los administradores del complemento indexador Norconex HTTP Collector de Google Cloud Search, es decir, cualquier persona responsable de descargar, implementar, configurar y mantener el complemento indexador. La guía asume que está familiarizado con los sistemas operativos Linux, los fundamentos del rastreo web, XML y Norconex HTTP Collector .

Esta guía incluye instrucciones para realizar tareas clave relacionadas con la implementación del complemento indexador:

  • Descargue el software del complemento indexador
  • Configurar la búsqueda en la nube de Google
  • Configurar el recopilador HTTP de Norconex y el rastreo web
  • Inicie el rastreo web y cargue contenido

La información sobre las tareas que debe realizar el administrador de Google Workspace para asignar Google Cloud Search al complemento indexador Norconex HTTP Collector no aparece en esta guía. Para obtener información sobre esas tareas, consulte Administrar orígenes de datos de terceros .

Descripción general del complemento del indexador del recopilador HTTP Norconex de Cloud Search

De forma predeterminada, Google Cloud Search puede descubrir, indexar y publicar contenido de los productos de Google Workspace, como Google Docs y Gmail. Puede ampliar el alcance de Google Cloud Search para incluir la entrega de contenido web a sus usuarios mediante la implementación del complemento indexador para Norconex HTTP Collector , un rastreador web empresarial de código abierto.

Archivos de propiedades de configuración

Para permitir que el complemento indexador realice rastreos web y cargue contenido a la API de indexación, usted, como administrador del complemento indexador, proporciona información específica durante los pasos de configuración descritos en este documento en Pasos de implementación .

Para usar el complemento indexador, debe establecer propiedades en dos archivos de configuración:

  • {gcs-crawl-config.xml} : contiene configuraciones para el recopilador HTTP de Norconex.
  • sdk-configuration.properties : contiene configuraciones para Google Cloud Search.

Las propiedades de cada archivo permiten que el complemento indexador de Google Cloud Search y el recopilador HTTP de Norconex se comuniquen entre sí.

Rastreo web y carga de contenido

Una vez que haya rellenado los archivos de configuración, tendrá los ajustes necesarios para iniciar el rastreo web . Norconex HTTP Collector rastrea la web, descubre el contenido del documento que pertenece a su configuración y carga las versiones binarias (o de texto) originales del contenido del documento a la API de indexación de Cloud Search, donde se indexa y, en última instancia, se entrega a sus usuarios.

Sistema operativo compatible

El complemento indexador de Google Cloud Search Norconex HTTP Collector debe estar instalado en Linux.

Versión del recopilador HTTP de Norconex compatible

El complemento indexador Norconex HTTP Collector de Google Cloud Search es compatible con la versión 2.8.0.

Soporte de LCA

El complemento indexador admite el control del acceso a los documentos en el dominio de Google Workspace mediante el uso de listas de control de acceso (ACL).

Si las ACL predeterminadas están habilitadas en la configuración del complemento de Google Cloud Search ( defaultAcl.mode establecido en otro que none y configurado con defaultAcl.* ), el complemento indexador primero intenta crear y aplicar una ACL predeterminada.

Si las ACL predeterminadas no están habilitadas, el complemento vuelve a otorgar permiso de lectura a todo el dominio de Google Workspace.

Para obtener descripciones detalladas de los parámetros de configuración de ACL, consulte Parámetros de conector proporcionados por Google .

requisitos previos

Antes de implementar el complemento indexador, asegúrese de tener los siguientes componentes necesarios:

  • Java JRE 1.8 instalado en una computadora que ejecuta el complemento indexador
  • Información de Google Workspace requerida para establecer relaciones entre Cloud Search y Norconex HTTP Collector:

    Por lo general, el administrador de Google Workspace del dominio puede proporcionarle estas credenciales.

Pasos de implementación

Para implementar el complemento indexador, siga estos pasos:

  1. Instale Norconex HTTP Collector y el software del complemento indexador
  2. Configurar la búsqueda en la nube de Google
  3. Configurar el recopilador HTTP de Norconex
  4. Configurar el rastreo web
  5. Iniciar un rastreo web y cargar contenido

Paso 1: Instale Norconex HTTP Collector y el software del complemento indexador

  1. Descargue el software de confirmación de Norconex desde esta página.
  2. Descomprima el software descargado en la carpeta ~/norconex/
  3. Clone el complemento de confirmación de GitHub. git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git y luego cd norconex-committer-plugin
  4. Consulte la versión deseada del complemento de confirmación y cree el archivo ZIP: git checkout tags/v1-0.0.3 y mvn package (para omitir las pruebas al crear el conector, use mvn package -DskipTests ).
  5. cd target
  6. Copie el archivo jar del complemento integrado en el directorio lib de norconex. cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. Extraiga el archivo ZIP que acaba de crear y luego descomprima el archivo: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. Ejecute el script de instalación para copiar el .jar del complemento y todas las bibliotecas requeridas en el directorio del recopilador http:
    1. Cambie al complemento de confirmación extraído descomprimido arriba: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. Ejecute $ sh install.sh y proporcione la ruta completa a norconex/norconex-collector-http-{version}/lib como el directorio de destino cuando se le solicite.
    3. Si se encuentran archivos jar duplicados, seleccione la opción 1 (Copiar el Jar de origen solo si es mayor o la misma versión que el Jar de destino después de cambiar el nombre del Jar de destino).

Paso 2: configurar la búsqueda en la nube de Google

Para que el complemento indexador se conecte a Norconex HTTP Collector e indexe el contenido relevante, debe crear el archivo de configuración de Cloud Search en el directorio de Norconex donde está instalado Norconex HTTP Collector. Google recomienda que asigne al archivo de configuración de Cloud Search el nombre sdk-configuration.properties .

Este archivo de configuración debe contener pares clave/valor que definan un parámetro. El archivo de configuración debe especificar al menos los siguientes parámetros, que son necesarios para acceder a la fuente de datos de Cloud Search.

Entorno Parámetro
Identificación de la fuente de datos api.sourceId = 1234567890abcdef
Requerido. El ID de origen de Cloud Search configurado por el administrador de Google Workspace.
cuenta de servicio api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Requerido. El archivo de clave de la cuenta del servicio de Cloud Search que creó el administrador de Google Workspace para acceder al complemento del indexador.

El siguiente ejemplo muestra un archivo sdk-configuration.properties .

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

El archivo de configuración también puede contener parámetros de configuración proporcionados por Google. Estos parámetros pueden afectar la forma en que este complemento envía datos a la API de Google Cloud Search. Por ejemplo, el conjunto de parámetros batch.* identifica cómo el conector combina las solicitudes.

Si no define un parámetro en el archivo de configuración, se utiliza el valor predeterminado, si está disponible. Para obtener descripciones detalladas de cada parámetro, consulte Parámetros de conector proporcionados por Google .

Puede configurar el complemento indexador para completar metadatos y datos estructurados para el contenido que se indexa. Los valores que se completarán para los metadatos y los campos de datos estructurados se pueden extraer de las etiquetas meta en el contenido HTML que se indexa o los valores predeterminados se pueden especificar en el archivo de configuración.

Entorno Parámetro
Título itemMetadata.title.field= movieTitle
itemMetadata.title.defaultValue= Gone with the Wind
De forma predeterminada, el complemento utiliza el HTML title como título del documento que se indexa. En caso de que falte el título, puede consultar el atributo de metadatos que contiene el valor correspondiente al título del documento o establecer un valor predeterminado.
Marca de tiempo creada itemMetadata.createTime.field= releaseDate
itemMetadata.createTime.defaultValue= 1940-01-17
El atributo de metadatos que contiene el valor de la marca de tiempo de creación del documento.
Última hora de modificación itemMetadata.updateTime.field= releaseDate
itemMetadata.updateTime.defaultValue= 1940-01-17
El atributo de metadatos que contiene el valor de la marca de tiempo de la última modificación del documento.
Idioma del documento itemMetadata.contentLanguage.field= languageCode
itemMetadata.contentLanguage.defaultValue= en-US
El idioma del contenido de los documentos que se indexan.
Tipo de objeto de esquema itemMetadata.objectType= movie
El tipo de objeto utilizado por el sitio, tal como se define en las definiciones de objeto de esquema de fuente de datos . El conector no indexará ningún dato estructurado si no se especifica esta propiedad.

Nota : esta propiedad de configuración apunta a un valor en lugar de un atributo de metadatos, y los .field y .defaultValue no son compatibles.

Formatos de fecha y hora

Los formatos de fecha y hora especifican los formatos esperados en los atributos de metadatos. Si el archivo de configuración no contiene este parámetro, se utilizan los valores predeterminados. La siguiente tabla muestra este parámetro.

Entorno

Parámetro

Patrones de fecha y hora adicionales

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

Una lista separada por punto y coma de patrones java.time.format.DateTimeFormatter adicionales. Los patrones se utilizan al analizar valores de cadena para cualquier campo de fecha o de fecha y hora en los metadatos o el esquema. El valor predeterminado es una lista vacía, pero siempre se admiten los formatos RFC 3339 y RFC 1123.

Paso 3: configurar el recopilador HTTP de Norconex

El archivo zip norconex-committer-google-cloud-search-{version}.zip incluye un archivo de configuración de muestra, minimum-config.xml .

Google recomienda que comience la configuración copiando el archivo de muestra:

  1. Cambie al directorio del recopilador HTTP de Norconex:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. Copie el archivo de configuración:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. Edite el archivo recién creado (en este ejemplo, gcs-crawl-config.xml ) y agregue o reemplace los nodos <committer> y <tagger> existentes como se describe en la siguiente tabla.
Entorno Parámetro
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

Requerido. Para habilitar el complemento, debe agregar un nodo <committer> como elemento secundario del nodo raíz <httpcollector> .
<UploadFormat> <uploadFormat>raw</uploadFormat>
Opcional. El formato en el que el complemento del indexador envía el contenido del documento a la API del indexador de Google Cloud Search. Los valores válidos son:
  • raw : el complemento del indexador empuja el contenido del documento original sin convertir.
  • text : el complemento indexador empuja el contenido textual extraído.

El valor predeterminado es raw .
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
Obligatorio si el valor de <UploadFormat> es raw . En este caso, el complemento indexador necesita que el campo de contenido binario del documento esté disponible.

Debe agregar el BinaryContentTagger <tagger> como elemento secundario del nodo <importer> / <preParseHandlers> .

El siguiente ejemplo muestra la modificación requerida para gcs-crawl-config.xml .

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <!-- Optional, value="[raw|text]". Default value: raw -->
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Paso 4: configurar el rastreo web

Antes de iniciar un rastreo web, debe configurar el rastreo para que solo incluya la información que su organización desea que esté disponible en los resultados de búsqueda. La configuración más importante para el rastreo web forma parte de los nodos <crawler> y puede incluir:

  • URL de inicio
  • Profundidad máxima del rastreo
  • Número de hilos

Cambie estos valores de configuración según sus necesidades. Para obtener información más detallada sobre cómo configurar un rastreo web, así como una lista completa de los parámetros de configuración disponibles, consulte la página de configuración del recopilador HTTP.

Paso 5: Inicie un rastreo web y una carga de contenido

Una vez que haya instalado y configurado el complemento indexador, puede ejecutarlo solo en modo local.

El siguiente ejemplo asume que los componentes requeridos están ubicados en el directorio local en un sistema Linux. Ejecute el siguiente comando:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Supervise el rastreador con JEF Monitor

Norconex JEF (Job Execution Framework) Monitor es una herramienta gráfica para monitorear el progreso de los procesos y trabajos de Norconex Web Crawler (HTTP Collector). Para obtener un tutorial completo sobre cómo configurar esta utilidad, visite Monitoree el progreso de su rastreador con JEF Monitor .