Implementar un complemento indexador de Norconex HTTP Collector

Esta guía va dirigida a los administradores del complemento indexador de Norconex HTTP Collector en Google Cloud Search, es decir, a cualquier persona responsable de descargar, implementar, configurar y mantener el complemento indexador. En esta guía se asume que estás familiarizado con los sistemas operativos Linux y conoces los aspectos básicos del rastreo de la Web y Norconex HTTP Collector.

En ella se proporcionan instrucciones para realizar tareas clave relacionadas con la implementación del complemento indexador:

  • Descargar el software del complemento indexador.
  • Configurar Google Cloud Search.
  • Configurar Norconex HTTP Collector y el rastreo de la Web.
  • Iniciar el rastreo de la Web y la subida de contenido.

En esta guía no se facilita información sobre las tareas que debe realizar el administrador de G Suite para asociar Google Cloud Search al complemento indexador de Norconex HTTP Collector. Si necesitas más información acerca de esas tareas, consulta las instrucciones sobre cómo gestionar fuentes de datos de terceros.

Descripción general del complemento indexador de Cloud Search para Norconex HTTP Collector

De manera predeterminada, Google Cloud Search puede localizar, indexar y servir contenido procedente de productos de G Suite, por ejemplo, de Documentos de Google o Gmail. Con el complemento indexador para Norconex HTTP Collector, un rastreador web de código abierto para empresas, puedes ampliar el alcance de Google Cloud Search para servir contenido web a tus usuarios.

Archivos de propiedades de configuración

Para que el complemento indexador pueda rastrear la Web y subir contenido a la API Indexing, el administrador del complemento indexador debe proporcionar información específica durante el proceso de configuración, tal como se detalla en los pasos de la implementación de este documento.

Para usar el complemento indexador, debes definir las propiedades en dos archivos de configuración:

  • {gcs-crawl-config.xml}: contiene ajustes de Norconex HTTP Collector.
  • sdk-configuration.properties: contiene ajustes de Google Cloud Search.

Las propiedades de estos archivos permiten que el complemento indexador de Google Cloud Search y Norconex HTTP Collector se comuniquen entre sí.

Rastrear la Web y subir contenido

Una vez que hayas rellenado los archivos de configuración, tendrás los ajustes necesarios para iniciar el rastreo de la Web. Norconex HTTP Collector rastrea la Web, detecta contenido de documentos que se ajusta a su configuración y sube versiones originales binarias (o de texto) de dicho contenido a la API Indexing de Cloud Search, donde se indexa y, finalmente, se sirve a los usuarios.

Sistema operativo compatible

El complemento indexador de Google Cloud Search para Norconex HTTP Collector debe instalarse en Linux.

Versión de Norconex HTTP Collector compatible

El complemento indexador de Google Cloud Search es compatible con la versión 2.8.0 de Norconex HTTP Collector, que se proporciona con este software.

Compatibilidad con listas de control de acceso (LCA)

El complemento indexador admite el control de acceso a los documentos de un dominio de G Suite mediante el uso de listas de control de acceso (LCA).

Si las LCA predeterminadas están activadas en la configuración del complemento de Google Cloud Search (el valor asignado a defaultAcl.mode no es none y se ha definido defaultAcl.*), el complemento indexador primero intentará crear y aplicar una LCA predeterminada.

Si las LCA predeterminadas no están activadas, el complemento concederá permiso de lectura a todas las cuentas del dominio de G Suite.

Para obtener información detallada, consulta los parámetros de los conectores proporcionados por Google.

Requisitos

Antes de implementar el complemento indexador, asegúrate de que dispones de lo siguiente:

  • Java JRE 1.8 instalado en el ordenador donde se utilice el complemento indexador.
  • La información de G Suite necesaria para establecer las relaciones entre Google Cloud Search y Norconex HTTP Collector:

    Por lo general, el administrador de G Suite del dominio podrá proporcionarte estas credenciales.

Pasos de la implementación

Para implementar el complemento indexador, sigue estos pasos:

  1. Instala Norconex HTTP Collector y el software del complemento indexador
  2. Configura Google Cloud Search
  3. Configura Norconex HTTP Collector
  4. Configura el rastreo de la Web
  5. Inicia el rastreo de la Web y la subida de contenido

Paso 1: Instalar Norconex HTTP Collector y el software del complemento indexador

El software del complemento indexador de Cloud Search debe instalarse en un equipo host. Google proporciona este software en la siguiente distribución binaria predefinida:

norconex-committer-google-cloud-search-v1-0.0.2.zip

La distribución binaria también incluye el SDK Content Connector de Google Cloud Search.

Para instalar Norconex HTTP Collector y el complemento indexador de Google Cloud Search:

  1. Descarga el complemento Norconex HTTP Collector en el directorio de Norconex donde esté instalado HTTP Collector.

  2. Ve al directorio de Norconex:
    $ cd ~/norconex/norconex-collector-http-{version}/

  3. Descomprime el archivo de descarga:
    $ unzip norconex-committer-google-cloud-search-v1-0.0.1.zip

  4. Ve al directorio norconex-committer-google-cloud-search-{version}:
    $ cd ~/norconex/norconex-collector-http-{version}/ \ norconex-committer-google-cloud-search-v1-0.0.1.zip

  5. Ejecuta la secuencia de comandos de instalación para copiar el archivo .jar del complemento y todas las bibliotecas requeridas en el directorio del recopilador HTTP:
    $ sh install.sh ~/norconex/norconex-collector-http-{version}/lib

Para que el complemento indexador se conecte con Norconex HTTP Collector e indexe el contenido pertinente, debes crear el archivo de configuración de Cloud Search en el directorio de Norconex donde está instalado Norconex HTTP Collector. Te recomendamos que asignes el nombre sdk-configuration.properties al archivo de configuración de Cloud Search.

Este archivo de configuración debe contener pares clave-valor, que definen un parámetro. El archivo de configuración debe especificar los siguientes parámetros, que son necesarios para acceder a la fuente de datos de Cloud Search.

Ajuste Parámetro
ID de fuente de datos api.sourceId = 1234567890abcdef
Obligatorio. El ID de la fuente de Cloud Search configurado por el administrador de G Suite.
Cuenta de servicio api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Obligatorio. El archivo de clave de la cuenta de servicio de Cloud Search creado por el administrador de G Suite para acceder al complemento indexador.

En el ejemplo siguiente se muestra un archivo sdk-configuration.properties.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

El archivo de configuración también puede contener otros parámetros de configuración específicos de Google Cloud Search, que pueden definir la forma en que el complemento indexador envía datos a la API de Google Cloud Search. Algunos de estos parámetros son defaultAcl.* y batch.*

Si no defines un parámetro en el archivo de configuración, se utilizará el valor predeterminado, si estuviera disponible. Para ver descripciones detalladas, consulta los parámetros de los conectores proporcionados por Google.

Puedes configurar el complemento indexador de forma que se rellenen los metadatos y los datos estructurados del contenido que se va a indexar. Los valores que se deben rellenar en los campos de los metadatos y los datos estructurados se pueden extraer de las metaetiquetas del contenido HTML que se va a indexar, o bien se pueden especificar los valores predeterminados en el archivo de configuración.

Ajuste Parámetro
Título itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
De forma predeterminada, el complemento utiliza HTML title como título del documento que se va a indexar. Si el título no está presente, puedes utilizar el atributo de metadatos que contiene el valor correspondiente al título del documento o definir un valor predeterminado.
Marca de tiempo de creación itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
El atributo de metadatos que contiene el valor de la marca de tiempo de creación del documento.
Hora de última modificación itemMetadata.updatetime.field=releaseDate
itemMetadata.updatetime.defaultValue=1940-01-17
El atributo de metadatos que contiene el valor de la marca de tiempo de la última modificación del documento.
Idioma del documento itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
El idioma del contenido de los documentos que se van a indexar.
Tipo de objeto de esquema itemMetadata.objectType=movie
El tipo de objeto utilizado por el sitio web, tal como se indica en las definiciones de objeto del esquema de la fuente de datos. Si no se especifica esta propiedad, el conector no indexará ningún dato estructurado.

Nota: Esta propiedad de la configuración dirige a un valor en lugar de a un atributo de metadatos, y los sufijos .field y .defaultValue no se admiten.

Formatos de fecha y hora

Los formatos de fecha y hora indican los formatos esperados en los atributos de metadatos. Si el archivo de configuración no contiene este parámetro, se utilizarán los valores predeterminados. En la tabla siguiente, se muestra este parámetro.

Ajuste

Parámetro

Patrones de fecha y hora adicionales

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

Una lista separada por punto y coma (semicolon) de patrones java.time.formatDateTimeFormatter adicionales. Los patrones se utilizan para analizar valores de cadena para cualquier campo de fecha o fecha y hora en los metadatos o los esquemas. Aunque el valor predeterminado es una lista vacía, los formatos RFC 3339 y RFC 1123 son compatibles en todos los casos.

Paso 3: Configurar Norconex HTTP Collector

El archivo zip norconex-committer-google-cloud-search-{version}.zip incluye un archivo de configuración de muestra: minimum-config.xml.

Te recomendamos que comiences la configuración copiando el archivo de muestra:

  1. Cambia al directorio de Norconex HTTP Collector:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. Copia el archivo de configuración:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. Edita el archivo que has creado (en este ejemplo, gcs-crawl-config.xml) y añade o reemplaza los nodos <committer> y <tagger>, tal como se describe en la tabla siguiente.
Ajuste Parámetro
Nodo Obligatorio. Para activar el complemento, debes añadir como un nodo secundario del nodo raíz .
raw Opcional. El formato en el que el complemento indexador inserta el contenido del documento en la API del indexador de Google Cloud Search. Los valores admitidos son:
  • raw: el complemento indexador inserta el contenido original del documento sin convertirlo.
  • text: el complemento indexador inserta contenido textual extraído. El valor predeterminado es raw.
Nodo BinaryContent Tagger \ Obligatorio si el valor de es raw. En este caso, el complemento indexador necesita que el campo de contenido binario del documento esté disponible. Debes añadir el nodo BinaryContentTagger como un elemento secundario del nodo / .

En el ejemplo siguiente se muestra la modificación que se debe realizar en gcs-crawl-config.xml.

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <!-- Optional, value="[raw|text]". Default value: raw -->
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Paso 4: Configurar el rastreo de la Web

Antes de empezar a rastrear la Web, debes configurar el rastreo de modo que solo incluya la información que tu organización quiera que se muestre en los resultados de las búsquedas. Los ajustes más importantes en el rastreo de la Web se incluyen en los nodos <crawler> y pueden ser, entre otros:

  • URLs de inicio
  • Profundidad máxima del rastreo
  • Número de cadenas

Puedes cambiar estos valores de configuración conforme a tus necesidades. Para obtener información más detallada sobre cómo configurar un rastreo de la Web, así como una lista completa de los parámetros de configuración disponibles, consulta la página de configuración de Norconex HTTP Collector.

Paso 5: Iniciar el rastreo de la Web y la subida de contenido

Una vez que hayas instalado y configurado el complemento indexador, podrás ejecutarlo en su propio modo local.

En el siguiente ejemplo se asume que los componentes necesarios se ubican en el directorio local de un sistema Linux. Ejecuta el siguiente comando:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Supervisar el rastreador con JEF Monitor

Norconex JEF (Job Execution Framework) Monitor es una herramienta gráfica que permite supervisar el progreso de los procesos y las tareas del rastreador web de Norconex (HTTP Collector). Si quieres ver instrucciones para configurar esta herramienta, consulta el artículo sobre cómo supervisar el progreso de un rastreador con JEF Monitor.