Esta guía está destinada a los administradores responsables de descargar, implementar y mantener el complemento indexador del colector HTTP de Norconex de Google Cloud Search. Debes tener conocimientos sobre Linux, los conceptos básicos del rastreo web, XML y el colector HTTP de Norconex.
En esta guía, se incluyen instrucciones para realizar las siguientes acciones:
- Descarga el software del complemento indexador.
- Configura Cloud Search.
- Configura el colector HTTP de Norconex y el rastreo web.
- Inicia el rastreo web y carga el contenido.
La información sobre las tareas que debe realizar el administrador de Google Workspace no aparece en esta guía. Para obtener información sobre esas tareas, consulta Administra fuentes de datos de terceros.
Descripción general del complemento indexador del colector HTTP de Norconex
De forma predeterminada, Cloud Search puede descubrir, indexar y entregar contenido de los productos de Google Workspace, como Documentos de Google y Gmail. Puedes ampliarlo para incluir contenido web si implementas el complemento indexador para el Colector HTTP de Norconex, un rastreador web empresarial de código abierto.
Archivos de propiedades de configuración
Para habilitar el complemento para que rastree y suba contenido, debes proporcionar información específica en dos archivos de configuración:
{gcs-crawl-config.xml}: Es la configuración del Colector HTTP de Norconex.sdk-configuration.properties: Es la configuración de Cloud Search.
Rastreo web y carga de contenido
Después de propagar los archivos de configuración, puedes iniciar el rastreo web. El colector HTTP de Norconex rastrea la Web y sube contenido original de documentos binarios o de texto a la API de indexación de Cloud Search.
Requisitos del sistema
- Sistema operativo: Solo Linux.
- Versión de Norconex: Versión 2.8.0
- Software: JRE 1.8 de Java.
Compatibilidad de LCA
El complemento del indexador admite Listas de control de acceso (LCA) para controlar el acceso a documentos en el dominio de Google Workspace.
Si habilitas las LCA predeterminadas en la configuración del complemento (defaultAcl.mode establecido en un valor distinto de none), el complemento aplica estos valores predeterminados. De lo contrario, el complemento otorga permiso de lectura a todo el dominio. Consulta los parámetros de conectores que proporciona Google.
Requisitos previos
Antes de implementar el complemento del indexador, reúne estos componentes:
- Clave privada de Google Workspace (que contiene el ID de la cuenta de servicio). Consulta Configura el acceso a la API de Cloud Search.
- Es el ID de la fuente de datos de Google Workspace. Consulta Administra fuentes de datos de terceros.
Pasos para la implementación
- Instala el colector HTTP de Norconex y el software del complemento
- Configura Cloud Search
- Configura el colector HTTP de Norconex
- Configura el rastreo web
- Inicia un rastreo web y carga de contenido
Paso 1: Instala el colector HTTP de Norconex y el software del complemento
- Descarga el software de confirmación de Norconex desde la página de descarga de Norconex.
- Extrae el software a
~/norconex/. Clona el complemento committer:
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git cd norconex-committer-pluginRevisa la versión seleccionada y compila el complemento:
git checkout tags/v1-0.0.3 mvn packagePara omitir pruebas, usa
mvn package -DskipTests.Copia el archivo JAR en el directorio
libde Norconex:cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/libExtrae el archivo ZIP compilado:
unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3Ejecuta la secuencia de comandos de instalación y proporciona la ruta completa al directorio
libde Norconex:sh install.shSi se te solicita que elijas entre archivos duplicados, selecciona la opción
1.
Paso 2: Configura Cloud Search
Crea sdk-configuration.properties en el directorio de Norconex. El archivo debe especificar los siguientes parámetros:
| Configuración | Parámetro |
| ID de la fuente de datos | api.sourceId = 1234567890abcdef
Obligatorio. Es el ID de la fuente que te proporcionó tu administrador de Google Workspace. |
| Cuenta de servicio | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Obligatorio. Es el archivo de claves de la cuenta de servicio. |
Ejemplo de sdk-configuration.properties:
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
También puedes incluir parámetros como batch.* para controlar cómo el complemento envía datos. Consulta los parámetros de conectores que proporciona Google.
Para completar los metadatos, configura estos parámetros opcionales:
| Parámetro de configuración | Parámetro |
| Título | itemMetadata.title.field=movieTitle |
| Tipo de objeto de esquema | itemMetadata.objectType=movie |
Paso 3: Configura el colector HTTP de Norconex
El complemento incluye un archivo de muestra, minimum-config.xml.
Cambia al directorio de Norconex y copia la muestra:
cd ~/norconex/norconex-collector-http-VERSION/ cp examples/minimum/minimum-config.xml gcs-crawl-config.xmlEdita
gcs-crawl-config.xmlpara agregar o reemplazar los nodos<committer>y<tagger>:
| Configuración | Parámetro |
Nodo <committer> |
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
Obligatorio. Agrégalo debajo del nodo <httpcollector>. |
<uploadFormat> |
<uploadFormat>raw</uploadFormat>
Opcional. raw o text. El valor predeterminado es raw. |
Ejemplo de gcs-crawl-config.xml:
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
Paso 4: Configura el rastreo web
Configura los nodos <crawler> según tus necesidades, incluidos los siguientes:
- URL de inicio
- Profundidad máxima del rastreo
- Cantidad de subprocesos
Consulta la página de configuración de Norconex.
Paso 5: Inicia un rastreo web y la carga de contenido
Ejecuta el recopilador en modo local:
./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
Supervisa el rastreador con JEF Monitor
JEF (Job Execution Framework) Monitor de Norconex proporciona una vista gráfica del progreso. Consulta Supervisa tu rastreador con JEF Monitor.