Implantar o plug-in indexador do Norconex HTTP Collector

Este guia é destinado aos administradores responsáveis por fazer o download, implantar e manter o plug-in indexador Norconex HTTP Collector para Google Cloud Search. É necessário ter conhecimento de Linux, princípios básicos de rastreamento da Web, XML e o Norconex HTTP Collector.

Este guia inclui instruções para:

  • Faça o download do software do plug-in indexador.
  • Configure o Cloud Search.
  • Configure o Norconex HTTP Collector e o rastreamento da Web.
  • Inicie o rastreamento da Web e faça upload do conteúdo.

As informações sobre as tarefas que o administrador do Google Workspace precisa executar não estão presentes neste guia. Para mais informações sobre essas tarefas, consulte Gerenciar fontes de dados de terceiros.

Visão geral do plug-in indexador Norconex HTTP Collector

Por padrão, o Cloud Search pode detectar, indexar e exibir conteúdo de produtos do Google Workspace, como o Google Docs e o Gmail. É possível estender isso para incluir conteúdo da Web ao implantar o plug-in do indexador do Norconex HTTP Collector, um rastreador da Web de código aberto para empresas.

Arquivos de propriedades de configuração

Para permitir que o plug-in rastreie e faça upload de conteúdo, é necessário fornecer informações específicas em dois arquivos de configuração:

  • {gcs-crawl-config.xml}: configurações do Norconex HTTP Collector.
  • sdk-configuration.properties: configurações do Cloud Search.

Rastreamento da Web e upload de conteúdo

Depois de preencher os arquivos de configuração, você pode iniciar o rastreamento da Web. O Norconex HTTP Collector rastreia a Web e faz upload do conteúdo original de documentos binários ou de texto para a API Indexing do Cloud Search.

Requisitos do sistema

  • Sistema operacional: apenas Linux.
  • Versão do Norconex: 2.8.0.
  • Software: Java JRE 1.8.

Compatibilidade com ACLs

O plug-in indexador é compatível com listas de controle de acesso (ACLs) para controlar o acesso a documentos no domínio do Google Workspace.

Se você ativar as ACLs padrão na configuração do plug-in (defaultAcl.mode definido como diferente de none), o plug-in vai aplicar esses padrões. Caso contrário, o plug-in concede permissão de leitura a todo o domínio. Consulte Parâmetros do conector fornecidos pelo Google.

Pré-requisitos

Antes de implantar o plug-in do indexador, reúna estes componentes:

Etapas da implantação

  1. Instale o Norconex HTTP Collector e o software do plug-in
  2. Configurar o Cloud Search
  3. Configurar o Norconex HTTP Collector
  4. Configurar o rastreamento da Web
  5. Iniciar um rastreamento da Web e fazer upload do conteúdo

Etapa 1: instale o Norconex HTTP Collector e o software de plug-in

  1. Faça o download do software confirmador da Norconex na página de download da empresa.
  2. Extraia o software para ~/norconex/.
  3. Clone o plug-in committer:

    git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
    cd norconex-committer-plugin
    
  4. Confira a versão selecionada e crie o plug-in:

    git checkout tags/v1-0.0.3
    mvn package
    

    Para pular testes, use mvn package -DskipTests.

  5. Copie o arquivo JAR para o diretório lib do Norconex:

    cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib
    
  6. Extraia o arquivo ZIP criado:

    unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
    cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    
  7. Execute o script de instalação e forneça o caminho completo para o diretório lib do Norconex:

    sh install.sh
    

    Se você receber uma solicitação para arquivos duplicados, selecione a opção 1.

Etapa 2: configurar o Cloud Search

Crie sdk-configuration.properties no diretório Norconex. O arquivo precisa especificar estes parâmetros:

Configuração Parâmetro
Código da origem de dados api.sourceId = 1234567890abcdef
Obrigatório. O ID da fonte do administrador do Google Workspace.
Conta de serviço api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Obrigatório. O arquivo de chave da conta de serviço.

sdk-configuration.propertiesExemplo

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

Também é possível incluir parâmetros como batch.* para controlar como o plug-in envia dados. Consulte Parâmetros do conector fornecidos pelo Google.

Para preencher metadados, configure estes parâmetros opcionais:

Configuração Parâmetro
Título itemMetadata.title.field=movieTitle
Tipo de objeto de esquema itemMetadata.objectType=movie

Etapa 3: configure o Norconex HTTP Collector

O plug-in inclui um arquivo de amostra, minimum-config.xml.

  1. Mude para o diretório do Norconex e copie o exemplo:

    cd ~/norconex/norconex-collector-http-VERSION/
    cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
    
  2. Edite gcs-crawl-config.xml para adicionar ou substituir nós <committer> e <tagger>:

Configuração Parâmetro
<committer> <committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
Obrigatório. Adicione isso abaixo do nó <httpcollector>.
<uploadFormat> <uploadFormat>raw</uploadFormat>
Opcional. raw ou text. O padrão é raw.

gcs-crawl-config.xmlExemplo

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Etapa 4: configurar o rastreamento da Web

Configure os nós <crawler> de acordo com suas necessidades, incluindo:

  • URLs de início
  • Profundidade máxima de rastreamento
  • Número de threads

Consulte a página de configuração do Norconex.

Etapa 5: inicie um rastreamento da Web e fazer upload do conteúdo

Execute o coletor no modo local:

./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Monitorar o rastreador com o JEF Monitor

O Norconex JEF (Job Execution Framework) Monitor oferece uma visualização gráfica do progresso. Consulte Monitorar o rastreador com o JEF Monitor.