Este guia é destinado aos administradores responsáveis por fazer o download, implantar e manter o plug-in indexador Norconex HTTP Collector para Google Cloud Search. É necessário ter conhecimento de Linux, princípios básicos de rastreamento da Web, XML e o Norconex HTTP Collector.
Este guia inclui instruções para:
- Faça o download do software do plug-in indexador.
- Configure o Cloud Search.
- Configure o Norconex HTTP Collector e o rastreamento da Web.
- Inicie o rastreamento da Web e faça upload do conteúdo.
As informações sobre as tarefas que o administrador do Google Workspace precisa executar não estão presentes neste guia. Para mais informações sobre essas tarefas, consulte Gerenciar fontes de dados de terceiros.
Visão geral do plug-in indexador Norconex HTTP Collector
Por padrão, o Cloud Search pode detectar, indexar e exibir conteúdo de produtos do Google Workspace, como o Google Docs e o Gmail. É possível estender isso para incluir conteúdo da Web ao implantar o plug-in do indexador do Norconex HTTP Collector, um rastreador da Web de código aberto para empresas.
Arquivos de propriedades de configuração
Para permitir que o plug-in rastreie e faça upload de conteúdo, é necessário fornecer informações específicas em dois arquivos de configuração:
{gcs-crawl-config.xml}: configurações do Norconex HTTP Collector.sdk-configuration.properties: configurações do Cloud Search.
Rastreamento da Web e upload de conteúdo
Depois de preencher os arquivos de configuração, você pode iniciar o rastreamento da Web. O Norconex HTTP Collector rastreia a Web e faz upload do conteúdo original de documentos binários ou de texto para a API Indexing do Cloud Search.
Requisitos do sistema
- Sistema operacional: apenas Linux.
- Versão do Norconex: 2.8.0.
- Software: Java JRE 1.8.
Compatibilidade com ACLs
O plug-in indexador é compatível com listas de controle de acesso (ACLs) para controlar o acesso a documentos no domínio do Google Workspace.
Se você ativar as ACLs padrão na configuração do plug-in (defaultAcl.mode definido como
diferente de none), o plug-in vai aplicar esses padrões. Caso contrário, o plug-in
concede permissão de leitura a todo o domínio. Consulte Parâmetros do conector fornecidos pelo Google.
Pré-requisitos
Antes de implantar o plug-in do indexador, reúna estes componentes:
- Chave privada do Google Workspace (que contém o ID da conta de serviço). Consulte Configurar o acesso à API Cloud Search.
- ID da fonte de dados do Google Workspace. Consulte Gerenciar fontes de dados de terceiros.
Etapas da implantação
- Instale o Norconex HTTP Collector e o software do plug-in
- Configurar o Cloud Search
- Configurar o Norconex HTTP Collector
- Configurar o rastreamento da Web
- Iniciar um rastreamento da Web e fazer upload do conteúdo
Etapa 1: instale o Norconex HTTP Collector e o software de plug-in
- Faça o download do software confirmador da Norconex na página de download da empresa.
- Extraia o software para
~/norconex/. Clone o plug-in committer:
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git cd norconex-committer-pluginConfira a versão selecionada e crie o plug-in:
git checkout tags/v1-0.0.3 mvn packagePara pular testes, use
mvn package -DskipTests.Copie o arquivo JAR para o diretório
libdo Norconex:cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/libExtraia o arquivo ZIP criado:
unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3Execute o script de instalação e forneça o caminho completo para o diretório
libdo Norconex:sh install.shSe você receber uma solicitação para arquivos duplicados, selecione a opção
1.
Etapa 2: configurar o Cloud Search
Crie sdk-configuration.properties no diretório Norconex. O arquivo precisa especificar estes parâmetros:
| Configuração | Parâmetro |
| Código da origem de dados | api.sourceId = 1234567890abcdef
Obrigatório. O ID da fonte do administrador do Google Workspace. |
| Conta de serviço | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Obrigatório. O arquivo de chave da conta de serviço. |
sdk-configuration.propertiesExemplo
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
Também é possível incluir parâmetros como batch.* para controlar como o plug-in envia
dados. Consulte Parâmetros do conector fornecidos pelo Google.
Para preencher metadados, configure estes parâmetros opcionais:
| Configuração | Parâmetro |
| Título | itemMetadata.title.field=movieTitle |
| Tipo de objeto de esquema | itemMetadata.objectType=movie |
Etapa 3: configure o Norconex HTTP Collector
O plug-in inclui um arquivo de amostra, minimum-config.xml.
Mude para o diretório do Norconex e copie o exemplo:
cd ~/norconex/norconex-collector-http-VERSION/ cp examples/minimum/minimum-config.xml gcs-crawl-config.xmlEdite
gcs-crawl-config.xmlpara adicionar ou substituir nós<committer>e<tagger>:
| Configuração | Parâmetro |
Nó <committer> |
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
Obrigatório. Adicione isso abaixo do nó <httpcollector>. |
<uploadFormat> |
<uploadFormat>raw</uploadFormat>
Opcional. raw ou text. O padrão é
raw. |
gcs-crawl-config.xmlExemplo
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
Etapa 4: configurar o rastreamento da Web
Configure os nós <crawler> de acordo com suas necessidades, incluindo:
- URLs de início
- Profundidade máxima de rastreamento
- Número de threads
Consulte a página de configuração do Norconex.
Etapa 5: inicie um rastreamento da Web e fazer upload do conteúdo
Execute o coletor no modo local:
./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
Monitorar o rastreador com o JEF Monitor
O Norconex JEF (Job Execution Framework) Monitor oferece uma visualização gráfica do progresso. Consulte Monitorar o rastreador com o JEF Monitor.