Criar um conector de conteúdo

Um conector de conteúdo é um programa de software que transfere dados em um repositório corporativo e preenche uma fonte de dados. O Google oferece as seguintes opções para desenvolver conectores de conteúdo:

O SDK do Content Connector. Essa é uma boa opção para programadores Java. O SDK é um wrapper da API REST que permite criar conectores rapidamente. Para criar um conector de conteúdo usando o SDK, consulte Criar um conector de conteúdo usando o SDK do Content Connector.
Uma API REST de baixo nível ou bibliotecas de API: Use essas opções se você não usa Java ou se sua codebase funciona melhor com uma API REST ou biblioteca. Para criar um conector de conteúdo usando a API REST, consulte Criar um conector de conteúdo usando a API REST.

Um conector de conteúdo típico desempenha as seguintes tarefas:

Leitura e processamento de parâmetros de configuração.
Extração de blocos distintos de dados indexáveis, chamados de itens, do repositório de terceiros.
Combinação de listas de controle de acesso (ACLs, na sigla em inglês), metadados e dados de conteúdo em itens indexáveis.
Indexação de itens com a origem de dados do Cloud Search.
(Opcional) Escuta de notificações sobre alterações do repositório. As notificações de mudança são convertidas em solicitações de indexação para manter a fonte de dados do Cloud Search em sincronia. O conector só realiza essa tarefa se o repositório for compatível com a detecção de mudanças.

Criar um conector de conteúdo usando o SDK do Content Connector

Nas seções a seguir, você verá explicações sobre como criar um conector de conteúdo usando o SDK do Content Connector.

Configurar dependências

Inclua essas dependências no arquivo de build.

Maven

xml <dependency> <groupId>com.google.enterprise.cloudsearch</groupId> <artifactId>google-cloudsearch-indexing-connector-sdk</artifactId> <version>v1-0.0.3</version> </dependency>

Gradle

groovy compile group: 'com.google.enterprise.cloudsearch', name: 'google-cloudsearch-indexing-connector-sdk', version: 'v1-0.0.3'

Criar a configuração do conector

Cada conector usa um arquivo de configuração para parâmetros como o ID do repositório. Defina parâmetros como pares de chave-valor, como api.sourceId=1234567890abcdef.

O SDK do Google Cloud Search inclui parâmetros fornecidos pelo Google para todos os conectores. É necessário declarar o seguinte no arquivo de configuração:

Conector de conteúdo: declare api.sourceId e api.serviceAccountPrivateKeyFile. Eles identificam seu repositório e a chave privada necessária para acesso.

Conector de identidade: declare api.identitySourceId para identificar sua origem de identidade externa. Para a sincronização de usuários, declare também api.customerId (o ID exclusivo da sua conta do Google Workspace).

Declare outros parâmetros fornecidos pelo Google apenas para substituir os valores padrão. Para detalhes sobre como gerar IDs e chaves, consulte Parâmetros fornecidos pelo Google.

Também é possível definir parâmetros específicos do repositório no arquivo de configuração.

Transmitir o arquivo de configuração para o conector

Defina a propriedade do sistema config para transmitir o arquivo de configuração. Use o argumento -D ao iniciar o conector. Exemplo:

java -classpath myconnector.jar -Dconfig=MyConfig.properties MyConnector

Se você omitir esse argumento, o SDK tentará usar um arquivo chamado connector-config.properties no diretório local.

Determinar a estratégia de travessia

A principal função do conector de conteúdo é percorrer um repositório e indexar os dados nele. Implemente uma estratégia com base no tamanho e no layout do seu repositório. Crie sua própria estratégia ou escolha uma do SDK:

Estratégia de travessia completa: Verifica o repositório inteiro e indexa cada item. Essa estratégia é melhor para repositórios pequenos em que é possível arcar com a sobrecarga de uma travessia completa durante cada indexação. Use-a para repositórios pequenos com dados em sua maioria estáticos e não hierárquicos ou quando a detecção de alterações é difícil.
Estratégia de travessia de listas: Verifica o repositório inteiro para determinar o status de cada item e indexa apenas os itens novos ou atualizados. Use isso para atualizações incrementais em um índice grande e não hierárquico quando a detecção de mudanças não é compatível.
Travessia de gráficos: Verifica um nó pai para determinar o status dos itens e indexa os itens novos ou atualizados nesse nó. Em seguida, ele processa recursivamente os nós filhos. Use isso para repositórios hierárquicos em que não é prático listar todos os IDs, como estruturas de diretórios ou sites.

O SDK implementa essas estratégias em classes de conector modelo. Esses modelos podem acelerar seu desenvolvimento. Para usar um modelo, consulte a seção correspondente:

Criar um conector de travessia completa usando uma classe de modelo
Criar um conector de travessia de listas usando uma classe de modelo
Criar um conector de travessia de grafos usando uma classe de modelo

Criar um conector de travessia completa usando uma classe de modelo

Esta seção se refere ao código do FullTraversalSample.

Implementar o ponto de entrada do conector

O ponto de entrada é o método main(). Ele cria uma instância Application e chama start() para executar o conector.

Antes de chamar application.start(), use a classe IndexingApplication.Builder para instanciar o modelo FullTraversalConnector. Esse modelo aceita um objeto Repository.

FullTraversalSample.java

Criar um conector de conteúdo Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Criar um conector de conteúdo usando o SDK do Content Connector

Configurar dependências

Maven

Gradle

Criar a configuração do conector

Transmitir o arquivo de configuração para o conector

Determinar a estratégia de travessia

Criar um conector de travessia completa usando uma classe de modelo

Implementar o ponto de entrada do conector

Implementar a interface do repositório

Receber parâmetros de configuração personalizados

Realizar uma travessia completa

Definir as permissões para um item

Definir os metadados de um item

Criar o item indexável

Empacotar cada item indexável em um iterador

Próximas etapas

Criar um conector de travessia de listas usando uma classe de modelo

Implementar o ponto de entrada do conector

Implementar a interface do repositório

Realizar a travessia de listas

Enviar IDs de itens e valores de hash

Recuperar e processar os itens

Processar itens excluídos

Processar itens inalterados

Definir as permissões para um item

Definir os metadados de um item

Criar um item indexável

Próximas etapas

Criar um conector de travessia de grafos usando uma classe de modelo

Implementar o ponto de entrada do conector

Implementar a interface do repositório

Realizar a travessia de gráficos

Enviar IDs de itens e valores de hash

Recuperar e processar os itens

Processar itens excluídos

Definir metadados e criar o item

Colocar IDs filhos na fila de indexação

Criar um conector de conteúdo usando a API REST

Determinar a estratégia de travessia

Implementar a estratégia de travessia e indexar itens

Processar alterações no repositório

Criar um conector de conteúdo