Estruturar um esquema para interpretação ideal de consultas

O recurso interpretação de consulta do Cloud Search interpreta automaticamente os operadores e os filtros na consulta de um usuário e converte esses elementos em uma consulta estruturada e baseada no operador. A interpretação de consulta usa operadores definidos no esquema, juntamente com os documentos indexados, para deduzir o significado da consulta do usuário. Esse recurso permite que um usuário pesquise com um mínimo de palavras-chave e, ao mesmo tempo, receba resultados precisos.

Os resultados reais apresentados ao usuário dependem da confiança da interpretação de consulta. A confiança é baseada em vários fatores, que incluem onde as strings de consulta aparecem em documentos indexados. Uma string, como o nome do ator "Tom Hanks", que aparece consistentemente em um campo de esquema chamado actors resulta em uma maior confiança. A mesma string ("Tom Hanks") que aparece dentro de um parágrafo, em vez de no campo de esquema, pode resultar em menor confiança. No caso de uma grande confiança, apenas os resultados da interpretação de consulta são exibidos para o usuário. No caso de uma confiança menor, os resultados da interpretação de consulta são combinados com resultados de pesquisa de palavras-chave normais.

Exemplo de interpretação de consulta

Suponha que você tenha uma fonte de dados, como um banco de dados, que contém informações sobre filmes. A Figura 1 exibe uma amostra da consulta de pesquisa e a interpretação resultante.

Visão geral da interpretação de consulta
Figura 1. Interpretação de consultas

Dada essa consulta de exemplo, a interpretação de consulta faz o seguinte:

  • Analisa o esquema e determina que os objetos de nível superior na fonte de dados são classificados como objecttype:movies. Agora, a interpretação de consulta sabe que "filmes" "na consulta é um tipo de objeto.

  • Verifica documentos na fonte de dados, em conjunto com o esquema, para determinar onde a string "ação" ocorre. Se a string ocorrer principalmente em um campo de origem de dados de "gênero" específico, a interpretação de consulta terá a confiança de que "ação" é um valor de propriedade para a propriedade "gênero", conforme definido no esquema. Se a string ocorrer principalmente no contexto de parágrafos de conteúdo, o nível de confiança da interpretação de consulta diminuirá.

A interpretação de consulta resultante é:

  actor:“tom hanks” genre:action objecttype:movies

A interpretação de consulta é ativada automaticamente para todos os clientes do Cloud Search sem nenhum trabalho adicional. No entanto, para uma interpretação de consulta ideal, você deve estruturar seu esquema de acordo com as instruções neste documento.

Estruturar seu esquema para suportar a interpretação de consulta

Você deve estruturar seu esquema para garantir que possa aproveitar a interpretação de consulta.

Ativar interpretações de nome de exibição

A interpretação de consulta do Cloud Search usa objectDefinitions e propertyDefinitions em um esquema para interpretar a consulta de um usuário e ajustar os resultados. Para maximizar o benefício desses elementos de esquema, crie nomes de exibição intuitivos usando displayLabel para nomes de propriedade, objectDisplayLabel para nomes de objetos e operatorName para operadores.

O esquema a seguir mostra nomes de exibição intuitivos para um objeto "movie":

{
  "objectDefinitions": [
    {
      "name": "movie",
        "options": {
          "displayOptions": {
          "objectDisplayLabel": "Films"
        }
        ...
      },
      "propertyDefinitions": [
        {
          "name": "genre",
          "isReturnable": true,
          "isRepeatable": true,
          "isFacetable": true,
          "textPropertyOptions": {
          "retrievalImportance": { "importance": "HIGHEST" },
          "operatorOptions": {
            "operatorName": "genre"
          }
        },
        "displayOptions": {
          "displayLabel": "Category"
        }
      },
      ...
      ]
    }
  ]
}

No exemplo anterior, ocorre o seguinte:

  • A definição do objeto filme tem um objectDisplayLabel de "Filme".

  • O gênero propriedadeDefinition tem um operatorName de "gênero" e uma displayLabel de "Categoria".

Esses nomes de exibição permitem que o Cloud Search faça as seguintes interpretações de consulta:

  • "filmes de ação", "filmes de tipo de ação de gênero" ou "ação de gênero de filme" são interpretados como genre:action object:movies.
  • "filmes com gênero de ação ou suspense" é interpretado como objecttype:movies genre:(action OR thriller).
  • “filme de ação” ou “filmes de ação” é interpretado como genre:action objecttype:movies.
  • "filmes de categoria de comédia" é interpretado como genre:comedy objecttype:movies.

Ativar interpretações de data, numéricas e de classificação

Você precisa definir lessThanOperatorName e greaterThanOperatorName, especificados em IntegerOperatorOptions, para todas as propriedades numéricas e de data. Essas configurações ativam interpretações numéricas e de data automáticas. Além disso, para ativar interpretações de classificação, defina a opção isSortable para propriedades numéricas e de data. O esquema a seguir mostra como ativar essas opções.

{
  "objectDefinitions": [
    {
      "options": {
        "displayOptions": {
          "objectDisplayLabel": "Films"
        }
      },
      "propertyDefinitions": [
        {
          "name": "runtime",
          "isReturnable": true,
          "isSortable": true,
          "integerPropertyOptions": {
            "orderedRanking": "DESCENDING",
            "minimumValue": {
              "value": 10
            },
            "maximumValue": {
              "value": 500
            },
            "operatorOptions": {
              "operatorName": "runtime",
              "lessThanOperatorName": "runtimelessthan",
              "greaterThanOperatorName": "runtimegreaterthan"
            }
          },
          "displayOptions": {
            "displayLabel": "Length"
          }
        },
        {
          "name": "releasedate",
          "isReturnable": true,
          "isSortable": true,
          "datePropertyOptions": {
            "operatorOptions": {
              "operatorName": "releasedate",
              "lessThanOperatorName": "releasedbefore",
              "greaterThanOperatorName": "releasedafter"
            }
          }
        }
      ]
    }
  ]
}

No exemplo anterior, ocorre o seguinte:

  • A propriedade numérica runtime se refere à duração de um filme. O runtimelessthan e o runtimegreaterthan estão definidos para essa propriedade.
  • A propriedade de data releaseDate refere-se à data em que um filme é lançado nos cinemas. releasedbefore e releasedafter estão definidos para essa propriedade.

Essas configurações permitem que o Cloud Search faça as seguintes interpretações de consulta:

  • Supondo que o ano seja 2019, "filmes lançados este ano" é interpretado como objecttype: movies releasedafter:2019-1-1 releasedbefore:2019-12-31.
  • Supondo que a semana seja a terceira semana de março, "filmes lançados na semana passada" é interpretado como objecttype: movies releasedafter:2019-3-10 releasedbefore:2019-3-16
  • "filmes com tempo de execução menor que 90" é interpretado como objjecttype: movies runtimelessthan:90.
  • Supondo que o ano seja 2019, "filmes lançados este ano e com duração superior a 120" é interpretado como releasedafter:2019-1-1 releasedbefore:2019-12-31 objecttype:movies runtimegreaterthan:120.
  • “classificar filmes pela data de lançamento” filtraria “objecttype: movies” e os resultados apresentados seriam classificados na data de lançamento com a ordem de classificação padrão sendo crescente.

Ativar interpretação de operador reservado

Também é possível usar os operadores integrados reservados type, before, after e objecttype para melhorar a interpretação de consulta. Ao indexar um documento, faça o seguinte:

  1. Preencha o campo updateTime no ItemMetadata para usar os operadores before e after. Essas configurações permitem que o Cloud Search faça as seguintes interpretações de consulta:

    • "filmes da semana passada" listaria todos os filmes que foram atualizados no índice na semana anterior.
    • "filmes antes de janeiro de 2019" listaria todos os filmes indexados antes de janeiro de 2019.
  2. Preencha o campo mimeType no ItemMetadata para usar a detecção automática de tipo. Uma consulta "vídeos de ação" listaria todos os documentos de filmes de ação com um tipo MIME de application/mp4, application/mpeg4, application/x-shockwave-flash, video/ e application/vnd.google-apps.video.

Limitações de interpretação de consulta

O recurso de interpretação de consulta tem as seguintes limitações.

  • A interpretação de consulta só funciona para estas ACLs da fonte de dados:
    • Todos os documentos são de domínio público (todos no domínio podem acessar).
    • Todos os documentos são públicos como fonte de dados (todos que têm acesso à ACL de fonte de dados).
    • A maioria dos documentos na fonte de dados tem a mesma ACL (todos os documentos herdam a ACL do mesmo item de contêiner) sem leitores adicionais definidos.
  • Se vários operadores de esquema tiverem o mesmo valor, a interpretação desse valor para a intenção do operador de uma consulta depende do fator de confiança geral retornado pelo sistema de interpretação de consulta. Por exemplo, suponha que você tenha as propriedades priority e severity com os mesmos nomes de operadores definidos no esquema. Digamos que os dois operadores possam ter os valores 0, 1, 2 ou 3. Neste exemplo, "0" em uma consulta pode se referir ao valor do operador para priority ou severity. Esses valores são ambíguos e o nível de confiança é menor.
  • Por padrão, a interpretação de consulta do Cloud Search diminui o caso de valores de campo ao interpretar a consulta, exceto para os operadores de texto definidos com as opções exactMatchWithOperator.
  • O operador source não é compatível com consultas.
  • As consultas que combinam termos baseados no operador e termos de texto sem custo financeiro não são interpretadas. Por exemplo, a consulta "p0 priority cases severity:s0" não seria suportada porque "p0 priority cases" é um termo de texto sem custo financeiro enquanto "severity:s0" é um termo baseado no operador.
  • A estratégia de interpretação de consulta sempre combina os resultados interpretados com resultados comuns (não interpretados, classificados por relevância). Ela não executa uma substituição de página inteira dos resultados.