Anotações: como definir sites para pesquisa

Esta página descreve como definir a cobertura do seu mecanismo de pesquisa usando um arquivo de anotações XML.

  1. Visão geral
  2. Usar o formato XML da Pesquisa programável
  3. Como melhorar a cobertura da pesquisa
  4. Limites das anotações

Informações gerais

Gerenciar um grande conjunto de sites pode ser tedioso se você estiver criando um mecanismo de pesquisa grande. Em vez disso, é possível adicionar e gerenciar muitos sites listando-os em um arquivo de anotações e fazendo o upload dele. Além disso, os arquivos de anotações oferecem um controle muito maior sobre a classificação dos resultados da pesquisa.

Um arquivo de anotações é simplesmente uma lista de anotações. Cada anotação tem dois componentes: o site e os rótulos associados. O rótulo informa ao Mecanismo de Pesquisa Programável como lidar com um site, ou seja, se um site deve ser incluído, excluído, promovido ou rebaixado. No arquivo de contexto, você define rótulos. No arquivo de anotações, você marca os sites com os rótulos apropriados.

Quando você começar a editar seu arquivo de anotações, comece com um pequeno número de anotações. É mais fácil testar e resolver problemas do seu mecanismo de pesquisa com algumas anotações. Quando tiver os resultados esperados, adicione mais anotações.

É possível fazer upload do arquivo de anotações no painel de controle. Para ver detalhes sobre os limites de arquivo, consulte a seção Limites de anotações.

Voltar ao início

Usar o formato XML da Pesquisa programável

Se você quiser aproveitar todos os recursos disponíveis no arquivo de configuração do Mecanismo de Pesquisa Programável, use o XML.

Anotações XML

Este é um exemplo de anotações XML. Esse arquivo instrui o Mecanismo de Pesquisa Programável a incluir tudo que está em www.webmd.com/hw/*, mas excluir tudo em www.webmd.com/hw/cancer/*.

<Annotations>
  <Annotation about="www.cancer.gov/cancertopics/types/liver/*">
    <Label name="_include_"/>
    <Comment>government site</Comment>
  </Annotation>
  <Annotation about="www.medicinenet.com/liver_cancer/">
    <Label name="_exclude_"/>
    <Comment>site on symptoms</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/*">
    <Label name="_include_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/cancer/*">
    <Label name="_exclude_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.oncologychannel.com/*/treatment">
    <Label name="_exclude_"/>
  </Annotation>
</Annotations>

O arquivo de anotações tem quatro elementos na seguinte hierarquia:

  • Annotations (elemento raiz)
    • Annotation
      • Label
      • Comment (opcional)

Voltar ao início

Como criar anotações externas

Para listar os sites que o mecanismo de pesquisa cobrirá, faça o seguinte:

  1. Inicie o arquivo com o elemento raiz <Annotations></Annotations>.
  2. Crie uma anotação adicionando as tags <Annotation></Annotation> e defina o atributo about com o padrão do URL do site.
    <Annotations>
       <Annotation about="www.webmd.com/hw/cancer/*">
       </Annotation>
       </Annotations>
    
  3. Associe o site ao mecanismo de pesquisa usando a tag <Label name=" "/> e especifique como esse site deve ser tratado pelo mecanismo de pesquisa. Você pode ver os marcadores do mecanismo de pesquisa no arquivo de contexto dele. Você vai encontrar dois marcadores: um para adicionar sites ao Mecanismo de Pesquisa Programável e outro para excluir sites dele. Se você não mudou o nome do rótulo do mecanismo de pesquisa no arquivo de contexto, o rótulo para inclusão de sites está na forma de _include_ e o rótulo para exclusão de sites está na forma de _exclude_. Para evitar erros, copie e cole esses marcadores em vez de digitá-los manualmente.
       <Annotations>
       <Annotation about="http://www.solarenergy.org/*">
         <Label name="_include_"/>
       </Annotation>
    </Annotations>
    

    Um único site pode ter vários marcadores associados a ele.

    Se você mudou o nome do rótulo no arquivo de contexto, lembre-se de atualizar os valores Label name no arquivo de anotação.

  4. Para adicionar mais sites, crie e defina outro elemento Annotation.
  5. Salve o arquivo XML.

Voltar ao início

Como melhorar a cobertura da pesquisa

O Mecanismo de Pesquisa Programável foi criado com base no índice do Google. Isso significa que as páginas da Web que estão no índice do Google ficam disponíveis para seu mecanismo de pesquisa. Por outro lado, as páginas que não foram rastreadas pelo Google não aparecem nos resultados. Se você quiser que o Mecanismo de Pesquisa Programável inclua sites que não estão no índice do Google, envie um sitemap para o Google Search Console.

Um sitemap inclui uma lista de páginas no seu site, além de informações sobre a frequência de atualização das páginas da Web e a importância entre elas. O envio de um sitemap ajuda o Google a descobrir suas páginas da Web e melhorar a programação de rastreamento. Para saber mais sobre sitemaps, consulte a Central de Ajuda para webmasters e Como usar o protocolo de sitemaps. Se você estiver interessado em criar sitemaps mais sofisticados, consulte http://www.sitemaps.org/protocol.php.

O envio de sitemaps é especialmente útil se o seu site tem:

  • Conteúdo dinâmico
  • Páginas da Web que não são facilmente descobertas pelo Googlebot (o rastreador da Web do Google), como páginas com recursos avançados AJAX ou Flash
  • Poucos sites têm links para ele.

    O Googlebot rastreia a Web seguindo links de uma página para outra. Portanto, se o site não estiver bem vinculado, será difícil para o rastreador encontrá-lo. Se o seu site for novo, provavelmente não há muitos sites que estejam apontando para ele.

  • Um grande arquivo de páginas de conteúdo que não possui uma rede forte de links cruzados

O Google indexa somente as páginas que pode acessar. Por isso, se você usar um arquivo robots.txt ou metatags robots nas suas páginas da Web, verifique se elas não bloqueiam os rastreadores.

A melhoria da cobertura não é instantânea, já que leva algum tempo para as páginas serem rastreadas e indexadas. Porém, quando elas estiverem no índice, elas poderão aparecer na Pesquisa Google e no Mecanismo de Pesquisa Programável.

Voltar ao início

Limites de anotações

A tabela a seguir mostra os limites para arquivos de anotações enviados ao Mecanismo de Pesquisa Programável:

Observação:siga os limites com atenção. Se eles forem excedidos, o mecanismo de pesquisa poderá não mostrar resultados.

Aspecto Limite
Tamanho do arquivo (arquivos de contexto ou anotações) 30KB
Número máximo de anotações por mecanismo de pesquisa 5.000

Dica:se o mecanismo de pesquisa ultrapassar o limite de 5.000 sites, consolide os URLs individuais em padrões de URL.

Voltar ao início