Anotaciones: definición de sitios para buscar

En esta página, se describe cómo definir la cobertura de tu motor de búsqueda mediante un archivo de anotaciones XML.

  1. Descripción general
  2. Cómo usar el formato XML de Búsqueda Programable
  3. Mejoramos la cobertura en la Búsqueda
  4. Límites de anotaciones

Descripción general

Administrar una gran colección de sitios puede ser tedioso si desarrollas un motor de búsqueda de gran tamaño. En su lugar, puedes agregar y administrar muchos sitios si los incluyes en un archivo de anotaciones y los subes. Además, los archivos de anotaciones te ofrecen un control mucho mayor sobre la clasificación de los resultados de la búsqueda.

Un archivo de anotaciones es simplemente una lista de anotaciones. Cada anotación tiene dos componentes: el sitio y sus etiquetas asociadas. La etiqueta le indica al Motor de Búsqueda Programable cómo administrar un sitio, es decir, si se debe incluir, excluir, promocionar o descender de nivel. En el archivo de contexto, defines las etiquetas; en el archivo de anotaciones, etiquetas los sitios con las etiquetas adecuadas.

Cuando comiences a editar tu archivo de anotaciones, comienza con una pequeña cantidad de anotaciones. Con varias anotaciones, es más fácil probar tu motor de búsqueda y solucionar problemas relacionados. Cuando obtengas los resultados que esperas, agrega más anotaciones de manera incremental.

Puedes subir el archivo de anotaciones al Panel de control. Para obtener más información sobre los límites de archivos, consulta la sección Límites de anotaciones.

Volver al principio

Cómo usar el formato XML de Búsqueda Programable

Si quieres aprovechar todas las funciones disponibles en el archivo de configuración de Motor de Búsqueda Programable, debes usar XML.

Anotaciones XML

El siguiente es un ejemplo de anotaciones XML. Este archivo de anotaciones le indica al Motor de Búsqueda Programable que incluya todo lo que está en www.webmd.com/hw/*, pero que excluya todo lo que está en www.webmd.com/hw/cancer/*.

<Annotations>
  <Annotation about="www.cancer.gov/cancertopics/types/liver/*">
    <Label name="_include_"/>
    <Comment>government site</Comment>
  </Annotation>
  <Annotation about="www.medicinenet.com/liver_cancer/">
    <Label name="_exclude_"/>
    <Comment>site on symptoms</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/*">
    <Label name="_include_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/cancer/*">
    <Label name="_exclude_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.oncologychannel.com/*/treatment">
    <Label name="_exclude_"/>
  </Annotation>
</Annotations>

El archivo de anotaciones tiene cuatro elementos en la siguiente jerarquía:

  • Annotations (elemento raíz)
    • Annotation
      • Label
      • Comment (opcional)

Volver al principio

Cómo crear anotaciones externas

Para enumerar los sitios que quieres que tu motor de búsqueda cubra, haz lo siguiente:

  1. Inicia el archivo con el elemento raíz <Annotations></Annotations>.
  2. Agrega las etiquetas <Annotation></Annotation> para crear una anotación y, luego, define el atributo about con el patrón de URL del sitio.
    <Annotations>
       <Annotation about="www.webmd.com/hw/cancer/*">
       </Annotation>
       </Annotations>
    
  3. Asocia el sitio con el motor de búsqueda usando la etiqueta <Label name=" "/> y especifica la manera en que el motor de búsqueda debe tratar ese sitio. Puedes obtener las etiquetas de tu motor de búsqueda desde el archivo de contexto del motor de búsqueda. Encontrarás dos etiquetas: una para agregar sitios a tu Motor de Búsqueda Programable y otra para excluir sitios de él. Si no cambiaste el nombre de la etiqueta del motor de búsqueda en el archivo de contexto, la etiqueta para incluir sitios tiene el formato _include_, y la etiqueta para excluir sitios tiene el formato _exclude_. Para evitar errores, copia y pega estas etiquetas en lugar de escribirlas a mano.
       <Annotations>
       <Annotation about="http://www.solarenergy.org/*">
         <Label name="_include_"/>
       </Annotation>
    </Annotations>
    

    Un solo sitio puede tener varias etiquetas asociadas,

    Si cambiaste el nombre de la etiqueta en el archivo de contexto, recuerda actualizar los valores Label name en tu archivo de anotación.

  4. Para agregar más sitios, crea y define otro elemento Annotation.
  5. Guarda el archivo en formato XML.

Volver al principio

Mejoras en la cobertura de la Búsqueda

Motor de Búsqueda Programable se basa en el índice de Google. Esto significa que las páginas web incluidas en el índice de Google están disponibles para tu motor de búsqueda. Por el contrario, las páginas web que Google no rastreó no aparecerán en los resultados de la búsqueda. Si quieres que tu Motor de Búsqueda Programable incluya sitios que no están actualmente en el índice de Google, envía un mapa del sitio a Google Search Console.

Un mapa del sitio incluye una lista de las páginas de tu sitio, así como información sobre la frecuencia de actualización de las páginas web y su importancia con respecto a las demás. Enviar un mapa del sitio ayuda a Google a descubrir tus páginas web y mejorar la programación de rastreo. Si deseas obtener más información sobre los mapas del sitio, consulta el Centro de ayuda para webmasters y Cómo usar el protocolo de mapas del sitio. Si te interesa crear mapas del sitio más sofisticados, consulta http://www.sitemaps.org/protocol.php.

Enviar mapas del sitio es especialmente útil si tu sitio tiene las siguientes características:

  • Contenido dinámico
  • Páginas web que Googlebot (el rastreador web de Google) no puede descubrir fácilmente, como páginas con funciones enriquecidas de AJAX o de Flash
  • Pocos sitios web con vínculos a ella.

    Googlebot rastrea la Web siguiendo vínculos de una página a otra. Por lo tanto, si tu sitio no está bien vinculado, será difícil que el rastreador lo encuentre. Si tu sitio web es nuevo, es probable que pocos sitios web dirijan a él.

  • Un archivo grande de páginas de contenido que no tiene una red sólida de vínculos cruzados

Google solo puede indexar páginas a las que puede acceder. Por lo tanto, si usas un archivo robots.txt o metaetiquetas robots en tus páginas web, asegúrate de que estas no bloqueen los rastreadores.

La cobertura mejorada no es instantánea, ya que lleva un tiempo rastrear e indexar las páginas. Sin embargo, una vez que tus páginas web estén en el índice, podrían aparecer tanto en la Búsqueda de Google como en tu Motor de Búsqueda Programable.

Volver al principio

Límites de anotaciones

En la siguiente tabla, se indican los límites para los archivos de anotaciones que se suben al Motor de Búsqueda Programable:

Nota: Sigue cuidadosamente los límites. Si los excedes, es posible que tu motor de búsqueda no muestre resultados.

Aspecto Límite
Tamaño del archivo (archivos de contexto o de anotaciones) 30KB
Cantidad máxima de anotaciones por motor de búsqueda 5,000

Sugerencia: Si observas que tu motor de búsqueda supera el límite amplio de 5,000 sitios, considera consolidar las URLs individuales en patrones de URL.

Volver al principio