Cómo funciona la Búsqueda para propietarios de sitios web

La Búsqueda de Google es un buscador completamente automatizado que utiliza programas de software denominados "rastreadores web" para explorar la Web periódicamente en busca de páginas que pueda añadir a su índice. De hecho, la mayoría de las páginas que se muestran en los resultados de la Búsqueda no se envían manualmente, sino que se encuentran y se añaden automáticamente cuando nuestros rastreadores web exploran la Web. En este documento, se explican las fases del funcionamiento de la Búsqueda en el contexto de tu sitio web. Con estos conocimientos básicos, podrás corregir los problemas de rastreo, indexar tus páginas y obtener más información para optimizar la forma en que aparece tu sitio en la Búsqueda de Google.

Algunas notas antes de empezar

Antes de entrar en detalles sobre cómo funciona la Búsqueda, es importante tener en cuenta que Google no acepta pagos para rastrear sitios con mayor frecuencia ni para mejorar su posicionamiento. Si alguien te dice lo contrario, se equivoca.

Google no garantiza que rastree, indexe o sirva tu página, aunque cumpla las directrices y políticas de Google para propietarios de sitios web.

La Búsqueda de Google funciona en tres fases, pero no todas las páginas pasan por cada una de ellas:

  1. Rastreo: Google descarga texto, imágenes y vídeos de páginas que encuentra en Internet mediante programas automatizados, llamados "rastreadores".
  2. Indexación: Google analiza el texto, las imágenes y los archivos de vídeo de las páginas y almacena la información en el índice de Google, una gran base de datos.
  3. Publicación de resultados de búsqueda: cuando un usuario hace una búsqueda en Google, Google devuelve información relevante sobre su consulta.

Rastreo

La primera fase trata de averiguar qué páginas hay en la Web. Como no hay ningún registro central con todas las páginas web, Google tiene que buscar constantemente páginas nuevas y actualizadas, y añadirlas a nuestra lista de páginas conocidas. Este proceso se denomina "descubrimiento de URL". Algunas páginas las conocemos porque Google ya las ha visitado. Otras, en cambio, las encontramos siguiendo enlaces de páginas conocidas que nos llevan a ellas; por ejemplo, una página principal, como la página de una categoría o un enlace a una nueva entrada de blog. También se descubren otras páginas cuando envías una lista de páginas (un sitemap) para que Google las rastree.

Una vez que Google descubre la URL de una página, puede visitarla (o "rastrearla") para averiguar qué contiene. Utilizamos una enorme cantidad de ordenadores para rastrear miles de millones de páginas de la Web. El programa encargado de obtener este contenido es el robot de Google, también denominado robot, bot o araña. El robot de Google determina mediante algoritmos qué sitios deben rastrearse, con qué frecuencia tiene que hacerse y cuántas páginas hay que obtener de cada uno de ellos. Los rastreadores de Google también están programados para no rastrear sitios demasiado rápido y así evitar sobrecargarlos. Este mecanismo se basa en las respuestas del sitio (por ejemplo, los errores HTTP 500 significan "lentitud") y en los ajustes de Search Console.

Sin embargo, el robot de Google no rastrea todas las páginas que ha descubierto. Puede que el propietario del sitio web inhabilite el rastreo de algunas páginas, o puede también que no se pueda acceder a otras páginas sin antes tener que iniciar sesión en el sitio. Además, algunas páginas pueden ser una versión duplicada de otras páginas rastreadas anteriormente. Por ejemplo, se puede acceder a muchos sitios mediante la versión con www (www.example.com) y sin www (example.com) del nombre de dominio, aunque el contenido sea idéntico en ambas versiones.

Durante el rastreo, Google renderiza la página y ejecuta el código JavaScript que encuentre mediante una versión reciente de Chrome, similar a la forma en que tu navegador renderiza las páginas que visitas. El renderizado es importante porque los sitios web suelen usar JavaScript para añadir contenido a la página, por lo que es posible que Google no lo detecte si no se renderiza.

El rastreo depende de si los rastreadores de Google pueden acceder al sitio o no. Algunos problemas habituales que puede tener el robot de Google a la hora de acceder a sitios son los siguientes:

Indexación

Después de descubrir una página, Google intenta interpretar su contenido. Esta fase se denomina "indexación" e incluye el procesamiento y el análisis del contenido textual, así como de las etiquetas y los atributos de contenido importantes, como elementos <title>, atributos "alt", imágenes, vídeos y más.

Durante el proceso de indexación, Google determina si una página es un duplicado de otra página de Internet o la canónica. La canónica es la página que puede aparecer en los resultados de búsqueda. Para seleccionar la canónica, primero agrupamos las páginas que hemos encontrado en Internet con contenido parecido, y después seleccionamos la más representativa del grupo. El resto de páginas del grupo son versiones alternativas que se pueden servir en diferentes contextos; por ejemplo, cuando un usuario busca desde un dispositivo móvil o si busca una página muy específica de ese clúster.

Google también recoge señales sobre la página canónica y su contenido, que se puede usar en la siguiente fase, en la que servimos la página en los resultados de búsqueda. Entre estas señales, se incluyen el idioma de la página, el país en el que se encuentra el contenido, la usabilidad de la página, etc.

La información recogida sobre la página canónica y su clúster puede almacenarse en el índice de Google, una gran base de datos alojada en miles de ordenadores. No se garantiza la indexación, ya que no se indexarán todas las páginas que Google procesa.

La indexación también depende del contenido de la página y de sus metadatos. Estos son algunos de los problemas de indexación más habituales:

Publicación de resultados de búsqueda

Cuando los usuarios introducen sus consultas, nuestro sistema busca en el índice páginas que coincidan con ellas y devuelve los resultados que consideramos más relevantes y de mayor calidad. Para determinar esta relevancia, el sistema tiene en cuenta cientos de factores, como la ubicación, el idioma y el dispositivo del usuario (ordenador o teléfono). Por ejemplo, si un usuario de Barcelona busca "talleres de reparación de bicicletas", obtendrá resultados diferentes a los de los usuarios de Hong Kong que hagan la misma consulta.

Puede que en Search Console se indique que una página está indexada, pero no se muestra en los resultados de búsqueda. Esto puede deberse a los siguientes motivos:

Aunque en esta guía se explica cómo funciona la Búsqueda, trabajamos continuamente para mejorar nuestros algoritmos. Para estar al día de todos estos cambios, sigue el blog del Centro de la Búsqueda de Google.