¿Cómo funciona la Búsqueda de Google?

¿Cómo funciona Google? En este artículo ofrecemos una respuesta corta y otra larga a esta pregunta.

Recibimos información de muchas fuentes diferentes, incluidas las siguientes:

  • Páginas web
  • Contenido enviado por usuarios, como el que nos envían en Google My Business o Maps
  • Libros escaneados
  • Bases de datos públicas en Internet
  • Muchas otras fuentes

Sin embargo, en este artículo nos centramos en las páginas web.

Respuesta corta

Seguimos tres pasos básicos para generar resultados de páginas web:

Rastreo

El primer paso es averiguar qué páginas hay en la Web. Como no hay ningún registro central con todas las páginas web, tenemos que buscar páginas nuevas constantemente y añadirlas a nuestra lista de páginas conocidas. Algunas páginas las conocemos porque ya las hemos visitado. También encontramos otras al seguir enlaces de páginas conocidas que nos llevan a páginas nuevas. Otras páginas las descubrimos cuando los propietarios de sitios web nos facilitan una lista con sus páginas (es decir, un sitemap) para que las rastreemos. Asimismo, es posible que un proveedor de alojamiento web gestionado, como Wix o Blogger, nos solicite que rastreemos páginas nuevas o actualizadas.

Una vez que descubrimos la URL de una página, la visitamos (rastreamos) para averiguar qué contiene. Renderizamos la página y analizamos el contenido textual y no textual, además del diseño visual general, para decidir cómo mostrarla en los resultados de la Búsqueda. Cuanto mejor entendamos tu sitio, mejor podremos relacionarlo con los usuarios que buscan ese contenido.

Para mejorar el rastreo de tu sitio, sigue estos consejos:

  • Asegúrate de que podamos acceder a las páginas de tu sitio y de que se muestren correctamente. Accedemos a la Web como un usuario anónimo (un usuario sin contraseñas ni información). Por tanto, para que podamos interpretar correctamente tu página, asegúrate de que se pueda acceder a todas sus imágenes y otros elementos de forma anónima. Puedes comprobarlo rápidamente escribiendo la URL de tu página en la prueba de optimización para móviles.
  • Si creas o modificas una sola página, puedes enviarnos esa URL concreta. Para informarnos de muchas páginas nuevas o actualizadas a la vez, mejor envíanos un sitemap.
  • Si vas a pedir que rastreemos solo una página, que sea tu página principal. Consideramos que la página principal es la más importante de tu sitio. Si quieres que rastreemos todo tu sitio, asegúrate de que todas tus páginas web tengan un buen sistema de navegación que incluya enlaces a todas las secciones y páginas importantes del sitio; de este modo, ayudarás tanto a los usuarios como a nuestros rastreadores a desplazarse fácilmente por tu contenido. Si tu sitio es pequeño (tiene menos de 1000 páginas), basta con que nos indiques cuál es tu página principal, siempre que desde ahí se pueda acceder al resto de las páginas siguiendo una ruta de enlaces.
  • Consigue que haya enlaces a tu página web en páginas que ya conozcamos. No obstante, ten en cuenta que no seguiremos los enlaces que estén en anuncios, aquellos por los que hayas pagado para que se incluyan en otros sitios, los que aparezcan en comentarios ni los que infrinjan las Directrices para webmasters de Google.

Indexación

Después de descubrir una página, intentamos interpretar su contenido. Este proceso se denomina indexación. Analizamos el contenido de la página, catalogamos sus archivos de imagen y vídeo y tratamos de entenderla. Toda esta información se guarda en el índice de Google, una enorme base de datos almacenada en muchísimos ordenadores.

Para mejorar la indexación de tu página, sigue estos consejos:

  • Crea títulos de página cortos y que sean descriptivos.
  • Utiliza encabezados de página que reflejen el tema principal.
  • Transmite el contenido con texto en lugar de imágenes. Podemos interpretar algunos vídeos e imágenes, pero no con la misma facilidad con la que entendemos el texto. Como mínimo, incluye texto alternativo u otros atributos en tus vídeos e imágenes, según corresponda.

Aparición en la Búsqueda (y posicionamiento)

Cuando los usuarios introducen sus consultas, intentamos encontrar la respuesta más pertinente en nuestro índice en función de muchos factores. Tratamos de identificar el contenido de mayor calidad y tenemos en cuenta muchos aspectos, como la ubicación, el idioma y el dispositivo de los usuarios (ordenador o teléfono), para averiguar qué resultado ofrecerá la mejor experiencia de usuario y la respuesta más adecuada. Por ejemplo, si un usuario de Barcelona busca "talleres de reparación de bicicletas", obtendrá respuestas diferentes a las de los usuarios de Hong Kong que hagan la misma consulta. No aceptamos pagos para mejorar el posicionamiento de páginas web; el orden de los resultados se determina automáticamente.

Para mejorar la aparición en la Búsqueda y el posicionamiento de tus páginas, sigue estos consejos:

Respuesta larga

¿Quieres obtener más información? Te la mostramos a continuación:

Respuesta larga

Rastreo

El rastreo es el proceso mediante el cual el robot de Google visita páginas nuevas y actualizadas para añadirlas al índice de Google.

Utilizamos una enorme cantidad de ordenadores para obtener (o "rastrear") miles de millones de páginas de la Web. El programa encargado de obtener este contenido es el robot de Google, también denominado robot o araña. El robot de Google determina mediante algoritmos qué sitios deben rastrearse, con qué frecuencia tiene que hacerse y cuántas páginas hay que obtener de cada uno de ellos.

El proceso de rastreo de Google empieza con una lista de URLs de páginas web generada a partir de rastreos anteriores, que se amplía con los datos de los sitemaps que nos envían los propietarios de los sitios web. Cuando el robot de Google visita páginas, encuentra los enlaces que contienen y los añade a la lista de páginas para rastrear. Se detectan sitios nuevos, cambios en los sitios que ya conocemos y enlaces obsoletos y con esta información se actualiza el índice de Google.

Cuando rastreamos una página, la renderizamos con una versión reciente de Chrome y, durante el proceso, ejecutamos todas las secuencias de comandos que encontramos en ella. Si generas contenido dinámicamente en tu sitio, asegúrate de seguir los conceptos básicos de SEO en JavaScript.

¿Cómo sabe Google qué páginas no debe rastrear?

  • No rastreamos las páginas bloqueadas en archivos robots.txt, pero es posible que las indexemos si hay enlaces a ellas en otras páginas. Podemos deducir el contenido de una página si tenemos un enlace que lleve a ella e indexarla sin analizar su contenido.
  • No podemos rastrear las páginas a las que no se puede acceder de forma anónima, por lo que, si una página requiere iniciar sesión o cuenta con otras medidas de autorización, no se podrá rastrear.
  • Rastreamos con menos frecuencia las páginas que ya se hayan rastreado antes y se consideren duplicados de otra página.

Mejorar el rastreo

Con las técnicas que indicamos a continuación, nos ayudarás a descubrir las páginas adecuadas de tu sitio:

Indexación

El robot de Google procesa todas las páginas que rastrea para entender su contenido. Además del contenido textual, procesa la información incluida en etiquetas y atributos de contenido importantes, como las etiquetas <title>, los atributos "alt", las imágenes o los vídeos. El robot de Google puede procesar muchos tipos de contenido, pero hay ciertos tipos que no puede procesar. Por ejemplo, no puede procesar el contenido de algunos archivos de rich media.

Entre los procesos de rastreo y de indexación determinamos si una página es una versión duplicada o canónica de otra. Si consideramos que una página es un duplicado, se rastreará con mucha menos frecuencia. Las páginas similares se agrupan en un documento, que es un grupo de al menos una página en el que se incluye la página canónica (la más representativa del grupo) y los duplicados que se hayan encontrado. Los duplicados pueden ser simplemente URLs distintas para llegar a una misma página o versiones alternativas para móviles u ordenadores.

No indexamos ninguna página que contenga una directiva noindex, ya sea en su encabezado o en una etiqueta. Sin embargo, para respetar esta directiva, primero tenemos que poder verla; por tanto, si una página está bloqueada por un archivo robots.txt, requiere iniciar sesión o está bloqueada de algún otro modo, es posible que la acabemos indexando aunque no la hayamos visitado.

Mejorar la indexación

Hay muchas técnicas que puedes aplicar para ayudarnos a entender mejor el contenido de tus páginas:

¿Qué es un "documento"?

Internamente, en Google representamos la Web como un enorme conjunto de documentos. Cada documento representa una o más páginas web que son idénticas o muy parecidas; básicamente un mismo contenido al que se puede acceder desde distintas URLs. Estas URLs pueden llevar a la misma página (por ejemplo, example.com/vestidos/verano/1234 y example.com?producto=1234 pueden dirigir al mismo contenido) o a una página idéntica, pero con pequeñas variaciones dirigidas a usuarios de diferentes dispositivos (por ejemplo, example.com/mipagina para usuarios de ordenadores y m.example.com/mipagina para usuarios de móviles).

Elegimos una de esas URLs y la marcamos como la URL canónica del documento. Esa es la URL que rastreamos e indexamos con más frecuencia. Las demás se consideran duplicados o alternativas y se rastrean de vez en cuando. También es posible que se sirvan en solicitudes de usuarios que cumplan ciertas características; por ejemplo, aunque la URL canónica de un documento sea la URL para móviles, es probable que mostremos la URL alternativa para ordenadores a los usuarios que hagan búsquedas desde estos dispositivos.

La mayoría de los informes de Search Console atribuyen los datos a la URL canónica de los documentos. En algunas herramientas, como la herramienta de inspección de URLs, se pueden comprobar URLs alternativas, pero lo normal es que, al inspeccionar la URL canónica, también se obtenga información sobre las alternativas.

Puedes indicarnos qué URL quieres que sea canónica, pero es posible que elijamos otra distinta por varios motivos.

A continuación se incluye un breve glosario de términos donde se indica cómo se usan en Search Console:

  • Documento: conjunto de páginas similares que está formado por una URL canónica y, posiblemente, URLs alternativas si hay páginas duplicadas en tu sitio. Las URLs de un documento pueden ser de la misma organización (el dominio raíz, como "google" en www.google.com) o de organizaciones distintas. A la hora de elegir la mejor URL que mostrar en los resultados de búsqueda, tenemos en cuenta la plataforma (móvil u ordenador), el idioma de los usuarios o su ubicación, entre muchas otras variables. Descubrimos páginas relacionadas en tu sitio mediante el rastreo orgánico o mediante funciones implementadas en el propio sitio, como redirecciones o etiquetas <link rel=alternate/canonical>. Las páginas relacionadas que sean de otras organizaciones solo se pueden marcar como alternativas si se indica de forma explícita mediante redirecciones o etiquetas de enlace.
  • URL: la URL con la que se accede a un contenido determinado de un sitio. Puede haber distintas URLs que conducen a una misma página.
  • Página: una página web concreta, a la que se accede mediante una o varias URLs. Una página puede tener diferentes versiones para las distintas plataformas desde las que pueden acceder a ella los usuarios (móviles, ordenadores, tablets, etc.).
  • Versión: variación de una página, que suele ser "móvil", "ordenador" o "AMP", aunque AMP también puede tener versiones para móviles y ordenadores. En función de cómo esté configurado tu sitio, cada versión puede tener una URL diferente (example.com y m.example.com) o usar la misma; por ejemplo, en la misma URL se pueden mostrar diferentes versiones de la misma página dependiendo de si tu sitio utiliza la publicación dinámica o un diseño web adaptable. Las variaciones de idioma no se consideran versiones diferentes, sino documentos diferentes.
  • Página o URL canónica: la URL que consideramos más representativa de un documento y la que rastreamos siempre. En ocasiones, también se rastrean las URLs duplicadas de los documentos.
  • Página o URL alternativa o duplicada: URL de un documento que rastreamos de vez en cuando. A veces, se sirven estas URLs si son las más adecuadas para responder a una solicitud concreta de un usuario; por ejemplo, en las solicitudes que provienen de ordenadores, se sirven URLs para ordenadores, aunque sean versiones alternativas y su página canónica sea para móviles.
  • Sitio: por lo general, se utiliza como sinónimo de "sitio web", que es un conjunto de páginas web que están relacionadas por un concepto. No obstante, a veces este término también se usa como sinónimo de propiedad de Search Console, aunque en realidad una propiedad puede ser solo una parte de un sitio. Los sitios pueden abarcar varios subdominios e incluso dominios, si se usan páginas AMP enlazadas correctamente.

 Las páginas que tienen el mismo contenido en diferentes idiomas se almacenan en documentos distintos que se hacen referencia entre sí mediante etiquetas hreflang; por eso es importante marcar el contenido traducido mediante etiquetas hreflang.

Cómo se sirven los resultados

Cuando los usuarios introducen sus consultas, nuestro sistema busca en el índice páginas que coincidan con ellas y devuelve los resultados que considera más relevantes. Para determinar esta relevancia, el sistema tiene en cuenta cientos de factores. Trabajamos constantemente para mejorar nuestro algoritmo. La experiencia de usuario es uno de los factores que consideramos al elegir y posicionar resultados, por lo que te recomendamos que tus páginas se carguen rápidamente y estén optimizadas para móviles.

Mejorar los resultados

  • Si tus resultados van dirigidos a usuarios de ubicaciones concretas o que hablan determinados idiomas, puedes indicarnos tus preferencias.
  • Asegúrate de que tus páginas se carguen rápidamente y estén optimizadas para móviles.
  • Sigue las directrices para webmasters; de este modo, evitarás errores habituales y mejorarás el posicionamiento de tu sitio.
  • Valora la opción de implementar funciones de resultados de la Búsqueda en tu sitio, como tarjetas de recetas o de artículos.
  • Implementa AMP para que tus páginas se carguen más rápido en dispositivos móviles. Algunas páginas AMP también pueden aparecer en funciones de búsqueda adicionales, como el carrusel Noticias destacadas.
  • Mejoramos nuestro algoritmo constantemente, así que en lugar de tratar de averiguar sus criterios y diseñar tu página en consecuencia, crea contenido de calidad y actualizado que resulte interesante a los usuarios y sigue nuestras directrices.

Respuesta todavía más larga

Consulta una respuesta aún más elaborada a la pregunta "¿Cómo funciona la Búsqueda de Google?" (con imágenes y vídeos)