How Google Search Works

¿Cómo funciona Google? En este artículo ofrecemos una respuesta corta y una larga a esta pregunta.

Recibimos información de muchas fuentes diferentes, incluidas las siguientes:

  • Páginas web
  • Contenido enviado por usuarios, como el que nos envían en Google My Business o Maps
  • Libros escaneados
  • Bases de datos públicas en Internet
  • Muchas otras fuentes

Sin embargo, en este artículo nos centramos en las páginas web.

Respuesta corta

Seguimos tres pasos básicos para generar resultados de páginas web:

Rastreo

El primer paso es averiguar qué páginas hay en la Web. Como no hay ningún registro central con todas las páginas web, tenemos que buscar páginas nuevas constantemente y añadirlas a nuestra lista de páginas conocidas. Algunas páginas las conocemos porque ya las hemos visitado en algún momento; otras, en cambio, las encontramos al seguir enlaces de páginas conocidas que nos llevan a ellas. También descubrimos páginas cuando los propietarios de sitios web nos facilitan una lista con sus páginas (es decir, un sitemap) para que las rastreemos. Asimismo, es posible que un proveedor de alojamiento web gestionado, como Wix o Blogger, nos solicite que rastreemos páginas nuevas o actualizadas.

Una vez que descubrimos la URL de una página, la visitamos (rastreamos) para averiguar qué contiene. Renderizamos la página y analizamos el contenido textual y no textual, además del diseño visual general, para decidir cómo mostrarla en los resultados de la Búsqueda. Cuanto mejor entendamos tu sitio web, mejor podremos relacionarlo con los usuarios que buscan ese contenido.

Para mejorar el rastreo de tu sitio web, sigue estos consejos:

  • Asegúrate de que podamos acceder a las páginas de tu sitio web y de que se muestren correctamente. Cuando rastreamos la Web, lo hacemos como usuario anónimo (es decir, un usuario sin contraseñas ni información). Por tanto, para que podamos interpretar correctamente tu página, tienes que confirmar que se pueda acceder a todas sus imágenes y otros elementos de forma anónima. Puedes comprobarlo rápidamente escribiendo la URL de tu página en la prueba de optimización para móviles.
  • Si creas o modificas una sola página, puedes enviarnos esa URL concreta. Para informarnos de muchas páginas nuevas o actualizadas a la vez, mejor envíanos un sitemap.
  • Si solicitas que rastreemos solo una página, márcala como tu página principal para que la consideremos la más importante de tu sitio web. Si quieres que rastreemos todo el sitio web, asegúrate de que todas tus páginas web tengan un buen sistema de navegación que incluya enlaces a todas las secciones y páginas web importantes de tu sitio web; de este modo, ayudarás tanto a los usuarios como a nuestros rastreadores a desplazarnos fácilmente por tu contenido. Si tu sitio es pequeño (tiene menos de 1000 páginas), basta con que nos indiques cuál es tu página principal, siempre que desde ahí se pueda acceder al resto de las páginas siguiendo una ruta de enlaces.
  • Consigue que haya enlaces a tu página web en páginas que ya conozcamos. No obstante, ten en cuenta que no seguiremos los enlaces que estén en anuncios, aquellos por los que hayas pagado para que se incluyan en otros sitios web, los que aparezcan en comentarios ni los que infrinjan las Directrices para webmasters de Google.
No aceptamos pagos para rastrear sitios web con mayor frecuencia ni para mejorar su posicionamiento. Si alguien te dice lo contrario, se equivoca.

Indexación

Después de descubrir una página, intentamos interpretar su contenido. Este proceso se denomina "indexación". Analizamos el contenido de la página, catalogamos sus archivos de imagen y vídeo y tratamos de entenderla. Toda esta información se guarda en el índice de Google, una enorme base de datos almacenada en muchísimos ordenadores.

Para mejorar la indexación de tu página, sigue estos consejos:

  • Crea títulos de página cortos y que sean descriptivos.
  • Utiliza encabezados de página que reflejen el tema principal.
  • Transmite el contenido con texto mejor que con imágenes. Podemos interpretar algunos vídeos e imágenes, pero no con la misma facilidad con la que entendemos el texto. Como mínimo, incluye texto alternativo u otros atributos en tus vídeos e imágenes, según corresponda.

Publicación (y posicionamiento)

Cuando los usuarios introducen sus consultas, intentamos encontrar la respuesta más pertinente en nuestro índice en función de muchos factores. Tratamos de determinar las respuestas de mayor calidad y tenemos en cuenta muchos aspectos, como la ubicación, el idioma y el dispositivo de los usuarios (ordenador o teléfono), para averiguar qué resultado ofrecerá la mejor experiencia de usuario y la respuesta más adecuada. Por ejemplo, si un usuario de Barcelona busca "talleres de reparación de bicicletas", obtendrá respuestas diferentes a los de usuarios de Hong Kong que hagan la misma consulta. No aceptamos pagos para mejorar el posicionamiento de páginas web; esta clasificación se hace automáticamente.

Para mejorar la publicación y el posicionamiento, sigue estos consejos:

Respuesta larga

¿Quieres obtener más información? Te la mostramos a continuación:

Respuesta larga

Rastreo

El rastreo es el proceso mediante el cual el robot de Google visita páginas nuevas y actualizadas para añadirlas al índice de Google.

Utilizamos una enorme cantidad de ordenadores para obtener (o "rastrear") miles de millones de páginas de la Web. El programa encargado de recuperar este contenido es el robot de Google, también conocido simplemente como robot o araña. El robot de Google determina mediante algoritmos qué sitios web deben rastrearse, con qué frecuencia tiene que hacerse y cuántas páginas hay que obtener de cada uno de ellos.

El proceso de rastreo de Google empieza con una lista de URLs de páginas web generada a partir de rastreos anteriores que se amplía con los datos de sitemaps que nos envían los webmasters. Cuando el robot de Google visita páginas, encuentra los enlaces que contienen y los añade a la lista de páginas para rastrear. Los sitios web nuevos, los cambios en los que ya conocemos y los enlaces obsoletos se detectan y se utilizan para actualizar el índice de Google.

Cuando rastreamos una página, la renderizamos con una versión reciente de Chrome y, durante el proceso, ejecutamos todas las secuencias de comandos de la página que encontramos. Si generas contenido dinámicamente en tu sitio web, asegúrate de seguir los conceptos básicos de SEO en JavaScript.

Rastreo principal y secundario

Al rastrear sitios web, utilizamos dos rastreadores diferentes: uno de móviles y otro de ordenadores. Cada uno simula un usuario que visita la página desde el tipo de dispositivo correspondiente.

Por lo general, elegimos uno de los dos (el de móviles o el de ordenadores) como el rastreador principal de tu sitio web y con él rastreamos todas sus páginas. Todos los sitios web nuevos tienen como rastreador principal el rastreador de móviles.

Después, volvemos a rastrear algunas de tus páginas con el otro tipo de rastreador. Este rastreo secundario sirve para comprobar si tu sitio web funciona correctamente con el otro tipo de dispositivo.

¿Cómo sabe Google qué páginas no debe rastrear?

  • No rastreamos las páginas bloqueadas en archivos robots.txt, pero es posible que las indexemos si hay enlaces a ellas en otras páginas. Podemos deducir el contenido de una página si tenemos un enlace que lleve a ella e indexarla sin analizar su contenido.
  • No podemos rastrear las páginas a las que no se puede acceder de forma anónima, por lo que, si una página requiere iniciar sesión o cuenta con otras medidas de autorización, no se podrá rastrear.
  • Rastreamos con menos frecuencia las páginas que ya hayan sido rastreadas y se consideren duplicadas de otra página.

Mejorar el rastreo

Con estas técnicas, nos ayudarás a descubrir las páginas adecuadas de tu sitio web:

Indexación

El robot de Google procesa todas las páginas que rastrea para entender su contenido. Además del contenido textual, procesa la información incluida en etiquetas y atributos de contenido importantes, como las etiquetas <title>, los atributos "alt", las imágenes, los vídeos, etc. Aunque el robot de Google puede analizar muchos tipos de contenido, no puede analizarlos todos, incluido el de algunos archivos de rich media.

Una vez rastreada una página, pero antes de indexarla, determinamos si es una versión duplicada o canónica de otra. Si consideramos que la página es un duplicado, se rastreará con mucha menos frecuencia. Las páginas similares se agrupan en un documento, que es un grupo de al menos una página en el que se incluye la página canónica (la más representativa del grupo) y los duplicados que se hayan encontrado. Los duplicados pueden ser simplemente URL alternativas para llegar a una misma página o versiones alternativas para móviles u ordenadores.

Google no indexa ninguna página que contenga una directiva noindex, ya sea en su encabezado o en una etiqueta. Sin embargo, para respetar esta directiva, primero tiene que poder verla; por tanto, si una página está bloqueada por un archivo robots.txt, requiere iniciar sesión o está bloqueada de algún otro modo, es posible que la acabemos indexando aunque no la hayamos visitado.

Mejorar la indexación

Existen muchas técnicas para ayudarnos a entender mejor el contenido de tus páginas:

¿Qué es un "documento"?

Internamente, en Google representamos la Web como un enorme conjunto de documentos. Cada documento representa una o varias páginas web que son idénticas o muy parecidas; básicamente un mismo contenido al que se puede acceder desde distintas URL. Estas URL pueden llevar a la misma página (por ejemplo, example.com/vestidos/verano/1234 y example.com?producto=1234 pueden dirigir al mismo contenido) o a una página idéntica, pero con pequeñas variaciones dirigidas a usuarios de diferentes dispositivos (por ejemplo, example.com/mipagina para usuarios de ordenadores y m.example.com/mipagina para usuarios de móviles).

Google elige una de esas URL y la marca como la URL canónica del documento. Esa es la URL que rastreamos e indexamos con más frecuencia. Las demás se consideran duplicadas o alternativas y se rastrean de vez en cuando. También es posible que se sirvan según las características de las solicitudes de los usuarios; por ejemplo, aunque la URL canónica de un documento sea la URL para móviles, es probable que sirvamos la URL alternativa para ordenadores a los usuarios que hagan búsquedas desde estos dispositivos.

La mayoría de los informes de Search Console atribuyen los datos a la URL canónica de los documentos. En algunas herramientas, como la herramienta de inspección de URLs, se pueden comprobar URL alternativas, pero lo normal es que, al inspeccionar la URL canónica, también se obtenga información sobre las alternativas.

Puedes indicar a Google cuál es la URL que consideras canónica, pero es posible que Google elija otra distinta por varios motivos.

A continuación se incluye un breve glosario de términos donde se indica cómo se usan en Search Console:

  • Documento: conjunto de páginas similares que está formado por una URL canónica y, posiblemente, URL alternativas si hay páginas duplicadas en tu sitio web. Las URL de un documento pueden ser de la misma organización (el dominio raíz, como "google" en www.google.com) o de organizaciones distintas. A la hora de elegir la mejor URL que mostrar en los resultados de búsqueda, Google tiene en cuenta la plataforma (móvil u ordenador), el idioma de los usuarios o su ubicación, entre muchas otras variables. Google descubre páginas relacionadas en tu sitio web mediante el rastreo orgánico o mediante funciones implementadas en el propio sitio web, como redirecciones o etiquetas <link rel=alternate/canonical>. Las páginas relacionadas que sean de otras organizaciones solo se pueden marcar como alternativas si se indica de forma explícita mediante redirecciones o etiquetas de enlace.
  • URL: la URL con la que se accede a un contenido determinado de un sitio web. Puede haber distintas URL que conducen a una misma página.
  • Página: una página web concreta, a la que se accede mediante una o varias URL. Una página puede tener diferentes versiones para las distintas plataformas desde las que pueden acceder los usuarios (móviles, ordenadores, tablets, etc.).
  • Versión: variación de una página, que suele ser "móvil", "ordenador" o "AMP", aunque AMP también puede tener versiones para móviles y ordenadores. En función de cómo esté configurado tu sitio web, cada versión puede tener una URL diferente (example.com y m.example.com) o usar la misma; por ejemplo, si tu sitio web utiliza la publicación dinámica o un diseño web adaptable, en la misma URL se pueden mostrar diferentes versiones de la misma página. Las variaciones de idioma no se consideran versiones diferentes, sino documentos diferentes.
  • Página o URL canónica: la URL que Google considera más representativa de un documento y la que rastrea siempre. En ocasiones, también se rastrean las URL duplicadas de los documentos.
  • Página o URL alternativa o duplicada: URL de un documento que Google rastrea de vez en cuando. A veces, estas URL se publican si son más adecuadas para un usuario y una solicitud concretos; por ejemplo, en las solicitudes que provienen de ordenadores se sirven URLs para ordenadores, aunque sean versiones alternativas y su página canónica sea para móviles.
  • Sitio web: normalmente se refiere a un conjunto de páginas web que están relacionadas por un concepto. A veces este término se utiliza como sinónimo de propiedad de Search Console, aunque en realidad una propiedad puede ser solo una parte de un sitio. Un sitio web puede abarcar varios subdominios e incluso organizaciones, si tienen páginas AMP enlazadas correctamente.

Las páginas que tienen el mismo contenido en diferentes idiomas se almacenan en documentos distintos que se hacen referencia entre sí mediante etiquetas hreflang; por eso es importante marcar el contenido traducido mediante etiquetas hreflang.

Cómo se muestran los resultados

Cuando los usuarios introducen sus consultas, nuestro sistema busca en el índice páginas que coincidan con ellas y muestra los resultados que considera más relevantes. Para determinar esta relevancia, el sistema tiene en cuenta cientos de factores. Trabajamos constantemente para mejorar nuestro algoritmo. La experiencia de usuario es uno de los factores que consideramos al elegir y clasificar resultados, por lo que te recomendamos que tus páginas se carguen rápidamente y estén optimizadas para móviles.

Mejorar los resultados

  • Si tus resultados van dirigidos a usuarios de ubicaciones concretas o que hablen determinados idiomas, puedes indicarnos tus preferencias.
  • Asegúrate de que tus páginas se carguen rápidamente y estén optimizadas para móviles.
  • Sigue las directrices para webmasters; de este modo, evitarás errores habituales y mejorarás el posicionamiento de tu sitio web.
  • Te recomendamos que implementes funciones de resultados de búsqueda en tu sitio web, como tarjetas de recetas o de artículos.
  • Implementa AMP para que tus páginas se carguen más rápido en dispositivos móviles. Algunas páginas AMP también pueden aparecer en funciones de búsqueda adicionales, como el carrusel Noticias destacadas.
  • Mejoramos nuestro algoritmo constantemente, así que en lugar de tratar de averiguar sus criterios y diseñar tu página en consecuencia, crea contenido de calidad y actualizado que resulte interesante a los usuarios y sigue nuestras directrices.

Respuesta todavía más larga

Consulta una respuesta aún más elaborada a la pregunta "¿Cómo funciona la Búsqueda de Google? (con imágenes y vídeos).