Guía detallada sobre cómo funciona la Búsqueda de Google
La Búsqueda de Google es un motor de búsqueda completamente automatizado que usa software conocido como rastreadores web para explorar la Web con regularidad en busca de páginas que se puedan agregar a nuestro índice. De hecho, la mayoría de las páginas que se muestran en los resultados no se envían de forma manual, sino que se encuentran y se agregan automáticamente cuando nuestros rastreadores exploran la Web. En este documento, se explican las etapas del funcionamiento de la Búsqueda en el contexto de tu sitio web. Con estos conocimientos básicos, podrás corregir los problemas de rastreo, indexar tus páginas y obtener más información para optimizar la forma en que aparece tu sitio en la Búsqueda de Google.
Algunas notas antes de comenzar
Antes de entrar en detalles sobre el funcionamiento de la Búsqueda, es importante tener en cuenta que Google no acepta pagos para rastrear un sitio con mayor frecuencia o darle una clasificación más alta. Si alguien te dice lo contrario, se equivoca.
Google no garantiza que se rastree, indexe o publique tu página, incluso si esta sigue los conceptos básicos sobre la Búsqueda de Google.
Presentamos las tres etapas de la Búsqueda de Google
La Búsqueda de Google funciona en tres etapas, y no todas las páginas pasan por cada una:
- Rastreo: Google descarga texto, imágenes y videos de páginas que encontró en Internet con programas automatizados llamados rastreadores.
- Indexación: Google analiza los archivos de texto, de imágenes y de video de la página, y almacena la información en el índice de Google, que es una base de datos de gran tamaño.
- Entrega de resultados de la búsqueda: Cuando un usuario realiza una búsqueda en Google, se muestra información relevante para la consulta del usuario.
Rastreo
La primera etapa consiste en averiguar qué páginas existen en la Web. Ya que no hay un registro central donde figuren todas las páginas web existentes, Google debe buscar páginas nuevas y actualizadas constantemente para agregarlas a su lista de páginas conocidas. Este proceso se llama "Descubrimiento de URL". Algunas páginas son conocidas porque Google ya las visitó en algún momento. Por otro lado, Google descubre otras páginas cuando sigue un vínculo de una página conocida que se dirige a una nueva: por ejemplo, una página central, como la página de una categoría, se vincula a una entrada de blog nueva. También se descubren otras páginas cuando envías una lista de páginas (un mapa del sitio) para que Google las rastree.
Una vez que Google descubre la URL de una página, puede visitarla (o "rastrearla") para ver qué contiene. Usamos una cantidad enorme de computadoras para rastrear miles de millones de páginas web. El programa que realiza la búsqueda se llama Googlebot (también conocido como "rastreador", "robot", "bot" o "araña"). Googlebot utiliza un proceso algorítmico para determinar los sitios que se rastrearán, la frecuencia del rastreo y la cantidad de páginas de cada sitio que formarán parte de esa búsqueda. Los rastreadores de Google también están programados para no rastrear el sitio demasiado rápido a fin de evitar sobrecargarlo. Este mecanismo se basa en las respuestas del sitio (por ejemplo, los errores HTTP 500 significan "ralentizar").
Sin embargo, Googlebot no rastrea todas las páginas que descubrió. Es posible que el propietario del sitio impida el rastreo de algunas páginas y que no se pueda acceder a otras sin ingresar al sitio.
Durante el rastreo, Google procesa la página y ejecuta cualquier JavaScript que encuentre con una versión reciente de Chrome, de manera similar a como el navegador procesa las páginas que visitas. El procesamiento es importante porque los sitios web suelen depender de JavaScript para agregar contenido a la página y, sin este, es posible que Google no lo vea.
El rastreo depende de si los rastreadores de Google pueden acceder al sitio o no. Estos son algunos de los problemas habituales relacionados con el acceso de Googlebot a los sitios:
- Problemas con el servidor que maneja el sitio
- Problemas de red
- Reglas de robots.txt que impiden que Googlebot acceda a la página
Indexación
Después de que se rastrea una página, Google intenta comprender de qué se trata. Esta etapa se denomina indexación y, además, incluye el procesamiento y el análisis del contenido del texto y las etiquetas y los atributos del contenido clave, como los elementos <title>
y los atributos alt. ,
imágenes,
videos y
mucho más.
Durante el proceso de indexación, Google determina si una página es el duplicado de otra página en Internet o es canónica. La página canónica es la que puede aparecer en los resultados de la búsqueda. Para seleccionar la página canónica, primero agrupamos (que se conoce como agrupamiento en clústeres) las páginas con contenido similar que encontramos en Internet y, luego, seleccionamos la que sea más representativa del grupo. Las otras páginas del grupo son versiones alternativas que pueden publicarse en diferentes contextos, como cuando el usuario realiza una búsqueda desde un dispositivo móvil o busca una página muy específica de ese clúster.
Google también recopila indicadores sobre la página canónica y su contenido, que se pueden usar en la siguiente etapa, en la que publicamos la página en los resultados de la búsqueda. Algunos indicadores incluyen el idioma de la página, el país en el que es local el contenido, la usabilidad de la página, etcétera.
La información recopilada sobre la página canónica y su clúster se pueden almacenar en el índice de Google, una gran base de datos alojada en miles de computadoras. La indexación no está garantizada. No se indexan todas las páginas que procese Google.
La indexación también depende del contenido de la página y sus metadatos. Estos son algunos problemas comunes de indexación:
- La calidad del contenido de la página es baja.
-
Las reglas Robots
meta
no permiten la indexación. - El diseño del sitio web podría dificultar la indexación.
Publicación de resultados de la búsqueda
Cuando un usuario ingresa una consulta, nuestras máquinas buscan en el índice las páginas que coinciden y muestran los resultados que consideramos más relevantes y de mejor calidad. La relevancia está determinada por cientos de factores, que pueden incluir información como la ubicación del usuario, el idioma y el dispositivo (computadora de escritorio o teléfono). Por ejemplo, si un usuario busca "tiendas de reparación de bicicletas" en París, encontrará distintos resultados que los que vea alguien que consulte lo mismo en Hong Kong.
Según la consulta del usuario, también cambian las funciones de búsqueda que aparecen en la página de resultados de búsqueda. Por ejemplo, si el usuario busca "tiendas de reparación de bicicletas" se mostrarán resultados locales y no resultados de imágenes; sin embargo, es más probable que se muestren resultados de imágenes y no resultados locales si busca "bicicleta moderna". Puedes explorar los elementos de la IU más comunes de la Búsqueda web de Google en nuestra Galería de elementos visuales.
Search Console podría indicarte que se indexó una página, pero no la ves en los resultados de la búsqueda. Esto podría deberse a lo siguiente:
- El contenido de la página es irrelevante para las consultas de los usuarios.
- La calidad del contenido es baja.
-
Las reglas Robots
meta
impiden la publicación.
Si bien en esta guía se explica cómo funciona la Búsqueda, trabajamos constantemente para mejorar nuestros algoritmos. Para hacer un seguimiento de estos cambios, visita el blog de la Central de la Búsqueda de Google.