Unificar URLs duplicadas

Si tienes una página a la que se puede acceder mediante varias URLs, o bien páginas diferentes con contenido similar (por ejemplo, una página para móviles y otra para ordenadores), Google las considerará versiones duplicadas de la misma página. En este caso, elegirá una URL como canónica, que es la que rastreará, y considerará que las otras URLs son duplicados, por lo que las rastreará con menos frecuencia.

Si no indicas explícitamente qué URL es la canónica, Google la seleccionará por ti, aunque también es posible que acabe considerando que todas tienen la misma importancia, lo que podría generar un comportamiento no deseado, tal como se explica en la sección Motivos por los que elegir una URL canónica.

Cómo indexa y elige el robot de Google la URL canónica

Cuando el robot de Google indexa sitios, intenta determinar cuál es el contenido principal de cada página. Si detecta que en un mismo sitio hay varias páginas con contenido muy similar, marca como canónica la página que considera más completa y útil. Esa será la página que se rastreará con mayor frecuencia; las versiones duplicadas no se rastrean tan a menudo para reducir la carga del rastreo de Google de tu sitio.

Para elegir las páginas canónicas, Google tiene en cuenta diferentes factores (denominados señales), como los siguientes: si la página se sirve mediante HTTP o HTTPS, la calidad que tiene, si la URL está en un sitemap y si la página incluye la etiqueta rel=canonical. Puedes indicar a Google qué página consideras que es la canónica con las técnicas que se describen en este artículo, pero es posible que Google elija otra por diversos motivos.

Las diferentes versiones de una página no se consideran duplicadas si su contenido principal no está en el mismo idioma. Es decir, si únicamente están traducidos el encabezado, el pie de página y otros textos no importantes, pero no ese contenido principal, las páginas se consideran duplicadas.

Google utiliza como referencia las páginas canónicas para evaluar el contenido y la calidad. Los resultados de la Búsqueda de Google suelen redirigir a páginas canónicas, a menos que un duplicado se adapte mejor a la consulta del usuario. Por ejemplo, es probable que a los usuarios de dispositivos móviles se les muestren páginas para móviles, aunque la URL canónica de esas páginas sea la de la versión para ordenadores.

Razones válidas para mantener páginas similares o duplicadas

Hay varios motivos legítimos para tener URLs diferentes que lleven a la misma página de tu sitio, o bien para tener páginas duplicadas o muy similares en URLs distintas. Estos son los más habituales:

  • Ofrecer versiones para varios tipos de dispositivos:
    https://example.com/news/koala-rampage
    https://m.example.com/news/koala-rampage
    https://amp.example.com/news/koala-rampage
  • Habilitar URLs dinámicas para usar parámetros de búsqueda o IDs de sesión:
    https://www.example.com/products?category=dresses&color=green
    https://example.com/dresses/cocktail?gclid=ABCD
    https://www.example.com/dresses/green/greendress.html
  • Si el sistema de blogs que utilizas guarda automáticamente varias URLs al colocar la misma entrada en diferentes secciones:
    https://blog.example.com/dresses/green-dresses-are-awesome/
    https://blog.example.com/green-things/green-dresses-are-awesome/
  • Si tu servidor está configurado para publicar el mismo contenido en las variantes con www, sin www, HTTP o HTTPS de una página:
    http://example.com/green-dresses
    https://example.com/green-dresses
    http://www.example.com/green-dresses
    
  • Si incluyes contenido en un blog para distribuirlo a otros sitios y este contenido se replica parcial o totalmente en ellos:
    https://news.example.com/green-dresses-for-every-day-155672.html (entrada distribuida) https://blog.example.com/dresses/green-dresses-are-awesome/3245/ (entrada original)

Motivos por los que elegir una URL canónica

Hay varios motivos por los que deberías marcar explícitamente como canónica una página de un conjunto de páginas duplicadas o similares:

  • Indicar la URL que quieres que se muestre en los resultados de búsqueda. Por ejemplo, si tienes una página donde se venden vestidos verdes, quizá prefieras que los usuarios la visiten desde https://www.example.com/dresses/green/greendress.html y no desde https://example.com/dresses/cocktail?gclid=ABCD.
  • Unificar las señales de enlaces de páginas similares o duplicadas. Si eliges una URL canónica, los buscadores pueden agrupar la información que tienen de diferentes URLs (por ejemplo, los enlaces a ellas) y asociarla a la URL que has elegido. Siguiendo con el ejemplo anterior, los datos de los enlaces a http://example.com/dresses/cocktail?gclid=ABCD que haya en otros sitios se combinarán con los de los enlaces a https://www.example.com/dresses/green/greendress.html.
  • Simplificar las métricas de seguimiento de un mismo producto o tema. Si hay varias URLs, es más difícil consultar métricas unificadas de un contenido concreto.
  • Gestionar el contenido distribuido. Si distribuyes tu contenido para que se publique en otros dominios, te interesa que en los resultados de búsqueda aparezcan las URLs que hayas marcado como preferidas.
  • Ahorrar tiempo de rastreo en páginas duplicadas. Te interesa que el robot de Google aproveche al máximo el tiempo que pasa en tu sitio, por lo que es mejor que rastree las páginas nuevas o actualizadas que las versiones para móviles y para ordenadores de una misma página.

Saber cuál es la página que Google considera canónica

Puedes ver cuál es la página que Google considera canónica con la herramienta de inspección de URLs.

Indicar páginas canónicas

Para especificar una URL canónica de URLs duplicadas o de páginas similares, elige uno de los métodos indicados más abajo. Recuerda seguir las directrices generales.

Método y descripción
Etiqueta rel=canonical <link>

Añade al código de todas las páginas duplicadas una etiqueta <link> que dirija a la página canónica.

Ventajas:
  • El número de páginas duplicadas que se pueden mapear es ilimitado.

Inconvenientes:

  • Puede aumentar el tamaño de las páginas.
  • Puede resultar complicado mantener el mapeo en sitios grandes o en los que las URLs cambian con frecuencia.
  • Solo funciona en páginas HTML, no en archivos (como PDFs). En estos casos, puede utilizarse el encabezado HTTP rel=canonical.
Encabezado HTTP rel=canonical

Envía un encabezado rel=canonical en la respuesta de la página.

Ventajas:

  • No aumenta el tamaño de la página.
  • El número de páginas duplicadas que se pueden mapear es ilimitado.

Inconvenientes:

  • Puede resultar complicado mantener el mapeo en sitios grandes o en los que las URLs cambian con frecuencia.
Sitemap

Indica las páginas canónicas en un sitemap.

Ventajas:

  • Es fácil de hacer y de mantener, especialmente en sitios grandes.

Inconvenientes:

  • Aunque uses este método, el robot de Google debe determinar las páginas duplicadas asociadas a las páginas canónicas que se declaran en el sitemap.
  • La señal que se envía al robot de Google es más débil que la que se envía con la técnica de mapeo rel=canonical.
Redirección 301 Con las redirecciones 301, puedes indicar al robot de Google que prefieres una URL de redirección a otra URL. Utiliza este método solo cuando quieras retirar páginas duplicadas.
Variante AMP Si una de las variantes es una página AMP, sigue las directrices de AMP para indicar la página canónica y la variante de AMP.

Directrices generales

Independientemente del método que utilices para seleccionar páginas canónicas, sigue estas directrices generales:

  • No uses un archivo robots.txt para marcar páginas como canónicas.
  • No uses la herramienta de retirada de URLs para marcar páginas como canónicas, ya que quita todas las versiones de una URL de la Búsqueda.
  • No marques como canónicas URLs diferentes que lleven a una misma página, ni con la misma técnica ni con varias. Por ejemplo, no indiques una URL en un sitemap y otra de la misma página mediante rel="canonical".
  • No utilices directivas noindex para impedir que se seleccione una determinada página como canónica. Esas directivas sirven para excluir páginas del índice, no para gestionar el proceso de canonicalización.
  • Indica cuál es la página canónica cuando utilices etiquetas hreflang. La página canónica debería estar en el mismo idioma; si no está disponible en ese idioma, selecciona la página del idioma que consideres más adecuado.

  • Incluye URLs canónicas (no duplicadas) en los enlaces internos de tu sitio; de esa manera, Google sabrá cuáles prefieres.

Es mejor utilizar HTTPS que HTTP en URLs canónicas

Google prefiere que se marquen como canónicas páginas HTTPS a sus equivalentes HTTP, excepto cuando hay problemas o señales contradictorias, como los siguientes:

  • Si la página HTTPS tiene un certificado SSL no válido.
  • Si la página HTTPS contiene dependencias que no son seguras (y no son imágenes).
  • Si la página HTTPS redirige a los usuarios a una página HTTP o hace que pasen por una página de este tipo.
  • Si la página HTTPS tiene un enlace rel="canonical" a la página HTTP.

Aunque de forma predeterminada los sistemas de Google prefieren las páginas HTTPS a las HTTP, para asegurarte de que elijan esas URLs, sigue estos pasos:

  • Añade redirecciones de las páginas HTTP a las páginas HTTPS.
  • Añade enlaces rel="canonical" a las páginas HTTP que lleven a la página HTTPS equivalente.
  • Implementa HSTS.

Para evitar que Google marque de forma incorrecta la versión HTTP de una página como canónica, evita lo siguiente:

  • Procura no usar certificados TLS/SSL incorrectos ni redirecciones de HTTPS a HTTP, ya que hacen que Google tenga una clara preferencia por las versiones HTTP. Implementar HSTS no es suficiente para anular esta preferencia.
  • Evita incluir en tu sitemap o en entradas hreflang la versión HTTP de una página en lugar de la versión HTTPS.
  • Procura no implementar un certificado SSL o TLS en la variante de host incorrecta. Por ejemplo, que en example.com esté el certificado de www.example.com. Los certificados deben coincidir con la URL completa de los sitios, o bien ser certificados comodín que puedan usarse en varios subdominios de un mismo dominio.

(Solo para usuarios avanzados) Indicar a Google que ignore determinados parámetros dinámicos

Con el manejo de parámetros, puedes indicar al robot de Google qué parámetros debe ignorar cuando rastree tu sitio. De este modo, puedes reducir el contenido duplicado que hay en el índice de Google y facilitar la tarea de rastrear tu sitio. Por ejemplo, si especificas que debe ignorarse el parámetro sessionid, el robot de Google considerará que las dos URLs siguientes son duplicados:

  • https://www.example.com/dresses/green.php?sessionid=273749
  • https://www.example.com/dresses/green.php

Puedes indicar que una página es un duplicado añadiendo una etiqueta <link> a la sección head de tu código HTML.

Supongamos que tienes varias URLs que dirigen al mismo contenido, pero quieres que la canónica sea https://example.com/dresses/green-dresses. Para marcar esa URL como canónica, sigue estos pasos:

  1. Incluye en todas las páginas duplicadas un elemento de enlace rel="canonical".

    Añade a la sección <head> de las páginas duplicadas un elemento <link> que tenga el atributo rel="canonical" y que dirija a la página canónica. Por ejemplo:

    <link rel="canonical" href="https://example.com/dresses/green-dresses" />
  2. Si la página canónica tiene una variante para móviles, añade a la página un enlace rel="alternate" que dirija a la versión para móviles:
    <link rel="alternate" media="only screen and (max-width: 640px)"  href="http://m.example.com/dresses/green-dresses">
  3. Añade los atributos hreflang u otras redirecciones que sean adecuadas para la página.

Utilizar un encabezado HTTP rel="canonical"

Si puedes configurar tu servidor, puedes indicar la URL canónica de documentos compatibles con la Búsqueda, incluidos documentos que no sean HTML (como archivos PDF), mediante encabezados HTTP rel="canonical", y no con etiquetas HTML.

Si muestras un archivo PDF a través de varias URLs, puedes devolver un encabezado HTTP rel="canonical" para indicar al robot de Google cuál es la URL canónica del archivo PDF:

Link: <http://www.example.com/downloads/white-paper.pdf>; rel="canonical"

De momento, Google solo admite este método en los resultados de búsqueda web.

Utilizar un sitemap

Elige las URLs canónicas de todas las páginas de tu sitio y envíalas en un sitemap. Todas las páginas que figuran en los sitemaps se sugieren como canónicas; si hay páginas duplicadas, el robot de Google decidirá cuáles son en función de la similitud del contenido.

No garantizamos que vayamos a considerar como canónicas las URLs incluidas en un sitemap; no obstante, los sitemaps son una forma sencilla de determinar las páginas canónicas de los sitios grandes, así como un método útil para indicar a Google cuáles son las páginas de tu sitio que consideras más importantes.

Si utilizas un sitemap, no incluyas en él páginas que no sean canónicas; especifica únicamente las URLs canónicas.

Utilizar redirecciones 301 para URLs retiradas

Utiliza este método cuando quieras deshacerte de las páginas duplicadas que tengas y asegurarte de que la transición a las nuevas URLs se haga sin problemas antes de retirar las antiguas.

Supongamos que se puede acceder a una de tus páginas de varias maneras:

  • https://example.com/home
  • https://home.example.com
  • https://www.example.com

Selecciona una de estas URLs como canónica y utiliza redirecciones 301 para enviar el tráfico de las otras URLs a la canónica. Las redirecciones 301 configuradas en el servidor son la mejor forma de asegurarte de que se redirija a los usuarios y a los buscadores a la página correcta. Con el código de estado 301, se indica que una página se ha trasladado de forma permanente a otra ubicación.

Si utilizas un servicio de alojamiento web, busca documentación sobre cómo configurar redirecciones 301.

Solucionar problemas

Si una URL canónica está en una propiedad que no es tuya, no podrás ver el tráfico de la página duplicada. Estos son algunos de los motivos más habituales por los que una URL canónica puede encontrarse en otra propiedad:

  • Versiones en otros idiomas marcadas de forma incorrecta: si tienes varios sitios que publican prácticamente el mismo contenido, pero localizado para llegar a diferentes usuarios de todo el mundo, sigue nuestras directrices sobre sitios localizados.
  • Etiquetas canónicas incorrectas: algunos sistemas de gestión de contenido (CMS) o algunos de sus complementos no utilizan adecuadamente las técnicas de canonicalización cuando dirigen a URLs de sitios externos. Revisa tu contenido para saber si este es tu caso. Si en tu sitio se indica una URL canónica que no esperabas (por ejemplo, porque se usa incorrectamente rel="canonical" o una redirección 301), corrige este problema directamente.
  • Servidores mal configurados: si tu host no está bien configurado, en algunos casos se puede seleccionar una URL de otro dominio que no se esperaba. Por ejemplo:
    • Puede que un servidor se haya configurado incorrectamente y devuelva contenido de "a.com" cuando responde a solicitudes de una URL de "b.com".
    • Puede que dos servidores web que no estén relacionados devuelvan páginas soft 404 idénticas que Google no pueda identificar como páginas de error.
  • Piratería maliciosa: a veces, cuando se ataca un sitio web, se introduce código que devuelve una redirección HTTP 301 o que incluye un elemento de enlace rel="canonical" que lleva a otro dominio en la etiqueta del documento HTML <head> o en el encabezado HTTP. Este código suele dirigir a una URL que aloja contenido malicioso o fraudulento. En estos casos, es posible que nuestros algoritmos seleccionen la URL maliciosa o fraudulenta en vez de la URL del sitio web pirateado.
  • Sitio web copiado: muy de vez en cuando, es posible que nuestro algoritmo seleccione una URL de un sitio externo que incluya tu contenido sin permiso. Si crees que otro sitio está duplicando tu contenido e infringe de esta forma la legislación sobre derechos de autor, puedes ponerte en contacto con el host de ese sitio y solicitarle que retire ese contenido. Además, puedes pedir a Google que retire directamente esa página de los resultados de búsqueda presentando una solicitud basada en la ley estadounidense de protección de los derechos de autor (DMCA).