Fusionar URL duplicadas

Si tienes una página a la que se puede acceder mediante varias URL, o bien páginas diferentes con contenido similar (por ejemplo, una página para móviles y otra para ordenadores), Google las considerará versiones duplicadas de la misma página. En este caso, elegirá una URL como canónica, que es la que rastreará, y considerará que las otras URL son duplicados, por lo que las rastreará con menos frecuencia.

Si no indicas explícitamente qué URL es la canónica, Google la seleccionará por ti, aunque también es posible que acabe considerando que todas tienen la misma importancia, lo que podría generar un comportamiento no deseado, tal como se explica en la sección ¿Por qué debería elegir una URL canónica?

¿Qué es una URL canónica?

Una URL canónica es la URL de la página que Google considera más representativa de un conjunto de páginas duplicadas de tu sitio. Por ejemplo, si tienes varias URL que dirigen a la misma página (como example.com?dress=1234 y example.com/dresses/1234), Google elegirá una como URL canónica. Ten en cuenta que las páginas no tienen por qué ser idénticas, ya que no se consideran páginas únicas si incluyen cambios poco importantes, como en el modo en que está ordenada la página o en que se filtran las páginas de lista, por lo que no importa si los elementos están ordenados por precio ni si se han filtrado los de determinado color.

La URL canónica incluso puede pertenecer a un dominio distinto a la duplicada.

Más detalles

Cuando el robot de Google indexa sitios, intenta determinar cuál es el contenido principal de cada página. Si detecta que en un mismo sitio hay varias páginas con contenido muy similar, marca como canónica la página que considera más completa y útil. Esa será la página que se rastreará con mayor frecuencia; las versiones duplicadas no se rastrearán tan a menudo para reducir la carga de rastreo de Google de tu sitio.

Para elegir las páginas canónicas, Google tiene en cuenta diferentes factores (denominados señales), como los siguientes: si la página se publica mediante HTTP o HTTPS, la calidad que tiene, si la URL está en un sitemap y si la página incluye la etiqueta rel=canonical. Puedes indicar a Google qué página consideras que es la canónica con las técnicas que se describen en este artículo, pero es posible que Google elija otra por diversos motivos.

Si una página tiene varias versiones en idiomas diferentes, para que esas versiones no se consideren duplicados, el contenido principal tiene que estar traducido; es decir, por mucho que el encabezado, el pie de página y otros textos no importantes de una versión estén localizados, si el contenido principal no lo está, se considerará que esa versión es un duplicado de la página canónica.

Google se basa en las versiones canónicas para evaluar el contenido y la calidad de las páginas. En los resultados de la Búsqueda de Google suelen aparecer páginas canónicas, a menos que un duplicado se adapte mejor a la consulta de un usuario. Por ejemplo, es probable que a los usuarios de dispositivos móviles se les muestren páginas para móviles, aunque la canónica de esas páginas sea la versión para ordenadores.

¿Por qué es posible que tenga páginas similares o duplicadas?

Hay varios motivos legítimos para tener URL diferentes que lleven a la misma página de tu sitio, o bien páginas duplicadas o muy similares en URL distintas. Estos son los más habituales:

  • Ofrecer versiones para varios tipos de dispositivos:
    https://example.com/news/koala-rampage
    https://m.example.com/news/koala-rampage
    https://amp.example.com/news/koala-rampage
  • Habilitar URL dinámicas para usar parámetros de búsqueda o IDs de sesión:
    https://www.example.com/products?category=dresses&color=green
    https://example.com/dresses/cocktail?gclid=ABCD
    https://www.example.com/dresses/green/greendress.html
  • Si tienes un blog y el sistema que usas guarda automáticamente varias URL cuando colocas la misma entrada en diferentes secciones:
    https://blog.example.com/dresses/green-dresses-are-awesome/
    https://blog.example.com/green-things/green-dresses-are-awesome/
  • Si tu servidor está configurado para publicar el mismo contenido en las variantes con www, sin www, HTTP o HTTPS de una página:
    http://example.com/green-dresses
    https://example.com/green-dresses
    http://www.example.com/green-dresses
    
  • Si incluyes contenido en un blog para sindicarlo en otros sitios y este contenido se replica de forma parcial o total en los otros dominios:
    https://news.example.com/green-dresses-for-every-day-155672.html (entrada sindicada) https://blog.example.com/dresses/green-dresses-are-awesome/3245/ (entrada original)

¿Por qué debería elegir una URL canónica?

Hay varios motivos por los que deberías marcar explícitamente como canónica una página de un conjunto de páginas duplicadas o similares:

  • Indicar la URL que quieres que se muestre en los resultados de búsqueda. Por ejemplo, si tienes una página donde se venden vestidos verdes, quizá prefieras que los usuarios la visiten desde https://www.example.com/dresses/green/greendress.html en lugar de https://example.com/dresses/cocktail?gclid=ABCD.
  • Unificar las señales de enlaces de páginas similares o duplicadas. Si eliges una URL canónica, los buscadores pueden agrupar la información que tienen de diferentes URL (por ejemplo, los enlaces a ellas) y asociarla a la URL que has elegido. Siguiendo con el ejemplo anterior, los datos de los enlaces a http://example.com/dresses/cocktail?gclid=ABCD que haya en otros sitios se combinarán con los de los enlaces a https://www.example.com/dresses/green/greendress.html.
  • Simplificar las métricas de seguimiento de un mismo producto o tema. Al disponer de varias URL, resulta más difícil obtener métricas consolidadas de un contenido concreto.
  • Gestionar el contenido sindicado. Si sindicas tu contenido para que se publique en otros dominios, te recomendamos que unifiques las señales de posicionamiento de las páginas afectadas y las asocies a tu URL preferida.
  • Ahorrar tiempo de rastreo en páginas duplicadas. Te interesa que el robot de Google aproveche al máximo el tiempo que pasa en tu sitio, por lo que es mejor que rastree las páginas nuevas o actualizadas que las versiones para móviles y ordenadores de una misma página.

¿Cuál es la URL canónica de mis páginas según Google?

Puedes ver cuál es la página que Google considera canónica con la herramienta de inspección de URLs. Ten en cuenta que, aunque selecciones específicamente una página canónica, Google puede elegir otra distinta a la tuya por varios motivos, como el rendimiento o el contenido.

Solucionar problemas

Si una URL canónica está en una propiedad que no es tuya, no podrás ver el tráfico de la página duplicada. Estos son algunos de los motivos más habituales por los que una URL canónica puede encontrarse en otra propiedad:

  • Versiones en otros idiomas marcadas de forma incorrecta: si tienes varios sitios que publican prácticamente el mismo contenido, pero localizado para llegar a diferentes usuarios de todo el mundo, sigue nuestras directrices sobre sitios localizados.
  • Etiquetas canónicas incorrectas: algunos sistemas de gestión de contenido (CMS) o algunos de sus complementos no utilizan adecuadamente las técnicas de canonicalización cuando dirigen a URLs de sitios externos. Revisa tu contenido para saber si este es tu caso. Si en tu sitio se indica una URL canónica que no esperabas (por ejemplo, porque se usa incorrectamente rel="canonical" o una redirección 301), corrige este problema directamente.
  • Servidores mal configurados: si tu host no está bien configurado, en algunos casos se puede seleccionar una URL de otro dominio que no se esperaba. Por ejemplo:
    • Puede que un servidor se haya configurado incorrectamente y devuelva contenido de "a.com" cuando responde a solicitudes de una URL de "b.com".
    • Puede que dos servidores web que no estén relacionados devuelvan páginas soft 404 idénticas que Google no pueda identificar como páginas de error.
  • Piratería maliciosa: a veces, cuando se ataca un sitio web, se introduce código que devuelve una redirección HTTP 301 o que incluye un elemento de enlace rel="canonical" a otro dominio en la etiqueta <head> del documento HTML o en el encabezado HTTP. Este código suele dirigir a una URL que aloja contenido malicioso o fraudulento. En estos casos, es posible que nuestros algoritmos seleccionen la URL maliciosa o fraudulenta en vez de la URL del sitio web pirateado.
  • Sitio copiado: muy de vez en cuando, es posible que nuestro algoritmo seleccione una URL de un sitio externo que incluya tu contenido sin permiso. Si crees que otro sitio está duplicando tu contenido e infringe de esta forma la ley de derechos de autor, puedes ponerte en contacto con el host de ese sitio y solicitarle que retire ese contenido. Además, puedes pedir a Google que retire directamente esa página de los resultados de búsqueda presentando una solicitud basada en la ley estadounidense de protección de los derechos de autor (DMCA).

Indicar páginas canónicas

Puedes indicar la página canónica de un conjunto de páginas duplicadas de varias maneras, en función del uso:

Método y descripción
Directrices generales Sigue estas directrices independientemente del método de canonicalización que uses.
Etiqueta rel=canonical <link>

Añade al código de todas las páginas duplicadas una etiqueta <link> que dirija a la página canónica.

Ventajas:

  • Se puede asignar una cantidad infinita de páginas duplicadas.

Inconvenientes:

  • Puede aumentar el tamaño de las páginas.
  • Puede resultar complicado mantener la asignación en sitios grandes o en los que las URL cambian con frecuencia.
  • Solo funciona en páginas HTML, no en archivos como PDF. En estos casos, puede utilizarse el encabezado HTTP rel=canonical.
rel=canonicalEncabezado HTTP

Envía un encabezado rel=canonical en la respuesta de la página.

Ventajas:

  • No aumenta el tamaño de la página.
  • Se puede asignar una cantidad infinita de páginas duplicadas.

Inconvenientes:

  • Puede resultar complicado mantener la asignación en sitios grandes o en los que las URL cambian con frecuencia.
Sitemap

Indica las páginas canónicas en un sitemap.

Ventajas:

  • Es fácil de hacer y de mantener, especialmente en sitios grandes.

Inconvenientes:

  • Aunque uses este método, el robot de Google debe determinar las páginas duplicadas asociadas a las páginas canónicas que se declaran en el sitemap.
  • La señal que se envía al robot de Google es más débil que la que se envía con la técnica de asignación rel=canonical.
Redirección 301 Con las redirecciones 301, puedes indicar al robot de Google que prefieres una URL de redirección que otra URL. Utiliza este método solo cuando quieras retirar páginas duplicadas.
Variante AMP Si una de las variantes es una página AMP, debes seguir las directrices de AMP para indicar la página canónica y la variante de AMP.

Te recomendamos utilizar cualquiera de estos métodos, pero no es obligatorio hacerlo. Si no indicas ninguna URL canónica, identificaremos la que consideremos que es la mejor versión o URL.

Directrices generales

Independientemente del método que utilices para seleccionar páginas canónicas, sigue estas directrices generales.

Directrices generales

  • No uses el archivo robots.txt para marcar páginas como canónicas.
  • No uses la herramienta de retirada de URLs para marcar páginas como canónicas, ya que quita todas las versiones de una URL de las búsquedas.
  • No marques como canónicas URL diferentes que lleven a una misma página, ni con la misma técnica ni con varias. Por ejemplo, no indiques una URL en un sitemap y otra de la misma página mediante rel="canonical".
  • No utilices las directivas noindex para impedir que se seleccione una determinada página como canónica; esas directivas sirven para excluir páginas del índice, no para gestionar el proceso de canonicalización.
  • Indica cuál es la página canónica cuando utilices etiquetas hreflang. La página canónica debería estar en el mismo idioma; si no está disponible en ese idioma, selecciona la página del idioma que consideres más adecuado.

  • Incluye URLs canónicas (no duplicadas) en los enlaces internos de tu sitio; así, Google sabrá cuáles prefieres.

Es mejor utilizar HTTPS que HTTP en URL canónicas

Google prefiere que se marquen como canónicas páginas HTTPS a sus equivalentes HTTP, excepto cuando hay problemas o señales contradictorias, como los siguientes:

  • Si la página HTTPS tiene un certificado SSL no válido.
  • Si la página HTTPS contiene dependencias que no son seguras (y no son imágenes).
  • Si la página HTTPS redirige a los usuarios a una página HTTP o hace que pasen por una página de este tipo.
  • Si la página HTTPS tiene un enlace rel="canonical" a la página HTTP.

Aunque de forma predeterminada los sistemas de Google prefieren las páginas HTTPS a las HTTP, para asegurarte de que elijan esas URL, haz lo siguiente:

  • Añade redirecciones de las páginas HTTP a las páginas HTTPS.
  • Añade enlaces rel="canonical" a las páginas HTTP que lleven a la página HTTPS equivalente.
  • Implementa HSTS.

Para evitar que Google marque de forma incorrecta la versión HTTP de una página como canónica, evita lo siguiente:

  • Cuando detectamos certificados SSL incorrectos o redirecciones de HTTPS a HTTP, tenemos una clara preferencia por el HTTP. Al implementar HSTS no se anula esta preferencia.
  • Incluir en tu sitemap o en entradas hreflang la versión HTTP de una página en lugar de la versión HTTPS.
  • Implementar un certificado SSL o TLS de la variante de host incorrecta: por ejemplo, generar en example.com el certificado de www.example.com. Los certificados deben coincidir con la URL completa de los sitios, o bien ser certificados comodín que puedan usarse en varios subdominios de un dominio.

(Solo para usuarios avanzados) Indicar a Google que ignore determinados parámetros dinámicos

Con el manejo de parámetros, puedes indicar al robot de Google qué parámetros debe ignorar cuando rastree tu sitio. De este modo, puedes reducir el contenido duplicado que hay en el índice de Google y facilitar la tarea de rastrear tu sitio. Por ejemplo, si especificas que debe ignorarse el parámetro sessionid, el robot de Google considerará que las dos URL siguientes son duplicados:

  • https://www.example.com/dresses/green.php?sessionid=273749
  • https://www.example.com/dresses/green.php

Métodos específicos

Para elegir la URL canónica de un conjunto de URL duplicadas o páginas idénticas o similares, utiliza uno de los métodos que se indican más abajo.

Independientemente del método que utilices, debes seguir las directrices generales que se describen más arriba.

Puedes indicar que una página es un duplicado añadiendo una etiqueta <link> a su encabezado.

Supongamos que tienes varias URL que dirigen al mismo contenido, pero quieres que la canónica sea https://example.com/dresses/green-dresses . Para hacerlo, sigue estos pasos:

  1. Marca todas las páginas duplicadas con un elemento de enlace rel="canonical". Añade un elemento <link> con el atributo rel="canonical" a la sección <head> de las páginas duplicadas. Este elemento debe dirigir a una página canónica; por ejemplo:
    <link rel="canonical" href="https://example.com/dresses/green-dresses" />

  2. Si la página canónica tiene una variante para móviles, añade a esa página un enlace rel="alternate" que lleve a la versión para móviles:
    <link rel="alternate" media="only screen and (max-width: 640px)" href="http://m.example.com/dresses/green-dresses">

  3. Incluye en la página los atributos hreflang pertinentes u otros tipos de redirecciones que consideres adecuados.

Usar el encabezado HTTP rel="canonical"

Si puedes configurar tu servidor, puedes indicar la URL canónica de documentos que no sean HTML, como archivos PDF, mediante encabezados HTTP rel="canonical" y no mediante etiquetas HTML.

Por ejemplo, si das acceso a un archivo PDF desde varias URL, puedes devolver un encabezado HTTP rel="canonical", como el que aparece a continuación, en las URL duplicadas para indicar al robot de Google cuál es la URL canónica de ese archivo PDF:

Link: <http://www.example.com/downloads/white-paper.pdf>; rel="canonical"

De momento, Google solo admite este método en los resultados de búsqueda web.

Utilizar un sitemap

Elige las URL canónicas de todas las páginas de tu sitio y envíalas en un sitemap. Todas las páginas que figuran en los sitemaps se sugieren como canónicas; si hay páginas duplicadas, el robot de Google decidirá cuáles son en función de la similitud del contenido.

No garantizamos que vayamos a considerar como canónicas las URL incluidas en un sitemap; no obstante, los sitemaps son una forma sencilla de determinar las páginas canónicas de los sitios grandes, así como un método útil para indicar a Google cuáles son las páginas de tu sitio que consideras más importantes.

Si utilizas un sitemap, no incluyas en él páginas que no sean canónicas; especifica solo URL canónicas.

Utilizar redirecciones 301 para las URL retiradas

Utiliza este método cuando quieras deshacerte de las páginas duplicadas que tengas y asegurarte de que la transición a las nuevas URL se realice sin problemas antes de retirar las antiguas.

Supongamos que se puede acceder a una de tus páginas de varias maneras:

  • https://example.com/home
  • https://home.example.com
  • https://www.example.com

Selecciona una de estas URL como canónica y utiliza redirecciones 301 para enviar el tráfico de las otras URL a la canónica. Las redirecciones 301 configuradas en el servidor son la mejor forma de asegurarte de que se redirija a los usuarios y a los buscadores a la página correcta. Con el código de estado 301, se indica que una página se ha trasladado de forma permanente a otra ubicación.

Si utilizas un servicio de alojamiento web, busca documentación sobre cómo configurar redirecciones 301.