Site Clinic II. Página de inicio, títulos y contenido duplicado

jueves, 19 de noviembre de 2009


Bienvenidos a la segunda parte del Site Clinic. Esperamos que hayas disfrutado de la primera parte en la que analizamos el sitio web argentino Fundación Huésped . En esta ocasión hemos seleccionado a la organización gubernamental colombiana " Computadores para Educar ". Efectuaremos un análisis similar al que ya se hizo en la primera parte.

Nuevamente esperamos que los temas discutidos en estos artículos sean útiles tanto para los webmasters que nos enviaron sus sitios web como para todos los lectores de este blog que deseen mejorar la rastreabilidad e indexación de sus páginas web por los distintos motores de búsqueda. En esta entrada discutiremos errores de DNS, las descripciones y los títulos, contenido duplicado y otros temas relacionados con este sitio web. Esperamos que lo disfrutes y recuerda que tus comentarios son siempre bienvenidos. ¡Así que manos a la obra!

Versión sin www

Una de las primeras pruebas que se deben hacer al analizar un sitio web es determinar si se puede acceder al sitio por la versión con www del dominio y por su versión sin www (por ejemplo si la versión sin www redirige a la versión con www). En el caso de Computadores para Educar, el primer problema que se observa es que la versión sin www del dominio computadoresparaeducar.gov.co no resuelve a ningún servidor. Es interesante porque parece que el registro de DNS que apunta a la dirección IP donde se encuentran los contenidos del sitio está asociado únicamente a la versión www. En esta imagen se puede ver el error que se obtiene al cargar la versión sin www en el navegador Chrome:



Por otra parte, a través de la utilidad ping podemos comprobar la conexión entre mi computador y el dominio que apunta al servidor que aloja el sitio que deseo revisar. Al colocar la línea de comandos "ping -c www.computadoresparaeducar.gov.co" obtenemos una respuesta, mientras que con la versión sin www se obtiene un error:



No todos los visitantes añadirán el prefijo www al nombre del dominio cuando lo colocan en el navegador. Además, tener distintos subdominios para distintos tipos de contenido puede ser útil.

Normalmente, el registro del dominio se hace directamente ante el NIC, en este caso el NIC Colombiano , pero las DNS se configuran normalmente con el servicio de hospedaje. Así que recomendamos comprobar que ambas versiones apuntan al servidor donde se encuentra alojado el contenido con el servicio de alojamiento que ofrece la configuración de las DNS. Es importante tener en cuenta que esto no va a afectar al rastreo o la indexación, sino que se trata más de una cuestión de usabilidad del sitio web.

Metaetiquetas de título de página y de descripción

La segunda prueba que realizamos sobre el sitio web fue determinar que tan descriptivos eran los títulos de las diferentes páginas, así como el contenido de las metaetiquetas "description". Como explicamos en el artículo " Cambio del título y la descripción del sitio en los resultados de búsqueda ", normalmente preferimos mostrar las descripciones provenientes de las metaetiquetas para generar los snippets o fragmentos que aparecen en los resultados de búsqueda. Asimismo, un buen título ayuda a sus visitantes a entender rápidamente de qué se trata el contenido de cada página.

En este caso, observamos que algunos títulos son descriptivos, como la página de "Testimonios" que tiene un título muy útil: "Testimonios - PORTAL COMPUTADORES PARA EDUCAR". Sin embargo, al examinar otras páginas en los resultados de búsqueda, encontramos que hay varias páginas con el mismo título y algunas descripciones no son tan útiles, como por ejemplo: "Inicio Arrow CENTRO DE RECURSOS". La imagen a continuación es lo que se ve en este momento:



Y al revisar el código fuente de un par de páginas como las mencionadas anteriormente, nos dimos cuenta de que en ellas, tanto la etiqueta "title" como la metaetiqueta "description" son bastantes genéricas:



Recomendaríamos revisar las distintas páginas que componen el sitio para asegurarse de que cada página contiene un título y una descripción única y adecuada. Como hemos señalado antes, un título adecuado para cada página ayuda tanto a los motores de búsqueda como a los usuarios a entender de qué trata una página. También es útil asegurarse de que se combinan mayúsculas y minúsculas, ya que el uso exclusivo de mayúsculas dificulta la lectura. En la gran mayoría de sistemas de administración de contenidos (CMS) se pueden configurar estas funciones automáticamente.

Indexación del foro

Algo que nos llamó la atención en los resultados de búsqueda de Computadores para Educar fue que el sitio ofrece un foro y algunos recursos multimedia como archivos de audio y de vídeo. Un foro puede ser útil, ya que permite a sus visitantes interactuar con otros usuarios y discutir los contenidos que encuentran, así como tener respuestas a sus preguntas. Sin embargo, es necesario administrar estos foros y evitar que sean abusados por spammers. Una buena estrategia para determinar si este fenómeno ha ocurrido en el foro es efectuar una consulta en Google utilizando el operador site:, acompañado de alguna palabra "sospechosa".

Por ejemplo, utilicemos la abreviatura wow (World of Warcraft). Al efectuar la búsqueda [site:computadoresparaeducar.gov.co wow], aparecen unos resultados sospechosos:



Es probable que algunos usuarios falsos hayan abusado de este foro para colocar enlaces hacia sus sitios web. Me imagino que el webmaster se dio cuenta de este problema porque estos temas han sido eliminados y ya no se encuentran en el foro, pues aparece un mensaje que dice "El tema requerido no existe". Esto está muy bien, pero dado que estos temas ya no se encuentran disponibles es importante que el servidor devuelva un código de estado HTTP 404, para informar a los rastreadores de los motores que búsqueda que estas páginas ya no existen. Existen ciertas herramientas en línea, como https://web-sniffer.net/ , que permiten comprobar qué respuesta devuelve el servidor ante una petición HTTP.

Al iniciar sesión en el foro, también hemos visto que está vacío y no hay temas disponibles en este momento. Es importante decidir si deseas mantener el foro o no. Si no deseas continuar teniendo un foro, recomendamos eliminar la instalación phpBB sin contenido. Si deseas mantenerlo, recomendamos crear contenido relevante, así como actualizar a la última versión disponible, para evitar posibles problemas de pirateo (y esto se puede aplicar a cualquier sistema de gestión de contenidos). En general, es importante evitar los perfiles spam .

Contenido duplicado, robots.txt y sitemaps

El siguiente paso en el análisis del sitio Computadores para Educar fue comprobar si existía contenido duplicado y si se le indicaba a los rastreadores qué partes del sitio deberían ser rastreadas o indexadas.

La utilización del operador [site:] es una de las formas de tener una indicación aproximada del volumen de páginas indexadas por los motores de búsqueda para un sitio determinado. En ese caso, efectuamos la búsqueda [site:computadoresparaeducar.gov.co]. Los resultados muestran que, en el caso del buscador Google, hay cientos de miles de documentos indexados. Sin embargo, desde la página principal, da la impresión que el sitio no contenía tantas páginas diferentes. Así que una de las preguntas que surgen es si el webmaster desea que alguna de las páginas no sea indexada.

Al hacer clic en algunos de los resultados, encontramos que daba un error "No está autorizado para ver este recurso. Necesita conectarse." Al hacer una búsqueda exacta con esta frase [site:computadoresparaeducar.gov.co "No está autorizado para ver este recurso"], se puede observar que hay unas 42.000 páginas de este tipo que no deberían ser indexadas, dado que el usuario se encuentra con un error cada vez que intenta acceder a estos recursos desde los resultados de búsqueda:



Una solución a este problema sería colocar una metaetiqueta "noindex" en cada una de estas páginas. Otro buen consejo es asegurarse de que este tipo de contenido devuelve un código de estado 403 cuando los usuarios o los robots acceden a estas páginas.

También es importante comprobar si este sitio dispone de un archivo robots.txt y cómo está configurado (si existe se debe hallar en la raíz del dominio). Al analizar el archivo robots.txt de Computadores para Educar encontramos:

User-Agent: *
Allow: /

Este archivo le dice a todos los rastreadores de todos los motores de búsqueda (*) que pueden rastrear e indexar TODO el contenido de este sitio web (/). Una buena recomendación sería modificar este archivo robots.txt y añadir un enlace al archivo sitemap "Sitemap: ".

Por otra parte, es conveniente crear un archivo Sitemap [inglés] para informar a los rastreadores de las URL que se encuentran disponibles. El protocolo Sitemap [inglés] permite especificar cierta información, como por ejemplo cuándo fueron actualizadas las URL, que tan frecuentemente cambian o la prioridad que deberían tener en relación al sitio completo.

Un punto final que nos gustaría destacar en esta sección es que hay algún problema con el calendario situado al final de la página de inicio. Debido a que el calendario está generado automáticamente y enlaza día a día y mes a mes en un bucle infinito , está generando muchas páginas que no deberían ser ni rastreadas ni indexadas. Si quieren conocer la magnitud del problema, recomendaría utilizar la búsqueda [site:computadoresparaeducar.gov.co inurl:date]. Encontraremos más de 180.000 páginas y la mayoría de ellas, vacías. Nuestra recomendación sería añadir el atributo HTML "nofollow" a los enlaces que salen del calendario, o como alternativa, añadir la metaetiqueta "noindex" a las páginas del calendario. Si ninguna de estas dos soluciones es conveniente, se podría añadir la siguiente línea al archivo robots.txt:

Disallow: /*&date=

Sitio en inglés 100% en Flash

Es útil ofrecer una versión en inglés del sitio para los visitantes que no comprenden la lengua española. Sin embargo, una de las diferencias que existen entre la versión original y la versión en inglés de este sitio web es que esta última versión fue desarrollada completamente en Flash. Si bien es cierto que Google ha mejorado la indexación de este tipo de sitios, en general es recomendable usar texto para los contenidos y usar Flash para animaciones y elementos gráficos. Por ejemplo, con el operador "cache:" , es posible observar la versión que Googlebot ha almacenado de esta página Flash. Como se puede ver, la versión de texto está desocupada.

La solución ideal sería traducir el mismo contenido de la versión española al inglés. Otra solución más rápida y efectiva para resolver este problema es utilizar la etiqueta <noembed>. Esta etiqueta permite especificar un contenido alternativo para los navegadores que no son capaces de interpretar objetos incrustados en las páginas. En este caso sería conveniente colocar en esta etiqueta el mismo contenido que se encuentra en Flash, pero en modo de texto.

No sé si ya conoces esto, pero nos gustaría recordar que Google ofrece la posibilidad de instalar un widget para realizar traducciones automáticas en la misma página . Esto puede ser una alternativa a la versión inglesa tan sólo en Flash. Puedes usar esta función para crear opciones multilingües.

Un par de consejos acerca de las imágenes

Para finalizar el Site Clinic de Computadores para Educar, quisiéramos hablar de las imágenes. Por ejemplo, las que se utilizan en páginas como:

https://www.computadoresparaeducar.gov.co/website/es/index.php?option=com_content&task=view&id=258&Itemid=1

El tamaño de las fotografías que se publican es de alrededor de 400 x 300 pixeles, pero su tamaño original es de casi 3000 x 2000 pixeles y de 1.5 megabytes. Dado que hay un par de fotos en esta página con este tamaño, si éstas estuvieran en la página principal, el navegador debería cargar más de 3 megabytes tan sólo parar mostrar estos dos elementos gráficos. Con un editor gráfico gratuito como GIMP [inglés] es posible reducir el tamaño en pixeles de la imagen al espacio que se desea que ocupe en la página y su tamaño en bytes se reducirá también (seguramente pesará menos de 100 kilobytes). Este consejo es útil para reducir ostensiblemente la latencia que experimentan sus visitantes en este tipo de páginas.

Un punto final acerca de las imágenes es que sería conveniente añadir contenido alternativo para los visitantes que utilizan lectores de texto a través del atributo alt . Este texto debería ser tan descriptivo como sea posible de acuerdo al contenido de la imagen.

Texto actual en alguna de las imágenes: alt="Orlando Ayala en CPE"

Hasta aquí llega la segunda parte de nuestro proyecto Site Clinic. Nuevamente, quisiéramos recalcar que estas publicaciones no son un estudio detallado de todos los puntos relacionados con el sitio, sino una serie de recomendaciones generales que podrían ser útiles para muchos webmasters. Si deseas realizar alguna sugerencia, por favor dirígela a nuestro foro , o escríbela en nuestros comentarios.

Publicado por Juan Convers, equipo de Calidad de búsqueda.