Archivos PDF en los resultados de búsqueda de Google

Jueves, 1 de septiembre del 2011

Nuestra misión es organizar la información mundial para que sea universalmente accesible y útil. Mientras hacemos esta ambiciosa tarea, a veces nos encontramos con archivos que no son HTML, como archivos PDF, hojas de cálculo y presentaciones. Nuestros algoritmos no se detienen ante formatos de archivos diferentes; trabajamos duro para extraer el contenido relevante e indexarlo adecuadamente para poder incluirlo en los resultados de búsqueda. Pero, dado que estos formatos son bastante distintos de los archivos HTML estándar, ¿cómo los indexamos realmente y qué directrices aplicamos? ¿Y si un webmaster no quiere que los indexemos?

Google empezó a indexar archivos PDF en el 2001 y por ahora cuenta con cientos de millones de archivos PDF indexados. A continuación, se muestra una lista con las respuestas a preguntas frecuentes sobre la indexación de archivos PDF:

P: ¿Google puede indexar cualquier tipo de archivo PDF?
R: Normalmente, podemos indexar contenido de texto (escrito en cualquier idioma) de archivos PDF que utilicen varios tipos de codificación de caracteres, siempre que no estén protegidos con contraseña ni cifrados. Si el texto está insertado en forma de imágenes, podemos procesar las imágenes con algoritmos OCR para extraer el texto. Por lo general, si se puede copiar el texto de un documento PDF y pegarlo en un documento de texto estándar, deberíamos ser capaces de indexarlo.

P: ¿Qué ocurre con las imágenes de los archivos PDF?
R: De momento, las imágenes no se indexan. Para que podamos indexarlas, tendrás que crear páginas HTML para las imágenes. Para aumentar las probabilidades de que mostremos tus imágenes en los resultados de búsqueda, consulta las prácticas recomendadas de Google Imágenes.

P: ¿Cómo se tratan los enlaces en los documentos PDF?
R: Normalmente, los enlaces de los archivos PDF se tratan de forma similar a los enlaces HTML. Están aceptados por PageRank y otros sistemas de indexación, y es posible que los sigamos una vez que hayamos rastreado el archivo PDF. De momento, no se pueden usar enlaces nofollow en un documento PDF.

P: ¿Cómo puedo impedir que mis archivos PDF aparezcan en los resultados de búsqueda? Si ya lo han hecho, ¿cómo puedo quitarlos?
R: La forma más sencilla de evitar que los documentos PDF aparezcan en los resultados de búsqueda es añadir un X-Robots-Tag: noindex en el encabezado HTTP que se utiliza para servir el archivo. Si ya están indexados, dejarán de aparecer con el tiempo si usas la etiqueta X-Robot-Tag con la regla noindex. Con la herramienta de retirada de URLs de las Herramientas para webmasters de Google, puedes eliminar estos archivos más rápido.

P: ¿Pueden tener los archivos PDF un buen posicionamiento en los resultados de búsqueda?
R: Sí, por supuesto. Por lo general, estos archivos se posicionan de forma similar a otras páginas web. Por ejemplo, ahora mismo, si se busca Mortgage Market Review, irs form 2011 o paracetamol expert report como resultado se devuelven documentos PDF con un buen posicionamiento en los resultados de búsqueda, gracias a su contenido y a la forma en la que están insertados y enlazados desde otras páginas web.

P: Si tengo una copia de mis páginas en HTML y en PDF, ¿se considera contenido duplicado?
R: Siempre que sea posible, te recomendamos que publiques una sola copia de tu contenido. Si no es posible, asegúrate de indicar qué versión prefieres. Por ejemplo, puedes incluir la URL que prefieras en tu sitemap o especificar en el archivo HTML o en los encabezados HTTP del documento PDF cuál de las dos es la versión canónica. Consulta el artículo del Centro de Ayuda sobre la canonicalización para obtener más consejos.

P: ¿Cómo puedo definir qué título se muestra en los resultados de búsqueda de mi documento PDF?
R: Los dos elementos principales que utilizamos para determinar qué título se muestra son los metadatos del título del archivo y el texto de los enlaces que dirigen a tu archivo PDF. Para que nuestros algoritmos capten claramente qué título deben utilizar, te recomendamos que actualices ambos elementos.

Si quieres obtener más información, te recomendamos que veas el vídeo de Matt Cutt sobre cómo optimizar archivos PDF en los resultados de búsqueda y que visites nuestro Centro de Ayuda para consultar los tipos de contenido que podemos indexar. Si tienes comentarios o sugerencias, comunícanoslo a través del foro de ayuda para webmasters.