Rastreo mediante formularios HTML

martes, 12 de mayo de 2009

Google prueba constantemente nuevas ideas para mejorar la cobertura que ofrecemos de la web. Exploramos JavaScript y Flash para descubrir enlaces a páginas nuevas, pero hoy nos gustaría hablar de otra tecnología con la que hemos experimentado.

Exploramos algunos formularios HTML para tratar de descubrir nuevas páginas web y URL que de otra manera no podríamos haber encontrado ni indexado para los usuarios que realizan búsquedas en Google. En concreto, cuando nos encontramos con un elemento en un sitio de calidad, podemos optar por hacer un pequeño número de consultas mediante el formulario. Para cuadros de texto, nuestras máquinas seleccionan automáticamente palabras del sitio que contiene el formulario. Para menús de selección, casillas de verificación y botones de opción en el formulario, se elige de entre los valores del HTML. Después de haber elegido los valores para cada entrada, generamos e intentamos rastrear las URL que correspondan a una posible consulta que un usuario podría hacer. Si comprobamos que la página web como resultado de nuestra consulta es válida e interesante, y con contenido que aún no está en nuestro índice, es posible que la incluyamos en nuestro índice de la misma manera que podríamos incluir cualquier otra página.

Huelga decir que este experimento sigue las buenas prácticas de "ciudadanía" de Internet. Sólo un pequeño número de sitios particularmente útil recibe este tratamiento, y nuestro agente de rastreo, el siempre amigable Googlebot [inglés] , siempre se adhiere a las directivas robots.txt, nofollow y noindex. Esto significa que si un formulario de búsqueda está prohibido en robots.txt, no rastrearemos ninguna de las URL que se generarían con un formulario. Del mismo modo, sólo recuperamos formularios GET y evitamos los que requieren cualquier tipo de información del usuario. Por ejemplo, omitimos todos los formularios con contraseña o que utilizan términos comúnmente asociados con información personal como nombres de usuario, ID de usuario, contactos, etc. También somos conscientes de los efectos que esto puede tener en el sitio web y nos limitamos a un número muy pequeño para un sitio concreto.

No descubrimos páginas web con este rastreo mejorado a expensas de páginas web normales que ya forman parte del rastreo, así que este cambio no reduce el PageRank de tus otras páginas. Sólo debería aumentar la exposición de tu sitio web en Google. Este cambio tampoco afecta al rastreo, al posicionamiento o a la selección de otras páginas web de manera significativa.

Esto forma parte de un mayor esfuerzo por parte de Google para incrementar la cobertura de la web. De hecho, se creyó durante mucho tiempo que los formularios HTML eran la puerta de acceso a grandes volúmenes de datos más allá del alcance normal de los motores de búsqueda. Los términos web profunda ( Deep Web) , web oculta ( Hidden Web ) o web invisible ( Invisible Web) [inglés] se han utilizado de forma colectiva para referirse a estos contenidos que hasta ahora habían sido invisibles para los usuarios de los motores de búsqueda. Mediante el rastreo con formularios HTML (y obedeciendo a robots.txt), somos capaces de llevar a los usuarios del motor de búsqueda a documentos que, de otro modo, no se encontrarían fácilmente y que proporcionan tanto a los webmasters como a los usuarios una mejor y más completa experiencia de búsqueda.