Consejos de BigQuery para que las exportaciones de datos en bloque de Search Console sean eficientes

Lunes, 5 de junio del 2023

La exportación de datos en bloque de Search Console es una forma eficaz de agregar los datos de rendimiento de búsqueda de tu sitio web en BigQuery para aumentar las capacidades de almacenamiento, análisis y generación de informes. Por ejemplo, después de exportar los datos, puedes hacer clústeres de consultas y URLs, ejecutar análisis de consultas de búsqueda poco frecuentes y combinar búsquedas con otras fuentes de datos. También puedes conservar los datos durante el tiempo que los necesites.

Al exportar datos en bloque, es importante tomar decisiones fundamentadas a la hora de gestionar los costes de almacenamiento y de tratamiento de datos. Exportar datos con Search Console no tiene costes adicionales. Sin embargo, consulta los precios de BigQuery para saber lo que se te cobrará. En esta entrada, proporcionamos consejos que te ayudarán a aprovechar mejor los nuevos datos sin que ello suponga un coste significativo.

Si todavía no has configurado una exportación de datos en bloque, consulta la guía detallada del Centro de Ayuda de Search Console. Para obtener una vista general de los datos disponibles durante la exportación, consulta el vídeo insertado aquí.

Crea alertas y restricciones de facturación

Al evaluar los costes, puede resultar útil pensar cuánto estás dispuesto a invertir. Es probable que la respuesta a esa pregunta varíe dependiendo de si se trata de almacenamiento, análisis y monitorización. Por ejemplo, es posible que quieras invertir cierto importe para asegurarte de almacenar todos tus datos, pero un importe menor para crear una plataforma de informes. Si lo piensas bien, quizá puede ser interesante fijar un presupuesto mensual para invertir en datos de la Búsqueda.

Cuando tengas en mente el importe del presupuesto, podrás crear una alerta de presupuesto de Google Cloud para evitar sorpresas en la factura. También puedes definir reglas de umbral que activen las notificaciones por correo electrónico cuando estés cerca de agotar el importe de tu presupuesto.

Captura de pantalla de la consola de Cloud en la que se muestra cómo crear una alerta de facturación

Para aumentar la protección, también puedes restringir el número de bytes facturados de una consulta. Si lo haces, el número de bytes que leerá la consulta se estimará antes de ejecutarla. Si el número de bytes estimados supera el límite, la consulta fallará sin suponer ningún cargo.

No crees paneles de control directamente a partir de datos sin procesar

BigQuery es un servicio rápido, y resulta tentador vincular el panel de control directamente a las tablas exportadas de Search Console. Sin embargo, en el caso de los sitios grandes, el conjunto de datos es enorme (especialmente con consultas a lo largo del tiempo). Si creas un panel de control que vuelve a calcular la información resumida en cada vista y lo compartes dentro de tu empresa, los costes de las consultas se dispararán rápidamente.

Para evitar que esto suceda, puedes agregar previamente los datos de cada descenso diario y materializar una o más tablas de resumen. De este modo, el panel de control puede consultar una tabla de series temporales mucho más pequeña, lo que reducirá los costes de procesamiento.

Comprueba la funcionalidad de la programación de consultas en BigQuery o plantéate usar BI Engine si prefieres una solución más automatizada.

Optimiza los costes de almacenamiento de datos

Al iniciar una exportación de datos en bloque, los datos se guardan indefinidamente en el conjunto de datos de BigQuery de forma predeterminada. Sin embargo, puedes actualizar las fechas de vencimiento predeterminadas de las particiones para que las particiones de fecha se eliminen automáticamente después de un año, 16 meses o la duración que quieras.

Los datos exportados pueden ser valiosos, pero también demasiado grandes. Aprovecha tus conocimientos empresariales y plantéate retenerlos el tiempo suficiente para hacer análisis exhaustivos, pero no tanto como para que acaben convirtiéndose en una carga. Una opción es conservar una versión de muestra de las tablas más antiguas y, al mismo tiempo, la tabla completa de las fechas más recientes.

Optimiza las consultas de SQL

Cuando consultes los datos de Search Console, debes comprobar que el rendimiento de tus consultas está optimizado. Si es la primera vez que usas BigQuery, echa un vistazo a las directrices y consultas de ejemplo del Centro de Ayuda. Hay tres técnicas que deberías probar.

1. Limitar el análisis de entrada

En primer lugar, evita usar SELECT *, ya que es la forma más cara de consultar los datos. BigQuery hace un análisis completo de cada columna de la tabla. Aplicar una cláusula LIMIT no afecta a la cantidad de datos leídos.

Como las tablas exportadas tienen particiones por fecha, puedes limitar el análisis de entrada solo a los días que te interesen, especialmente cuando hagas pruebas y juegues con los datos. Usa una cláusula WHERE para limitar el periodo en la tabla con particiones de fecha. Si lo haces, el coste de las consultas se reducirá considerablemente. Por ejemplo, puedes consultar solo los últimos 14 días con la siguiente cláusula:

WHERE data_date between DATE_SUB(CURRENT_DATE(), INTERVAL 14 day)

Para cada consulta que hagas, debes introducir los filtros conocidos lo antes posible para reducir el análisis de entrada. Por ejemplo, si estás analizando consultas, es probable que quieras filtrar las filas de las consultas anonimizadas. Las consultas anonimizadas se muestran como una cadena de longitud cero en la tabla. Para ello, puedes añadir lo siguiente:

WHERE query != ''

2. Usar el muestreo de datos

BigQuery proporciona una función de muestreo de tabla, que te permite consultar subconjuntos aleatorios de datos de grandes tablas de BigQuery. El muestreo devuelve una variedad de registros y evita los costes asociados al análisis y procesamiento de una tabla completa. Resulta especialmente útil al desarrollar consultas o cuando no se necesitan resultados exactos.

3. Usar funciones aproximadas cuando no se requieran resultados exactos

BigQuery admite varias funciones de agregación aproximada que proporcionan resultados estimados y que son mucho más baratas de calcular que sus equivalentes disponibles. Por ejemplo, si buscas las principales URLs basadas en impresiones para una determinada condición, puedes usar

SELECT APPROX_TOP_SUM(url, impressions, 10) WHERE datadate=...;

en lugar de

SELECT url, SUM(impressions) WHERE datadate=... GROUP BY url ORDER BY 2 DESC LIMIT 10;

Recursos

Estos son solo algunos de los consejos que puedes aprovechar para empezar a gestionar tus costes. Si quieres obtener más información, consulta las prácticas recomendadas para optimizar los costes de BigQuery.

Como siempre, si tienes alguna duda, ponte en contacto con nosotros a través de la comunidad del Centro de la Búsqueda de Google o Twitter.