Sugerencias de BigQuery para que las exportaciones masivas de datos de Search Console sean eficientes

Lunes, 5 de junio de 2023

La exportación masiva de datos de Search Console es una forma eficaz de agregar los datos de rendimiento de la búsqueda de tu sitio web a BigQuery para aumentar el almacenamiento, el análisis y las funciones de generación de informes. Por ejemplo, luego de exportar los datos, puedes agrupar consultas y URLs en clústeres, ejecutar análisis de búsquedas de cola larga y unir los datos provenientes de la búsqueda con los de otras fuentes de datos. Además, te permite conservar los datos durante todo el tiempo que consideres necesario.

Cuando se usan exportaciones de datos masivas, es importante informarse antes de tomar decisiones relacionadas a la administración de los costos de procesamiento y almacenamiento de datos. Exportar los datos con Search Console no tiene costos adicionales. Sin embargo, te recomendamos que leas los precios de BigQuery para comprender qué es lo que se factura. En esta publicación, te presentamos algunas sugerencias para aprovechar los datos nuevos sin generar costos significativos.

Si aún no configuraste una exportación de datos masiva, consulta la guía paso a paso en el Centro de ayuda de Search Console. Para obtener una descripción general de los datos disponibles durante la exportación, consulta el video a continuación.

Crea restricciones y alertas de facturación

Al evaluar los costos, es importante que sepas cuánto deseas invertir. Es probable que esta respuesta varíe según se trate de almacenamiento, análisis o supervisión. Por ejemplo, es posible que quieras invertir un importe determinado para asegurarte de almacenar todos tus datos, pero menos para crear una plataforma de informes. Si lo piensas bien, quizá te convenga definir un presupuesto mensual para invertir en los datos de la Búsqueda.

Una vez que hayas definido el importe de tu presupuesto, puedes crear una alerta de presupuesto de Google Cloud para evitar sorpresas en la factura. También puedes establecer reglas de umbral que activen notificaciones por correo electrónico cuando estés cerca de agotar tu presupuesto.

Captura de pantalla de la consola de Cloud que muestra cómo crear una alerta de facturación

Para mayor seguridad, también puedes restringir la cantidad de bytes facturados por consulta. Si lo haces, podrás estimar la cantidad de bytes que consumirá cada consulta antes de ejecutarla. Si el número estimado de bytes supera el límite, la solicitud fallará sin incurrir en ningún gasto.

No crees paneles de control directamente a partir de datos sin procesar

BigQuery es rápido y puede resultar tentador querer vincular el panel de control directamente a las tablas exportadas desde Search Console. Sin embargo, cuando los sitios son grandes, el conjunto de datos es enorme (sobre todo si se incluyen consultas a lo largo del tiempo). Si creas un panel que recalcula la información resumida en cada vista y la comparte internamente en tu empresa, rápidamente se generarán costos de consulta muy elevados.

Para evitar que esto suceda, agrega de antemano los datos de cada bajada diaria y reúnelos en una o varias tablas de resumen. De este modo, el panel de control deberá revisar una tabla de series temporales mucho más pequeña, lo que reducirá los costos de procesamiento.

Revisa cómo funciona la programación de consultas en BigQuery o utiliza BI Engine si prefieres una solución más automatizada.

Optimiza los costos del almacenamiento de datos

Cuando se inicia una exportación de datos masiva, de acuerdo con la configuración predeterminada, los datos permanecen en el conjunto de datos de BigQuery indefinidamente. Sin embargo, puedes actualizar los tiempos de vencimiento predeterminados de las particiones para que las particiones de fecha se borren automáticamente después de un año, 16 meses o cuando lo desees.

Los datos exportados pueden ser muy valiosos, pero, a la vez, muy pesados. Usa tus conocimientos empresariales y aprovecha los datos durante un período de tiempo suficiente para realizar un análisis detallado, pero que no se extienda demasiado como para convertirse en una carga. Una opción es conservar una muestra de las tablas más antiguas y, al mismo tiempo, la tabla completa de las fechas más recientes.

Optimiza tus consultas en SQL

Cuando consultes los datos de Search Console, asegúrate de que el rendimiento de tus consultas esté optimizado. Si es la primera vez que usas BigQuery, consulta los lineamientos y los ejemplos de consultas en el Centro de ayuda. Hay tres técnicas que deberías probar.

1. Limitar el análisis de entrada

En primer lugar, evita usar SELECT *, que es la forma más costosa de consultar los datos, ya que BigQuery hará un análisis completo de cada columna de la tabla. Aplicar una cláusula LIMIT no disminuirá la cantidad de datos leídos.

Dado que las tablas exportadas están particionadas por fecha, puedes limitar el análisis de entrada solo a los días que te interese revisar, en especial cuando estés probando y jugando con los datos. Usa una cláusula WHERE para limitar el período en la tabla particionada por fecha. Esto generará un ahorro significativo del costo de la consulta. Por ejemplo, puedes ver solo los últimos 14 días utilizando la siguiente cláusula:

WHERE data_date between DATE_SUB(CURRENT_DATE(), INTERVAL 14 day)

Antes que nada, aplica todos los filtros que te parezcan apropiados para reducir el análisis de entrada de las consultas. Por ejemplo, cuando analizas consultas, es probable que quieras filtrar las filas de consultas anónimas. Las consultas anónimas aparecen en la tabla como cadenas de longitud cero. Para hacerlo, puedes escribir lo siguiente:

WHERE query != ''

2. Usar el muestreo de datos

BigQuery proporciona una función de muestreo de tablas, que te permite consultar subconjuntos de datos aleatorios de las grandes tablas de BigQuery. El muestreo devuelve una variedad de registros, a la vez que evita los costos asociados con el análisis y el procesamiento de una tabla completa. Es particularmente útil en el desarrollo de consultas o cuando se necesitan resultados exactos.

3. Usar funciones aproximadas cuando no se requieran resultados exactos

BigQuery admite una serie de funciones de agregación aproximadas que proporcionan resultados estimados y son mucho más económicas para hacer cómputos que otras funciones equivalentes disponibles. Por ejemplo, si buscas las principales URLs basadas en impresiones para una determinada condición, puedes usar

SELECT APPROX_TOP_SUM(url, impressions, 10) WHERE datadate=...;

en lugar de

SELECT url, SUM(impressions) WHERE datadate=... GROUP BY url ORDER BY 2 DESC LIMIT 10;

Recursos

Estas son solo algunas sugerencias para que empieces a administrar tus costos. Si deseas obtener más información, consulta las prácticas recomendadas de optimización de costos para BigQuery.

Como siempre, si tienes preguntas o comentarios, comunícate con nosotros mediante la Comunidad de la Central de la Búsqueda de Google o Twitter.