DSPL Check es una utilidad que valida un conjunto de datos DSPL en función de una serie de criterios, como el cumplimiento del esquema oficial de la DSPL la coherencia de las referencias internas y la estructura de archivos CSV. La compañía eléctrica puede detectar muchos problemas que causarán errores de importación DSPL, lo que ayudará a detectar y solucionar estos problemas rápidamente antes de iniciar el proceso de entrada.
Ten en cuenta que la utilidad no verifica (todavía) tu conjunto de datos DSPL para todos los problemas posibles. Sin embargo, detectará los ataques por lo que, si tu conjunto de datos es validado con éxito por la herramienta, habrá un hay grandes probabilidades de que se puedan importar y visualizar en los datos públicos un profesional de seguridad en la nube. Consulta la sección Verificación de detalles a continuación para obtener más información.
Ejecutando verificación de DSPL
Conceptos básicos
Nota: En estas instrucciones, se presupone que tienes ya siguió la instalación instrucciones proporcionadas en la página de herramientas de DSPL.
Para ejecutar la comprobación de DSPL, ve a la terminal o al mensaje en tu sistema y Tipo:
python dsplcheck.py [path to dataset XML or zip file]
donde el término entre corchetes se reemplaza por la ruta de acceso relativa a un archivo en formato XML de conjunto de datos o un paquete DSPL comprimido.
Si el conjunto de datos es válido, la herramienta imprime con éxito" mensaje. De lo contrario, mostrará uno o más mensajes de error. que describe por qué falló la validación. Si ocurre esto último, corrige el conjunto de datos como se indica y, luego, vuelve a ejecutar la herramienta.
Comprobando el nivel
De forma predeterminada, la comprobación de DSPL examinará todo el conjunto de datos, incluidos los archivos CSV. se hace referencia en el archivo XML DSPL principal. Este proceso funciona bien en entornos conjuntos de datos medianos, pero pueden estar enredados o quedarse sin memoria en conjuntos de datos que son muy grandes (es decir, cientos de megabytes o más grande).
Para abordar estos casos, la herramienta cuenta con un nivel de comprobación.
que permite definir el alcance de la verificación y mejorar
rendimiento, según sea necesario. Para usarlo, inserta --checking_level=[...]
.
antes de la ruta del conjunto de datos, donde el término entre corchetes se reemplaza por uno de los
los siguientes valores:
schema_only
: Valida el archivo en formato XML del conjunto de datos en función del esquema DSPL oficial y, luego, detente.schema_and_model
: Realizan una validación de esquemas y de modelos básicos, pero Ignora el contenido CSV después de la línea del encabezado.full
: Realiza validaciones de esquemas, modelos y datos (configuración predeterminada).
Verificación de detalles
La comprobación de DSPL realiza la siguiente secuencia de validaciones:
- Validación de esquema XML: verifica que tu conjunto de datos archivo de metadatos es un XML válido y cumple con las esquema de DSPL oficial.
- Existencia de CSV: Comprueba que todos los archivos CSV a las que se hace referencia en tu conjunto de datos existen y se pueden cargar.
-
Comprobaciones de conceptos: Varias verificaciones de cada concepto en tu
conjunto de datos, que incluye lo siguiente:
- El conjunto de datos tiene al menos un concepto*
- Todas las referencias a temas son válidas
- La referencia de tabla existe si el concepto se usa como una variable dimensión*
- La referencia de la tabla es válida si está presente
- La tabla de referencia tiene una columna que corresponde al ID del concepto
-
Comprobaciones de porción: Varias comprobaciones de cada porción de tu
conjunto de datos, que incluye lo siguiente:
- El conjunto de datos tiene al menos una porción*
- Al menos una porción hace referencia a una dimensión que no es de tiempo*.
- La porción tiene al menos una métrica y una dimensión
- Exactamente una dimensión de referencia
time
concepto canónico* - Cada porción tiene una combinación única de dimensiones.
- Todas las referencias a conceptos locales son válidas
- Existe la referencia de tabla
- La referencia de la tabla es válida
- La tabla de referencia tiene una columna para cada dimensión y métrica porciones
- Los tipos de columnas de la tabla a la que se hace referencia coinciden con los tipos de la conceptos usados en la porción
-
Comprobaciones de la tabla: Varias verificaciones de cada tabla de tu
conjunto de datos, que incluye lo siguiente:
- El conjunto de datos tiene al menos una tabla*
- El archivo CSV tiene la misma cantidad de columnas que la tabla
- Las cadenas de encabezado CSV coinciden con los IDs de columna
- Todas las columnas de fecha tienen un atributo
format
- Los formatos de fecha se alinean (aproximadamente) con los conceptos de hora asociados
p.ej., el formato de una columna
time:year
incluye, al menos, un caráctery
*
-
Verificaciones de datos CSV: Varias verificaciones de los archivos de datos CSV.
a las que hace referencia el archivo en formato XML del conjunto de datos, incluidos los siguientes:
- Cada fila de CSV tiene la misma cantidad de columnas que su encabezado.
- El archivo CSV de definición de conceptos no tiene más de una fila para cada ID de concepto
- El archivo CSV de porción no tiene más de una fila para cada combinación de dimensiones
- Los valores de dimensión a los que se hace referencia en el archivo CSV de porción son válidos
- El archivo CSV de porción está ordenado correctamente
- Los valores CSV de número entero y flotante tienen el formato correcto
Los criterios marcados con un * son necesarios para visualización en Public Data Explorer, pero técnicamente no son requeridas por el formato DSPL.
Por otro lado, la herramienta no analiza (todavía) lo siguiente:
- Importaciones de conjuntos de datos
- Referencias de atributos y propiedades
- Extensiones de conceptos