En este documento, se abordan los problemas más frecuentes que experimentan los propietarios de datos cuando crean conjuntos de datos en DSPL y los suben a Public Data Explorer.
Contenido
Preguntas generales
¿Qué es la DSPL?
DSPL es la sigla en inglés de Dataset Publishing Language. Es un formato de representación de los metadatos (información sobre el conjunto de datos, como su nombre y proveedor, así como los conceptos que contiene y muestra) y los datos reales de los conjuntos de datos. Los metadatos se especifican en XML, mientras que los datos se proporcionan en formato CSV.
¿Cuáles son las principales ventajas de usar la DSPL?
La DSPL está diseñada desde cero para visualizaciones de datos enriquecidos, como las del Explorador de datos públicos. Para crear estos elementos, se requieren metadatos detallados sobre las porciones, las dimensiones y las métricas; entidades que no son tan compatibles con otros formatos de conjuntos de datos.
La DSPL también admite importaciones de conjuntos de datos, jerarquías de conceptos (p.ej., "country" es el elemento secundario de "continent", datos geocodificados y otros atributos únicos que mejoran la experiencia de la exploración de datos.
¿La DSPL reemplaza otros formatos que se usan para el intercambio o el análisis de datos?
En general, no. Como se indicó en la respuesta anterior, la DSPL está diseñada para la visualización y exploración interactivas. No está diseñado como un formato genérico de intercambio de datos o análisis de acciones en todo momento.
En última instancia, consideramos que la DSPL es complementaria con otros formatos. Los usuarios deben poder crear conjuntos de datos en DSPL a partir de otras fuentes con el fin de crear visualizaciones de datos interactivas y enriquecidas.
¿Qué puedo hacer con un conjunto de datos DSPL?
Puedes importarlos al Explorador de datos públicos, publicarlos y permitir que otros exploren los datos a través de visualizaciones interactivas y enriquecidas. Los conjuntos de datos publicados también se pueden incluir en el directorio de datos públicos para que los usuarios interesados puedan encontrarlos.
Actualmente, esta es la única aplicación que utiliza DSPL. Sin embargo, recomendamos que las personas lo usen para otras aplicaciones, y esperamos que su adopción aumente con el tiempo.
¿Qué tipos de conjuntos de datos son los más apropiados para la DSPL?
El formato DSPL admite colecciones arbitrarias de tablas y, por lo tanto, es apropiado para una amplia variedad de tipos de conjuntos de datos. Sin embargo, solo un subconjunto de los conjuntos de datos de la DSPL producirá visualizaciones interesantes en Public Data Explorer. El último producto, en particular, funciona mejor para los siguientes datos:
- Cuantitativos: Cada dato tiene una o más métricas numéricas asociadas a ellos (p.ej., "población", "cantidad de casos de gripe", "ingresos").
- Categóricos: Los datos se pueden organizar en un número finito de categorías que se pueden describir con texto (p.ej., "countries", "genders", "age groups").
- Series temporales: Para cada categoría, las métricas de datos varían en función del tiempo, y los puntos adyacentes tienen una diferencia de, al menos, un día (Public Data Explorer no puede visualizar incrementos temporales inferiores a un día).
- Agregada: Para cada combinación de tiempo, categoría o métrica, hay un solo dato, no una lista de eventos o hechos.
Creé un conjunto de datos en DSPL y me gustaría que aparezca en el Directorio de datos públicos de Google para que otros puedan encontrarlo. ¿Con quién debo comunicarme?
Completa este formulario y proporciona un vínculo a tu conjunto de datos.
Tengo problemas con la DSPL. ¿A quién debo solicitar ayuda?
Publica tu problema en el foro de debate de la DSPL.
Archivos de conjuntos de datos DSPL
¿Cómo debo codificar mis archivos XML y CSV?
Todos los archivos XML y CSV deben estar codificados en UTF-8. Ten en cuenta que ASCII (a veces denominado "texto sin formato") es un subconjunto de UTF-8, por lo que los conjuntos de datos en ese formato también deberían funcionar.
¿Qué software debo usar para crear y editar mis archivos de conjuntos de datos?
Para editar los archivos en formato XML, te recomendamos usar un editor de texto sin formato con la sintaxis destacada para facilitar la lectura. Consulta este artículo para conocer algunas recomendaciones específicas de la plataforma. No recomendamos usar procesadores de texto de uso general con todas las funciones, ya que suelen insertar etiquetas de formato adicionales en el XML, lo que puede causar errores de importación.
Por lo general, una hoja de cálculo es la forma más fácil de crear y editar tus archivos de datos. Solo asegúrate de guardarlos en el formato correcto (CSV/valores separados por comas).
Tengo datos en Excel, SPSS, SAS o algún otro sistema. ¿Puedo importarlos directamente a Public Data Explorer?
No en este momento. Primero, debes exportar tus datos en formato CSV, agregar los metadatos XML apropiados y, luego, subir un conjunto de datos compatible con DSPL a Public Data Explorer.
¿Tiene alguna importancia el nombre que asigne a mis archivos?
El archivo en formato XML del conjunto de datos debe tener un nombre que termine en .xml
.
Los archivos de datos CSV asociados pueden tener cualquier nombre, siempre que coincidan con los nombres que se indican en las etiquetas <file>
de los metadatos XML.
El archivo ZIP que se usa para empaquetar e importar el conjunto de datos a Public Data
Explorer también puede tener cualquier nombre.
¿Mis archivos CSV deberían estar ordenados?
Sí. Debes ordenar el contenido de tus archivos CSV por dimensiones que no son de tiempo (en cualquier orden o dirección) y, luego, de forma opcional, por cualquiera de las otras columnas (p.ej., hora).
Por ejemplo, si tienes un archivo CSV con las columnas date
, dimension1
, dimension2
, metric1
y metric2
, debes ordenar por dimension1
y dimension2
(en cualquier orden). Si también deseas ordenar por columna de fecha/hora, este debería ser el último elemento que ordenes.
La clasificación de esta manera mantiene las observaciones de cada serie temporal agrupadas, lo que mejora en gran medida la eficiencia del proceso de importación de DSPL.
Modelo y sintaxis XML
¿Cómo decido qué debe ser una métrica y qué debe ser una dimensión?
Una dimensión es una entidad que se utiliza para segmentar o filtrar tus datos. Por otro lado, una métrica describe los valores observados o los valores asociados con cada dato.
Por lo general, las dimensiones son categóricas, mientras que las métricas son valores numéricos, que varían en el tiempo y no categóricos. Estos son algunos ejemplos prototípicos de cada una:
- Dimensiones: país, estado, condado, región, año, mes, sexo, categoría de edad y segmento de la industria
- Métricas: Población, PBI, tasa de desempleo, alfabetización, ingresos, costo, precio
¿Cuál es la diferencia entre una propiedad y un atributo?
Las propiedades se adjuntan a cada instancia de un concepto. Por ejemplo, una propiedad de continente tendrá valores diferentes para distintos países.
Por otro lado, los atributos se asocian con el concepto en su conjunto.
Por ejemplo, un atributo isParent
es verdadero para todos los continentes.
¿El orden de las etiquetas es importante?
Sí. Agrega las etiquetas en el orden en que aparecen en la Guía para desarrolladores. Por ejemplo, <topic>
debe aparecer antes de <type>
en la definición de un concepto.
¿El uso de mayúsculas es importante?
Sí, los nombres de las etiquetas y los atributos XML deben escribirse en mayúscula de la misma manera que aparecen en la Guía para desarrolladores. Por ejemplo, usar isparent
en lugar de isParent
en una etiqueta property
provocará un error de importación.
¿Un concepto puede tener dos padres?
No. Cada concepto puede tener solo una referencia isParent
.
¿Un concepto puede referirse a sí mismo?
Sí. Consulta el conjunto de datos de Ventas minoristas en EE.UU. para ver un ejemplo de una jerarquía de conceptos de autorreferencia.
Formato de datos
¿Cómo les doy formato a las fechas?
Las fechas se pueden escribir en cualquier formato que se pueda describir con el
estándar Joda DateTime. El código de formato de Joda debe almacenarse en un atributo format
dentro del elemento de columna de la tabla correspondiente.
A continuación, se indican los códigos de formato de Joda para algunos formatos de fecha populares:
Ejemplo de fecha | Formato Joda |
---|---|
2010 | yyyy |
Mayo de 2010 | MMM yyyy |
21/05/2010 | MM/dd/yyyy |
21/05/2010 | dd/MM/yyyy |
2010-05-21 | yyyy-MM-dd |
En particular, ten en cuenta que el código de Joda para los caracteres de mes es M
, no m
(que representa los minutos).
¿Puedo usar unidades de tiempo inferiores a un día?
El formato Joda DateTime, y, por lo tanto, DSPL también, admite valores de tiempo de hasta el orden de milisegundos. Sin embargo, Public Data Explorer no puede (todavía) visualizar niveles de detalle de tiempo inferiores a un día.
Usa conceptos canónicos
¿Qué son los "conceptos canónicos" y para qué sirven?
El término "conceptos canónicos" hace referencia a un conjunto de conceptos creados por Google que están pensados como "componentes básicos" en otros conjuntos de datos. Los conceptos en sí se definen en seis conjuntos de datos de la DSPL que agrupan los primeros en categorías como “tiempo”, “ubicación geográfica”, etc. Para obtener acceso a estos conceptos, simplemente importa los conjuntos de datos principales adecuados al comienzo de tu archivo XML en DSPL.
Los conceptos canónicos son útiles porque ayudan a ahorrar tiempo (p.ej., porque no tienes que ingresar manualmente los valores de latitud y longitud para cada país del mundo) y también indican cómo se deben visualizar tus datos. Por ejemplo, Public Data Explorer usa los conceptos de time:...
para dar formato al eje X del gráfico de líneas, usa la propiedad name
del concepto entity:entity
para producir cadenas para la IU del selector de dimensiones, usa las propiedades latitude
y longitude
de geo:location
para mostrar datos en la visualización del mapa, etcétera.
¿Public Data Explorer comprende todos los conceptos canónicos?
Si bien Public Data Explorer comprende la mayoría de los conceptos canónicos proporcionados, hay algunos que (aún) no se pueden visualizar. Estos se mencionan a continuación, junto con algunas soluciones sugeridas:
Concepto | Solución alternativa |
---|---|
quantity:index |
En su lugar, usa quantity:ratio o quantity:magnitude . |
time:quarter |
Usa time:month como se describe en la Guía de soluciones de DSPL. |
time:week |
Usa time:day como se describe en la Guía de soluciones de DSPL. |
Mantente al tanto para mejorar la asistencia sobre estos conceptos en el futuro.
¿Cómo uso un concepto canónico en mi conjunto de datos?
Consulta la documentación sobre el concepto específico que deseas usar y también consulta la guía de soluciones de DSPL, que tiene instrucciones detalladas paso a paso para los más comunes.
Importar y visualizar conjuntos de datos
¿Por qué no puedo importar mi conjunto de datos correctamente?
La interfaz de carga del Explorador de datos públicos analizará tu conjunto de datos DSPL y bloqueará su importación si se detectan errores. El importador es muy sensible a la ortografía, el uso de mayúsculas y el orden o la posición de las etiquetas en tu archivo en formato XML, así como el diseño y la clasificación de los datos en tus archivos CSV, por lo que es posible que necesites algunos pases para hacer bien estos pasos e importar tu conjunto de datos de manera correcta.
El primer paso para resolver estos problemas es observar los mensajes de error proporcionados en la IU y tomar las medidas correctivas apropiadas. Como estos mensajes no siempre son los más fáciles de entender (algo que estamos trabajando activamente para mejorarlo), compilamos una tabla en la que se explican los más comunes:
Error | Explicación |
---|---|
clave duplicada: ... | La tabla de definición de tu concepto tiene un valor de ID repetido (es decir, un valor en la columna con el mismo nombre que el concepto). Estos valores se usan para identificar de forma única las instancias individuales del concepto, por lo que no se permiten los duplicados. |
Excepción en el análisis de filas de datos de la fuente causada por la combinación de propiedades, [...], aparece en más de un grupo de filas distinto en los datos. | El archivo CSV no está ordenado correctamente. Consulta la discusión anterior para obtener instrucciones sobre cómo hacerlo. |
Excepción al analizar las filas de datos de la fuente causada por un formato no válido: “...” tiene un formato incorrecto en “...” | El formato de este valor (por lo general, una fecha) en el archivo CSV no concuerda con el formato especificado en el archivo en formato XML. Cambia el formato o el valor para que coincidan. |
Excepción al analizar las filas de datos de la fuente causada por Número de elementos en la línea (...) no coincide con el número de propiedades especificadas (...) para la línea [...] | Una fila del archivo CSV tiene muy pocos o muchos valores. Corrige el formato de esta fila. |
Excepción en el análisis de filas de datos de la fuente causada por la string de entrada "..." | Un valor en el archivo CSV (por lo general, un número entero o un número de punto flotante) tiene caracteres no numéricos (p.ej., un símbolo de dólar, un signo de porcentaje, etc.) que impiden que se analice correctamente. Quita estos caracteres adicionales. |
Hay una excepción en el análisis de filas de datos de la fuente causada por el valor de datos "..." para la propiedad "..." de la porción "..." no es un valor clave del concepto "..." al que se hace referencia. | Una de tus porciones contiene un valor de dimensión no reconocido (es decir, una que no está en la lista de todos los valores posibles para el concepto correspondiente). Regresa a la tabla de definición del concepto de dimensión y agrega el valor, si es necesario. |
El encabezado "..." en los datos es una propiedad constante en la tabla | El encabezado de la columna en el CSV no coincide con el ID de columna definido en la definición de la tabla XML. Cambia uno de los dos para que coincidan. |
Error de análisis XML. Se encontró contenido no válido que comienza con el elemento "...". Se espera uno de "{...}", "{...}", .... | El elemento XML al que se hace referencia no se encuentra en el lugar correcto. Comprueba que el orden sea correcto y que el elemento tenga el elemento superior correcto (p.ej., info por name ). |
Error de análisis XML. El atributo "..." no puede aparecer en el elemento "...". | La ortografía, el uso de mayúsculas y minúsculas o la ubicación de este atributo de etiqueta XML son incorrectos. Consulta la documentación para conocer el uso adecuado. |
Error de análisis de XML. ... El elemento "..." no puede tener caracteres [secundarios] porque el tipo de contenido del tipo es solo de elementos. | Hay texto desviado en tu archivo en formato XML (posiblemente debido a que a una etiqueta le falte un < o > ). Corrige el texto y vuelve a intentarlo. |
Si tienes problemas para entender un mensaje que no está en la lista anterior, publica un mensaje en el foro de DSPL y trataremos de ayudarte.
Mi conjunto de datos se importa con éxito, pero no puedo obtener visualizaciones que aparezcan en Public Data Explorer. ¿Qué sucede?
Este problema ocurre cuando tu conjunto de datos es una DSPL válida, pero no está en el subconjunto de DSPL que se puede visualizar en Public Data Explorer. Existen muchas causas posibles, y las más comunes son las siguientes:
- Definición de un concepto de dimensión sin una tabla: sin esta información, Public Data Explorer no sabe qué opciones mostrar en la IU.
- Crear un conjunto de datos que solo contenga métricas: Public Data Explorer requiere al menos una dimensión categórica (es decir, no temporal) definida en algún lugar del conjunto de datos para estructurar de manera adecuada la IU de visualización.
- No incluye una dimensión de tiempo en tus fragmentos: Public Data Explorer solo puede visualizar series temporales. El producto ignorará los segmentos que no sean de tiempo.
- Uso de una dimensión de tiempo distinta de las canónicas
time:...
: Public Data Explorer usa los conceptos canónicos detime
para diseñar y animar las diversas visualizaciones del producto, pero no comprende otros conceptos de tiempo, p.ej., los creados dentro de tu propio conjunto de datos. - Usar valores de tiempo demasiado grandes o demasiado pequeños: Public Data Explorer aún no visualiza conjuntos de datos con niveles de detalle de tiempo inferiores a un día. En el otro extremo del espectro, la herramienta tiene problemas con valores de año muy altos (p.ej., en decenas de miles). Esperamos que estos niveles de detalle sean más flexibles en el futuro.
¿Cómo integro mi conjunto de datos visualizado en mi sitio web?
Consulta este artículo en el Centro de ayuda de Public Data Explorer. Como se explica en la segunda, puedes obtener una "incorporación completa" (es decir, una que incluya los controles de exploración) si ajustas manualmente la URL de incorporación.