Preguntas frecuentes de DSPL

En este documento, se abordan los problemas más frecuentes que experimentan los propietarios de datos cuando crean conjuntos de datos de DSP y los suben al Explorador de datos públicos.

Contenido

Preguntas generales

¿Qué es DSPL?

DSPL significa lenguaje de publicación de conjuntos de datos. Es un formato de representación para los metadatos (información sobre el conjunto de datos, como su nombre y proveedor, así como los conceptos que contiene y muestra) y los datos reales de los conjuntos de datos. Los metadatos se especifican en XML, mientras que los datos se proporcionan en formato CSV.

¿Cuáles son las principales ventajas de usar DSP?

La DSP se diseñó desde cero para visualizaciones de datos enriquecidos como las de Public Data Explorer. Crearlos requiere metadatos detallados sobre porciones, dimensiones y métricas, entidades que no son tan compatibles con otros formatos de conjuntos de datos.

La DSPL también admite importaciones de conjuntos de datos, jerarquías de conceptos (p.ej., "country" es el elemento secundario de "continent", datos codificados geográficamente y otras funciones únicas que mejoran la experiencia de exploración de datos.

¿La DSPL reemplaza a otros formatos usados para el intercambio o el análisis de datos?

En general, no. Como se indicó en la respuesta anterior, la DSP está diseñada para la visualización y la exploración interactivas. No está pensado como un formato genérico de intercambio de datos o análisis.

En última instancia, consideramos que la DSPL es complementaria para otros formatos. Los usuarios deben poder crear conjuntos de datos de DSPL de otras fuentes con el fin de crear visualizaciones de datos interactivas y enriquecidas.

¿Qué puedo hacer con un conjunto de datos de DSPL?

Puedes importarlo al Explorador de datos públicos, publicarlo y permitir que otros exploren los datos mediante visualizaciones interactivas y enriquecidas. Los conjuntos de datos publicados también se pueden incluir en el Directorio de datos públicos para que los usuarios interesados puedan encontrarlos.

Actualmente, esta es la única aplicación que usa DSPL. Sin embargo, alentamos a las personas a utilizarlo en otras aplicaciones, y esperamos que esta adopción crezca.

¿Qué tipos de conjuntos de datos son los más apropiados para la DSP?

El formato DSP admite colecciones arbitrarias de tablas y, por lo tanto, es apropiado para una amplia variedad de tipos de conjuntos de datos. Sin embargo, solo un subconjunto de los conjuntos de datos de DSPL producirá visualizaciones interesantes en el Explorador de datos públicos. En particular, este último producto funciona mejor para los datos que tienen las siguientes características:

  • Cuantitativo: Cada dato tiene una o más métricas numéricas asociadas (p.ej., "población", "cantidad de casos de gripe", "ingresos".
  • Categóricos: Los datos se pueden organizar en una cantidad limitada de categorías que pueden describirse en textos (p.ej., "países", "géneros", "grupos etarios".
  • Series temporales: para cada categoría, las métricas de datos varían en función del tiempo y los puntos adyacentes tienen al menos un día de diferencia (el explorador de datos público no puede visualizar los incrementos de tiempo inferiores a un día).
  • Agregada: Para cada combinación de tiempo, categoría y métrica, hay un dato único, no una lista de eventos o hechos.

Creé un conjunto de datos de DSPL y me gustaría que aparezca en el directorio de datos públicos de Google para que otros usuarios puedan encontrarlo. ¿Con quién debo comunicarme?

Completa este formulario y proporciona un vínculo a tu conjunto de datos.

Tengo problemas con la DSPL. ¿A quién debo solicitar ayuda?

Publica tu problema en el foro de debate de DSPL.

Archivos de conjuntos de datos en DSPL

¿Cómo debo codificar mis archivos XML y CSV?

Todos los archivos en formato XML y CSV deben estar codificados en UTF-8. Ten en cuenta que ASCII (a veces denominado "texto sin formato") es un subconjunto de UTF-8, por lo que los conjuntos de datos en ese formato también deberían funcionar.

¿Qué software debo usar para crear y editar los archivos de mi conjunto de datos?

Un editor de texto sin formato, con resaltado de sintaxis para facilitar la lectura, es la opción recomendada a fin de editar tus archivos XML. Consulta este artículo para obtener algunas recomendaciones específicas de la plataforma. No recomendamos el uso de procesadores de funciones de uso general y con todas las funciones, ya que estos suelen insertar etiquetas de formato adicionales en el XML, lo que puede causar errores de importación.

Por lo general, una hoja de cálculo es la forma más fácil de crear y editar tus archivos de datos. Solo asegúrate de guardarlos en el formato correcto (valores CSV/separados por comas).

Tengo datos en Excel, SPSS, SAS o en algún otro sistema. ¿Puedo importarlos directamente a Public Data Explorer?

No en este momento. Primero, debes exportar los datos a formato CSV, agregar los metadatos XML apropiados y, luego, subir un conjunto de datos compatible con DSPL al explorador de datos públicos.

¿Importa el nombre que les doy a mis archivos?

Tu archivo XML del conjunto de datos debe tener un nombre que termine en .xml. Los archivos de datos CSV asociados pueden tener cualquier nombre, siempre que coincidan con los nombres proporcionados en las etiquetas <file> en tus metadatos XML. El archivo ZIP que se usa para empaquetar e importar el conjunto de datos al Explorador de datos públicos también puede tener cualquier nombre.

¿Debo ordenar mis archivos CSV?

Sí. Debes ordenar el contenido de los archivos CSV según las dimensiones sin tiempo (en cualquier orden o dirección) y, de forma opcional, según cualquier otra columna (p.ej., tiempo).

Por ejemplo, si tienes un archivo CSV con las columnas date, dimension1, dimension2, metric1 y metric2, debes ordenar por dimension1 y dimension2 (en cualquier orden). Si también quieres ordenar los datos por columna de fecha/hora, debería ser el último elemento en el que se debe ordenar.

Cuando se ordena de esta manera, se mantienen las observaciones de cada serie temporal, lo que mejora en gran medida la eficiencia del proceso de importación de la DSPL.

Modelo XML y sintaxis

¿Cómo decido cuál debería ser una métrica y cuál debería ser una dimensión?

Una dimensión es una entidad que se usa para segmentar o filtrar sus datos. Por otro lado, una métrica describe el valor o los valores observados asociados con cada dato.

Por lo general, las dimensiones son categóricas, mientras que las métricas son valores no categóricos, que varían en el tiempo y numéricos. Algunos ejemplos prototípicos de cada uno son los siguientes:

  • Dimensiones: País, estado, condado, región, año, mes, sexo, categoría de edad, segmento de la industria.
  • Métricas: Población, PIB, tasa de desempleo, alfabetización, ingresos, costo, precio

¿Cuál es la diferencia entre una propiedad y un atributo?

Las propiedades se adjuntan a cada instancia de un concepto. Por ejemplo, una propiedad de continente tendrá valores diferentes para distintos países. Los atributos, en cambio, están asociados con el concepto como un todo. Por ejemplo, un atributo isParent es verdadero para todos los continentes.

¿El orden de las etiquetas es importante?

Sí. Agregue sus etiquetas en el orden en que aparecen en la Guía para programadores. Por ejemplo, <topic> debe aparecer antes que <type> en la definición de un concepto.

¿Es importante el uso de mayúsculas?

Sí, los nombres de los atributos y la etiqueta XML deben escribirse con el mismo uso de la misma forma que aparecen en la Guía para desarrolladores. Por ejemplo, si usas isparent en lugar de isParent en una etiqueta property, se generará un error de importación.

¿Un concepto puede tener dos padres?

No. Cada concepto puede tener solo una referencia isParent.

¿Un concepto puede referirse a sí mismo?

Sí. Consulta el conjunto de datos de ventas minoristas de EE.UU. para ver un ejemplo de una jerarquía de conceptos de autorreferencia.

Formato de datos

¿Cómo formato las fechas?

Las fechas se pueden escribir en cualquier formato que se pueda describir con el estándar Joda DateTime. El código de formato de Joda debe almacenarse en un atributo format dentro del elemento de columna correspondiente de la tabla.

A continuación, se indican los códigos de formato de Joda para algunos formatos de fecha populares:

Ejemplo de fecha Formato Joda
2010 yyyy
Mayo de 2010 MMM yyyy
21/05/2010 MM/dd/yyyy
21/05/2010 dd/MM/yyyy
2010-05-21 yyyy-MM-dd

En particular, ten en cuenta que el código de Joda para los caracteres de mes es M, no m (que representa minutos).

¿Puedo usar unidades de tiempo inferiores a un día?

El formato de fecha y hora de Joda, y por lo tanto la DSPL, también admite valores de tiempo en milisegundos. Sin embargo, el Explorador de datos públicos no puede visualizar los detalles de tiempo menores a un día (todavía).

Usar conceptos canónicos

¿Qué son los "conceptos canónicos" y cómo son útiles?

El término "conceptos canónicos" se refiere a un conjunto de conceptos creados por Google que están diseñados como "componentes básicos" en otros conjuntos de datos. Los conceptos en sí se definen en seis conjuntos de datos de DSP que agrupan a los primeros en categorías, como “tiempo”, “geo”, etc. Para obtener acceso a estos conceptos, solo debes importar los conjuntos de datos superiores correspondientes al comienzo del archivo XML de DSL.

Los conceptos canónicos son útiles porque ayudan a ahorrar tiempo (p.ej., al no tener que ingresar manualmente los valores de latitud y longitud para cada país del mundo) y también indican cómo deben visualizarse tus datos. Por ejemplo, el Explorador de datos públicos usa los conceptos de time:... para dar formato al eje x del gráfico de líneas, usa la propiedad name del concepto entity:entity a fin de producir strings para la IU del selector de dimensiones, usa las propiedades latitude y longitude de geo:location para mostrar datos en la visualización del mapa, entre otros.

¿El Explorador de datos públicos comprende todos los conceptos canónicos?

Si bien la mayoría de los conceptos canónicos proporcionados son públicos del Explorador de datos públicos, hay algunos que aún no se pueden visualizar. A continuación, se indican algunas de ellas, junto con algunas soluciones sugeridas.

Concepto Solución alternativa
quantity:index En su lugar, usa quantity:ratio o quantity:magnitude.
time:quarter Usa time:month como se describe en la guía de soluciones de DSPL.
time:week Usa time:day como se describe en la guía de soluciones de DSPL.

No te pierdas las novedades sobre estos conceptos.

¿Cómo uso un concepto canónico en mi conjunto de datos?

Consulta la documentación para conocer el concepto específico que deseas usar y también consulta la guía de soluciones de DSPL, que contiene instrucciones detalladas y detalladas sobre los más comunes.

Importa y visualiza conjuntos de datos

¿Por qué no puedo importar mi conjunto de datos correctamente?

La interfaz de carga de Public Data Explorer analizará tu conjunto de datos de DSPL y bloqueará su importación si se detectan errores. El importador es muy sensible a la ortografía, el uso de mayúsculas y el orden o la posición de las etiquetas en tu archivo XML, así como el diseño y el orden de los datos en tus archivos CSV, por lo que es posible que debas realizar varios pasos para importar estos conjuntos de datos correctamente.

El primer paso para resolver estos problemas es observar los mensajes de error proporcionados en la IU y tomar las medidas correctivas apropiadas. Debido a que estos mensajes no siempre son fáciles de entender (algo que estamos trabajando activamente para mejorarlos), compilamos una tabla que explica los más comunes:

Error Explicación
clave duplicada: ... La tabla de definición para tu concepto tiene un valor de ID repetido (es decir, un valor en la columna con el mismo nombre que el concepto). Estos valores se usan para identificar de forma única las instancias individuales del concepto, por lo que no se permiten los duplicados.
Excepción en el análisis de las filas de datos de la fuente causada por la combinación de propiedades, [...], aparece en más de un grupo de filas distinto en los datos. Tu CSV no está correctamente clasificado. Consulta la explicación anterior para obtener instrucciones sobre cómo hacerlo.
Excepción en el análisis de las filas de datos de la fuente causada por un formato no válido: "..." tiene un formato incorrecto en "..." El formato de este valor (por lo general, una fecha) en el CSV no es coherente con el formato que se proporciona en el archivo XML. Cambia el formato o el valor para que coincidan.
La excepción en el análisis de las filas de datos de la fuente causada por la cantidad de elementos en la línea (...) no coincidió con la cantidad de propiedades especificadas (...) para la línea: [...] Una fila de su CSV tiene demasiados o muy pocos valores. Corrige el formato de esta fila.
Excepción en el análisis de las filas de datos de la fuente causada por la string de entrada ":"... Un valor en tu CSV (por lo general, un número entero o flotante) tiene caracteres no numéricos (p.ej., un símbolo de dólar, un signo de porcentaje, etc.) que impiden que se analice correctamente. Quita estos caracteres adicionales.
La excepción en el análisis de filas de datos de la fuente causada por el valor de datos "..." de la propiedad "..." de la Slice "..." no es un valor clave del concepto al que se hace referencia "...". Una de tus secciones contiene un valor de dimensión no reconocido (es decir, uno que no está en la lista de todos los valores posibles para el concepto correspondiente). Vuelve a la tabla de definición de conceptos de dimensión y agrega el valor, si es necesario.
El encabezado "..." en los datos es una propiedad constante en la tabla. El encabezado de columna en el CSV no coincide con el ID de columna definido en la definición de tabla XML. Cambia una o la otra para que coincidan.
Error de análisis de XML ... Se encontró contenido no válido comenzando con el elemento “...”. Uno de los atributos “{...}”, “{...}”, ... es el esperado. El elemento XML al que se hace referencia no está en el lugar correcto. Comprueba que el orden sea correcto y que el elemento tenga el elemento superior correcto (p.ej., info por name).
Error de análisis de XML ... El atributo "..." no puede aparecer en el elemento "...". La ortografía, el caso o la ubicación de este atributo de etiqueta XML es incorrecto. Consulta la documentación para conocer el uso adecuado.
Error de análisis de XML ... El elemento "..." no puede tener el carácter [secundario], porque el tipo de contenido del tipo es solo elemento. Hay texto no estándar en tu archivo XML (posiblemente causado por una etiqueta que no tiene un < o un >). Corrige el texto y vuelve a intentarlo.

Si tienes problemas para comprender un mensaje que no se encuentra en la lista anterior, publica un mensaje en el foro DSPL y trataremos de ayudarte.

Mi conjunto de datos se importa correctamente, pero no puedo obtener visualizaciones para mostrar en el Explorador de datos públicos. ¿A qué se debe?

Este problema ocurre cuando tu conjunto de datos es DSPL válido, pero no está en el subconjunto de DSPL que se puede visualizar en el Explorador de datos públicos. Existen muchas causas posibles para esto; las más comunes son las siguientes:

  • Definición de un concepto de dimensión sin una tabla: Sin esta información, el explorador de datos públicos no sabe qué opciones mostrar en la IU.
  • Crear un conjunto de datos con solo métricas: el Explorador de datos públicos requiere al menos una dimensión categórica (es decir, no temporal) definida en algún lugar del conjunto de datos para estructurar de manera correcta la IU de visualización.
  • No incluir una dimensión de tiempo en tus fragmentos: el Explorador de datos públicos solo puede visualizar series temporales. El producto ignorará los fragmentos que no sean de tiempo.
  • Con una dimensión de tiempo distinta de la canónica time:...: Public Data Explorer usa los conceptos time canónicos para diseñar y animar las distintas visualizaciones del producto; no comprende otros conceptos de hora, p.ej., aquellos creados dentro de tu propio conjunto de datos.
  • Usar valores de tiempo que son demasiado grandes o demasiado pequeños: el Explorador de datos públicos aún no visualiza conjuntos de datos con niveles de detalle de tiempo inferiores a un día. En el otro extremo del espectro, la herramienta tiene problemas con valores de año muy grandes (p.ej., en las decenas de miles). Esperamos que estas granularidades sean más flexibles en el futuro.

¿Cómo integro mi conjunto de datos visualizado en mi sitio web?

Consulta este artículo en el Centro de ayuda de Public Data Explorer. Como se explicó en el último ejemplo, puedes obtener una “incorporación completa” (es decir, una que incluya los controles de exploración) si ajustas de forma manual la URL de incorporación.