FAQ DSPL

Ce document traite des problèmes les plus fréquemment rencontrés par les propriétaires de données lors de la création d'ensembles de données DSPL et de leur importation dans Public Data Explorer.

Sommaire

Questions d'ordre général

Qu'est-ce que DSPL ?

DSPL signifie Dataset Publishing Language. Il s'agit d'un format de représentation des métadonnées (informations sur l'ensemble de données, telles que son nom et son fournisseur, ainsi que les concepts qu'il contient et affiche) et des données réelles des ensembles de données. Les métadonnées sont spécifiées au format XML, tandis que les données sont fournies au format CSV.

Quels sont les principaux avantages de DSPL ?

DSPL est conçu dès le départ pour des visualisations de données enrichies, telles que celles de Public Data Explorer. Leur création nécessite des métadonnées détaillées autour des tranches, des dimensions et des métriques, des entités qui ne sont pas aussi bien compatibles avec les autres formats d'ensemble de données.

DSPL prend également en charge l'importation d'ensembles de données, les hiérarchies de concepts (par exemple, "country" est l'enfant du "continent"), des données géocodées et un certain nombre d'autres caractéristiques uniques qui améliorent l'expérience d'exploration des données.

DSPL remplace-t-il d'autres formats utilisés pour l'échange et/ou l'analyse de données ?

En général, ce n'est pas possible. Comme indiqué dans la réponse précédente, DSPL est conçu pour la visualisation et l'exploration interactives. Il ne constitue pas un format d'analyse ou d'échange de données générique et universel.

Nous considérons que la DSPL est complémentaire aux autres formats. Les utilisateurs doivent être en mesure de créer des ensembles de données DSPL à partir d'autres sources afin de créer des visualisations de données riches et interactives.

Que puis-je faire avec un ensemble de données DSPL ?

Vous pouvez les importer dans Public Data Explorer, les publier et permettre à d'autres utilisateurs de les explorer via des visualisations riches et interactives. Les ensembles de données publiés peuvent également être inclus dans le répertoire des données publiques afin que les utilisateurs intéressés puissent les trouver.

Actuellement, il s'agit de la seule application utilisant DSPL. Cependant, nous encourageons les utilisateurs à l'utiliser pour d'autres applications, et nous nous attendons à ce que son adoption augmente au fil du temps.

Quels types d'ensembles de données sont les plus adaptés à DSPL ?

Le format DSPL accepte des collections arbitraires de tables et convient donc à une grande variété de types d'ensembles de données. Cependant, seul un sous-ensemble des ensembles de données DSPL peut produire des visualisations intéressantes dans Public Data Explorer. Ce dernier produit, en particulier, est plus efficace pour les données qui sont:

  • Quantitative:chaque point de données est associé à une ou plusieurs métriques numériques (par exemple, "population", "nombre de cas de grippe", "revenus").
  • Catégorielle:les données peuvent être organisées en un nombre fini de catégories de description textuelle (par exemple, "pays", "sexes", "groupes d'âge").
  • Série temporelle:pour chaque catégorie, les métriques de données varient en fonction du temps, et les points adjacents sont espacés d'au moins un jour (l'explorateur Google Données publiques ne peut pas visualiser les incréments de temps inférieurs à un jour).
  • Agrégé:pour chaque combinaison heure / catégorie / métrique, il existe un seul point de données, et non une liste d'événements ou de faits.

J'ai créé un ensemble de données DSPL et j'aimerais qu'il apparaisse dans le répertoire Google Public Data afin que d'autres utilisateurs puissent le trouver. Qui dois-je contacter ?

Veuillez remplir ce formulaire et fournir un lien vers votre ensemble de données.

Je rencontre des problèmes avec DSPL. Où puis-je obtenir de l'aide ?

Veuillez publier votre problème sur le forum de discussion DSPL.

Fichiers d'ensemble de données DSPL

Comment dois-je encoder mes fichiers XML et CSV ?

Tous les fichiers XML et CSV doivent être encodés en UTF-8. Notez que ASCII (parfois appelé "texte brut") est un sous-ensemble de l'encodage UTF-8. Par conséquent, les ensembles de données dans ce format devraient également fonctionner.

Quel logiciel dois-je utiliser pour créer et modifier les fichiers de mon ensemble de données ?

Nous vous recommandons d'utiliser un éditeur de texte brut, avec coloration syntaxique pour améliorer la lisibilité, pour modifier vos fichiers XML. Consultez cet article pour obtenir des recommandations spécifiques à la plate-forme. Nous vous déconseillons d'utiliser des traitements de texte polyvalents et dotés de fonctionnalités complètes, car ils ont tendance à insérer des balises de mise en forme supplémentaires dans le code XML, ce qui peut entraîner des erreurs d'importation.

Une feuille de calcul est généralement le moyen le plus simple de créer et de modifier vos fichiers de données. Veillez simplement à les enregistrer au bon format (CSV/valeurs séparées par une virgule).

J'ai des données dans Excel, SPSS, SAS ou un autre système. Puis-je les importer directement dans Public Data Explorer ?

Non, pas pour l'instant. Vous devez d'abord exporter vos données au format CSV, ajouter les métadonnées XML appropriées, puis importer un ensemble de données conforme à DSPL dans Public Data Explorer.

Le nom que j'ai donné à mes fichiers a-t-il une importance ?

Le nom du fichier XML de votre ensemble de données doit se terminer par .xml. Les fichiers de données CSV associés peuvent avoir n'importe quel nom, à condition qu'ils correspondent aux noms indiqués dans les balises <file> de vos métadonnées XML. Le fichier ZIP utilisé pour empaqueter et importer l'ensemble de données dans l'explorateur Google Données publiques peut également porter n'importe quel nom.

Dois-je trier mes fichiers CSV ?

Oui. Vous devez trier le contenu de vos fichiers CSV en fonction des dimensions non temporelles (dans n'importe quel ordre ou dans n'importe quelle direction), puis, éventuellement, selon l'une des autres colonnes (par exemple, l'heure).

Ainsi, si vous disposez d'un fichier CSV contenant les colonnes date, dimension1, dimension2, metric1 et metric2, vous devez trier par dimension1 et dimension2 (dans n'importe quel ordre). Si vous souhaitez également effectuer un tri en fonction de la colonne date/heure, il doit s'agir de la dernière méthode utilisée pour effectuer le tri.

Ce tri permet de regrouper les observations de chaque série temporelle, ce qui améliore considérablement l'efficacité du processus d'importation DSPL.

Modèle XML et syntaxe

Comment déterminer ce qui doit être une métrique et une dimension ?

Une dimension est une entité utilisée pour segmenter ou filtrer vos données. Une métrique, quant à elle, décrit la ou les valeurs observées associées à chaque point de données.

En règle générale, les dimensions sont catégorielles, tandis que les métriques sont des valeurs numériques non catégorielles, qui varient dans le temps. Voici quelques exemples prototypiques de chaque type:

  • Dimensions: pays, État, comté, région, année, mois, sexe, catégorie d'âge, segment industriel
  • Métriques: Population, PIB, taux de chômage, alphabétisation, revenus, coût, prix

Quelle est la différence entre une propriété et un attribut ?

Les propriétés sont associées à chaque instance d'un concept. Par exemple, une propriété "Continent" aura des valeurs différentes pour différents pays. Les attributs, en revanche, sont associés au concept dans son ensemble. Par exemple, un attribut isParent est vrai pour tous les continents.

L'ordre des balises est-il important ?

Oui. Ajoutez vos balises dans l'ordre dans lequel elles apparaissent dans le guide du développeur. Par exemple, <topic> doit apparaître avant <type> dans la définition d'un concept.

Les majuscules ont-elles une importance ?

Oui. Les noms de vos balises XML et de vos attributs doivent commencer par une majuscule, comme indiqué dans le guide du développeur. Par exemple, l'utilisation de isparent au lieu de isParent dans une balise property entraînera une erreur d'importation.

Un concept peut-il avoir deux parents ?

Non. Chaque concept ne peut avoir qu'une seule référence isParent.

Un concept peut-il se référer à lui-même ?

Oui. Pour obtenir un exemple de hiérarchie de concepts auto-référence, consultez l'ensemble de données sur les ventes au détail aux États-Unis.

Formatage des données

Comment mettre en forme des dates ?

Les dates peuvent être écrites dans n'importe quel format qui peut être décrit à l'aide de la norme Joda DateTime. Le code de mise en forme Joda doit être stocké dans un attribut format au sein de l'élément de colonne de table correspondant.

Les codes de format Joda pour certains formats de date courants sont listés ci-dessous:

Exemple de date Format Joda
2010 yyyy
Mai 2010 MMM yyyy
21/05/2010 MM/dd/yyyy
21/05/2010 dd/MM/yyyy
2010-05-21 yyyy-MM-dd

Notez en particulier que le code Joda pour les caractères de mois est M, et non m (qui représente les minutes).

Puis-je utiliser des unités de temps inférieures à un jour ?

Le format de date et heure de Joda (et donc DSPL également), accepte des valeurs d'heure de l'ordre de quelques millisecondes. Toutefois, Public Data Explorer ne peut pas (encore) visualiser des niveaux de précision inférieurs à un jour.

Utiliser des concepts canoniques

Que sont les "concepts canoniques" et en quoi sont-ils utiles ?

Le terme "concepts canoniques" fait référence à un ensemble de concepts créés par Google et conçus comme des "composants" de base dans d'autres ensembles de données. Les concepts eux-mêmes sont définis dans six ensembles de données DSPL qui regroupent les premiers en catégories telles que "heure", "géographique", etc. Pour accéder à ces concepts, il vous suffit d'importer le ou les ensembles de données parents appropriés au début de votre fichier XML DSPL.

Les concepts canoniques sont utiles, car ils vous font gagner du temps (par exemple, en vous évitant de saisir manuellement les valeurs de latitude et de longitude pour chaque pays du monde) et indiquent également comment visualiser vos données. Par exemple, Public Data Explorer utilise les concepts time:... pour mettre en forme l'axe x du graphique en courbes, utilise la propriété name du concept entity:entity pour produire des chaînes pour l'interface utilisateur du sélecteur de dimensions, utilise les propriétés latitude et longitude de geo:location pour afficher les données dans la visualisation de la carte, etc.

Tous les concepts canoniques sont-ils compris par Public Data Explorer ?

Bien que la plupart des concepts canoniques fournis soient compris par Public Data Explorer, certains ne sont pas (encore) visualisables. Vous trouverez ci-dessous la liste des solutions proposées, ainsi que des suggestions de solutions:

Concept Solution
quantity:index Utilisez quantity:ratio ou quantity:magnitude à la place.
time:quarter Utilisez time:month comme décrit dans le livre de recettes DSPL.
time:week Utilisez time:day comme décrit dans le livre de recettes DSPL.

Nous vous communiquerons prochainement plus d'informations à ce sujet.

Comment utiliser un concept canonique dans mon ensemble de données ?

Consultez la documentation sur le concept spécifique que vous souhaitez utiliser, ainsi que le livre de recettes DSPL, qui contient des instructions détaillées et détaillées sur les plus courants.

Importer et visualiser des ensembles de données

Pourquoi ne puis-je pas importer mon ensemble de données ?

L'interface d'importation de Public Data Explorer analyse votre ensemble de données DSPL et bloque son importation si des erreurs sont détectées. L'outil d'importation est très sensible à l'orthographe, à la casse, à l'ordre et à l'emplacement des tags dans votre fichier XML, ainsi qu'à la mise en page et au tri des données dans vos fichiers CSV. Il vous faudra donc peut-être quelques passes pour bien effectuer ces opérations et importer votre ensemble de données.

La première étape pour résoudre ces problèmes consiste à examiner le ou les messages d'erreur affichés dans l'interface utilisateur, puis à prendre les mesures correctives appropriées. Ces messages ne sont pas toujours les plus faciles à comprendre (ce que nous nous efforçons d'améliorer). Nous avons donc créé un tableau qui explique les plus courants:

Erreur Explication
clé en double: ... La table de définition de votre concept comporte une valeur d'identifiant répétée (c'est-à-dire une valeur dans la colonne portant le même nom que le concept). Ces valeurs permettent d'identifier de manière unique les instances individuelles du concept. Les doublons ne sont donc pas autorisés.
Une exception dans l'analyse des lignes de données de la source en raison de la combinaison de propriétés [...] apparaît dans plusieurs groupes de lignes de données distincts. Votre fichier CSV n'est pas trié correctement. Consultez la discussion ci-dessus pour savoir comment procéder.
Exception lors de l'analyse des lignes de données de la source en raison d'un format non valide: "..." est incorrect à "..." Le format de cette valeur (généralement une date) dans votre fichier CSV n'est pas cohérent avec le format indiqué dans votre fichier XML. Modifiez le format ou la valeur afin qu'ils correspondent.
Une exception lors de l'analyse des lignes de données de la source est causée par le nombre d'éléments dans la ligne (...) ne correspond pas au nombre de propriétés spécifiées (...) pour la ligne: [...] Une ligne de votre fichier CSV contient trop ou trop peu de valeurs. Corrigez la mise en forme de cette ligne.
Exception lors de l'analyse des lignes de données de la source en raison de la chaîne "Pour la chaîne d'entrée" : "..." Une valeur de votre fichier CSV (généralement un entier ou un nombre flottant) contient des caractères non numériques (par exemple, un symbole dollar, un signe de pourcentage, etc.) qui empêchent son analyse correcte. Supprimez ces caractères en trop.
Une exception lors de l'analyse des lignes de données de la source en raison de la valeur de données "..." pour la propriété "..." du segment d'application "..." n'est pas une valeur clé du concept référencé "...". L'un de vos secteurs contient une valeur de dimension non reconnue (par exemple, une qui ne figure pas dans la liste de toutes les valeurs possibles pour le concept correspondant). Revenez au tableau de définition du concept de dimension et ajoutez la valeur, si nécessaire.
L'en-tête "..." dans les données est une propriété constante dans le tableau L'en-tête de colonne du fichier CSV ne correspond pas à l'ID de colonne défini dans la définition de la table XML. Modifiez l'un ou l'autre afin qu'ils correspondent.
Erreur d'analyse XML. Un contenu non valide a été détecté à partir de l'élément "...". Un des éléments suivants est attendu : "{...}", "{...}", .... L'élément XML référencé n'est pas au bon endroit. Vérifiez que l'ordre est correct et que l'élément a le bon parent (par exemple, info pour name).
Erreur d'analyse XML. L'attribut "..." ne peut pas apparaître dans l'élément "...". L'orthographe, la casse ou l'emplacement de cet attribut de balise XML sont incorrects. Consultez la documentation pour connaître l'utilisation appropriée.
Erreur d'analyse XML. ... L'élément "..." ne peut pas comporter le caractère [children], car le type de contenu est "élément uniquement". Votre fichier XML contient du texte parasites dans votre fichier XML (cela peut être dû à l'absence d'un élément < ou > dans une balise). Corrigez le texte, puis réessayez.

Si vous ne comprenez pas un message qui ne figure pas dans la liste ci-dessus, veuillez publier un message sur le forum DSPL et nous essaierons de vous aider.

Mon ensemble de données a bien été importé, mais je ne parviens pas à afficher de visualisations dans l'explorateur Google Données publiques. Que se passe-t-il ?

Ce problème se produit lorsque votre ensemble de données est un ensemble de données DSPL valide, mais qu'il ne fait pas partie du sous-ensemble de DSPL visible dans l'explorateur Google Données publiques. Il existe de nombreuses causes possibles. Les plus courantes sont les suivantes:

  • Définir un concept de dimension sans table:sans ces informations, Public Data Explorer ne sait pas quelles options afficher dans l'interface utilisateur.
  • Créer un ensemble de données avec uniquement des métriques:Public Data Explorer nécessite au moins une dimension catégorielle (c'est-à-dire non temporelle) définie quelque part dans l'ensemble de données pour structurer correctement l'interface utilisateur de visualisation.
  • Absence de dimension temporelle dans vos tranches:Public Data Explorer ne peut visualiser que des séries temporelles. Les tranches horaires qui ne sont pas temporelles seront ignorées par le produit.
  • Utilisation d'une dimension temporelle autre que les dimensions canoniques time:...:Public Data Explorer utilise les concepts time canoniques pour la mise en page et l'animation des différentes visualisations dans le produit. Il ne comprend pas les autres concepts temporels, tels que ceux créés dans votre propre ensemble de données.
  • Utiliser des valeurs temporelles trop grandes ou trop petites:Public Data Explorer ne visualise pas encore les ensembles de données dont le niveau de précision est inférieur à un jour. À l'autre bout du spectre, l'outil rencontre des problèmes avec des valeurs d'année très élevées (par exemple, des dizaines de milliers). Nous espérons pouvoir apporter davantage de flexibilité à ces niveaux de précision à l'avenir.

Comment intégrer mon ensemble de données visualisé à mon site Web ?

Consultez cet article dans le centre d'aide de Public Data Explorer. Comme expliqué dans ce dernier, vous pouvez obtenir une "intégration complète" (c'est-à-dire, incluant les commandes d'exploration) en ajustant manuellement l'URL d'intégration.