La vérification DSPL est un utilitaire qui valide un ensemble de données DSPL. selon un certain nombre de critères, notamment l'adhésion au schéma DSPL officiel, la cohérence des références internes et la structure des fichiers CSV. L'utilitaire peut détecteront de nombreux problèmes pouvant entraîner des erreurs d'importation DSPL, ce qui vous aidera à détecter et résolvez ces problèmes rapidement avant de lancer le processus de saisie.
Notez que l'utilitaire ne vérifie pas (encore) votre ensemble de données DSPL pour détecter tous les problèmes possibles. Cependant, il détectera les erreurs les plus courantes Si votre ensemble de données est correctement validé par l'outil, il y a de fortes chances qu'elles soient importées et consultables dans les l'explorateur de données. Consultez la section Vérifier les détails. ci-dessous pour en savoir plus.
Vérification DSPL en cours
Principes de base
Remarque:Pour suivre ces instructions, nous partons du principe que vous avez a déjà suivi l'installation instructions fournies sur la page "Outils DSPL".
Pour exécuter la vérification DSPL, accédez au terminal ou à l'invite de votre système, puis type:
python dsplcheck.py [path to dataset XML or zip file]
où le terme entre crochets est remplacé par le chemin d'accès relatif d'un fichier XML d'ensemble de données ou d'un dossier DSPL compressé.
Si le jeu de données est valide, l'outil affiche un réussis" . Sinon, un ou plusieurs messages d'erreur s'affichent. décrivant pourquoi la validation a échoué. Si ce dernier se produit, corrigez votre ensemble de données comme indiqué, puis exécutez à nouveau l'outil.
Vérification du niveau
Par défaut, DSPL Check examine l'intégralité de l'ensemble de données, y compris les fichiers CSV. référencé dans le fichier XML DSPL principal. Ce processus fonctionne bien sur les petits aux ensembles de données de taille moyenne, mais peuvent s'enliser ou manquer de mémoire. sur des ensembles de données très volumineux (de l'ordre de quelques centaines de mégaoctets ou plus grande).
Pour ces cas de figure, l'outil dispose d'un niveau de vérification
qui vous permet de définir l'étendue de la vérification et d'améliorer
les performances selon les besoins. Pour l'utiliser, insérez --checking_level=[...]
devant le chemin d'accès de l'ensemble de données, où le terme entre crochets est remplacé par l'une des
les valeurs suivantes:
schema_only
: valide le fichier XML de l'ensemble de données par rapport à le schéma DSPL officiel, puis arrêtez.schema_and_model
: valider le schéma et le modèle de base, mais ignorer le contenu CSV après la ligne d'en-tête.full
: valider le schéma, le modèle et les données (par défaut)
Vérification des détails...
DSPL Check effectue la séquence de validations suivante:
- Validation du schéma XML:vérifie que votre ensemble de données fichier de métadonnées est un fichier XML valide qui respecte la schéma DSPL officiel.
- Existence du fichier CSV:vérifie que tous les fichiers CSV référencées dans votre ensemble de données existent et peuvent être chargées.
-
Vérifications de concept:différentes vérifications de chaque concept de votre
ensemble de données, y compris:
<ph type="x-smartling-placeholder">
- </ph>
- L'ensemble de données comporte au moins un concept*
- Toutes les références à des sujets sont valides
- Une référence de table existe si le concept est utilisé en tant qu'élément non temporel dimension*
- La référence de table est valide si elle est présente.
- La table référencée comporte une colonne correspondant à l'ID de concept
-
Vérifications des tranches:différentes vérifications de chaque segment de votre
ensemble de données, y compris:
<ph type="x-smartling-placeholder">
- </ph>
- L'ensemble de données comporte au moins une tranche*
- Au moins un segment fait référence à une dimension non temporelle*
- Le segment comporte au moins une métrique et une dimension
- Une seule référence de dimension
time
concept canonique* - Chaque secteur a une combinaison unique de dimensions
- Toutes les références aux concepts locaux sont valides
- Une référence de table existe
- La référence de table est valide
- Le tableau référencé comporte une colonne pour chaque dimension et métrique dans la tranche
- Les types de colonnes du tableau référencé correspondent aux types de concepts utilisés dans le segment
-
Vérifications des tables:différentes vérifications de chaque table de votre
ensemble de données, y compris:
<ph type="x-smartling-placeholder">
- </ph>
- L'ensemble de données comporte au moins une table*
- Le fichier CSV contient le même nombre de colonnes que le tableau
- Les chaînes d'en-tête CSV correspondent aux ID de colonne
- Toutes les colonnes de date comportent un attribut
format
- Les formats de date correspondent (à peu près) aux concepts temporels associés,
Par exemple, le format d'une colonne
time:year
inclut au moins un caractèrey
*
-
Vérifications des données CSV:différentes vérifications des fichiers de données CSV
référencés par le fichier XML de votre ensemble de données, y compris:
<ph type="x-smartling-placeholder">
- </ph>
- Chaque ligne du fichier CSV comporte le même nombre de colonnes que son en-tête
- Le fichier CSV de définition de concept ne comporte pas plus d'une ligne par ligne ID de concept
- Le fichier CSV de segment d'application ne contient pas plus d'une ligne pour chaque combinaison de Dimensions
- Les valeurs de dimension référencées dans le fichier CSV de segment sont valides
- Le fichier CSV de la tranche est correctement trié
- Le format des valeurs CSV entières et flottantes est correct
Les critères marqués d’un astérisque (*) sont nécessaires pour dans Public Data Explorer, mais techniquement, elles ne sont pas requises par le format DSPL.
En revanche, l'outil ne vérifie pas (encore) les éléments suivants:
- Importations d'ensembles de données
- Références aux attributs et aux propriétés
- Extensions de concept