DSPL Check è un'utilità che convalida un set di dati DSPL in base a una serie di criteri, tra cui l'ottemperanza allo schema ufficiale DSPL, coerenza dei riferimenti interni e struttura dei file CSV. L'utilità può individuando molti problemi che causano errori di importazione di DSPL, permettendoti di rilevare e risolverli rapidamente prima di iniziare il processo di input.
Tieni presente che l'utilità non controlla (ancora) il set di dati DSPL per ogni problema possibile. Tuttavia, individuerà i casi più comuni per cui se il set di dati viene convalidato correttamente dallo strumento, è molto probabile che sia importabile e visibile nei dati pubblici Spazio di esplorazione. Consulta la sezione Verifica dei dettagli di seguito per ulteriori informazioni.
Esecuzione del controllo DSPL
Nozioni di base
Nota: queste istruzioni presuppongono che tu abbia ha già seguito l'installazione istruzioni nella pagina Strumenti di DSPL.
Per eseguire il controllo DSPL, vai al terminale / prompt sul sistema e tipo:
python dsplcheck.py [path to dataset XML or zip file]
in cui il termine tra parentesi viene sostituito con il percorso relativo un file XML del set di dati o un bundle DSPL compresso.
Se il set di dati è valido, lo strumento restituisce una riuscito" . In caso contrario, vengono visualizzati uno o più messaggi di errore. che descrive il motivo per cui la convalida non è riuscita. Nel secondo caso, correggi il set di dati come indicato, quindi esegui nuovamente lo strumento.
Controllo del livello
Per impostazione predefinita, DSPL Check esamina l'intero set di dati, compresi i file CSV a cui si fa riferimento nel file XML DSPL principale. Questa procedura funziona bene sulle piccole a set di dati di medie dimensioni, ma potrebbe bloccarsi o esaurire la memoria su set di dati di grandi dimensioni (ossia centinaia di megabyte o più grande).
Per risolvere questi casi, lo strumento ha un livello di controllo
che consente di impostare l'ambito della verifica e migliorare
il rendimento in base alle esigenze. Per usare questa funzionalità, inserisci --checking_level=[...]
prima del percorso del set di dati, dove il termine tra parentesi è sostituito da uno dei
i seguenti valori:
schema_only
: convalida il file XML del set di dati rispetto alla schema DSPL ufficiale, quindi interrompi.schema_and_model
: esegui la convalida dello schema e del modello di base, ma ignora i contenuti CSV dopo la riga di intestazione.full
: esegui la convalida di schema, modello e dati (impostazione predefinita).
Verifica dei dettagli in corso...
Il controllo DSPL esegue la seguente sequenza di convalide:
- Convalida schema XML: verifica che il tuo set di dati il file di metadati sia in formato XML valido e conforme alle schema DSPL ufficiale.
- Esistenza CSV: controlla che tutti i file CSV a cui viene fatto riferimento nel set di dati esistono e sono caricabili.
-
Controlli dei concetti: vari controlli di ogni concetto nel tuo
che include:
- .
- Il set di dati ha almeno un concetto*
- Tutti i riferimenti all'argomento sono validi
- Il riferimento alla tabella esiste se il concetto viene utilizzato come non temporale dimensione*
- Il riferimento della tabella è valido se presente
- La tabella di riferimento ha una colonna corrispondente all'ID concetto
-
Controlli sezione: vari controlli di ogni sezione nella tua
comprensivo di:
- .
- Il set di dati ha almeno una sezione*
- Almeno una sezione fa riferimento a una dimensione non temporale*
- La sezione ha almeno una metrica e una dimensione
- Esattamente un riferimento a una dimensione
time
concetto canonico* - Ogni sezione ha una combinazione unica di dimensioni
- Tutti i riferimenti ai concetti locali sono validi
- Riferimento tabella esistente
- Il riferimento della tabella è valido
- La tabella di riferimento ha una colonna per ogni dimensione e metrica nella sezione
- I tipi di colonna nella tabella a cui viene fatto riferimento corrispondono ai tipi di concetti utilizzati nella sezione
-
Controlli tabella: i vari controlli di ogni tabella nella tabella.
comprensivo di:
- .
- Il set di dati ha almeno una tabella*
- Il file CSV ha lo stesso numero di colonne della tabella
- Le stringhe di intestazione CSV corrispondono agli ID colonna
- Tutte le colonne delle date hanno un attributo
format
- I formati della data sono (approssimativamente) allineati ai concetti di ora associati,
ad esempio, il formato di una colonna
time:year
include almeno un caratterey
*
-
Controlli dei dati CSV: vari controlli dei file di dati CSV.
a cui fa riferimento il file XML del tuo set di dati, tra cui:
- .
- Ogni riga CSV ha lo stesso numero di colonne dell'intestazione
- Il file CSV per la definizione dei concetti non contiene più di una riga per ogni ID concetto
- Il file CSV della sezione non ha più di una riga per ogni combinazione di dimensioni
- I valori delle dimensioni a cui viene fatto riferimento nel file CSV della sezione sono validi
- Il file CSV della sezione è ordinato correttamente
- I valori CSV dei numeri interi e mobili sono formattati correttamente
I criteri contrassegnati da un asterisco (*) sono necessari in Public Data Explorer, ma tecnicamente non sono richieste nel formato DSPL.
D'altra parte, lo strumento non esamina (ancora) quanto segue:
- Importazioni di set di dati
- Riferimenti ad attributi e proprietà
- Estensioni dei concetti