Controllo DSPL

DSPL Check è un'utilità che convalida un set di dati DSPL in base a una serie di criteri, tra cui l'ottemperanza allo schema ufficiale DSPL, coerenza dei riferimenti interni e struttura dei file CSV. L'utilità può individuando molti problemi che causano errori di importazione di DSPL, permettendoti di rilevare e risolverli rapidamente prima di iniziare il processo di input.

Tieni presente che l'utilità non controlla (ancora) il set di dati DSPL per ogni problema possibile. Tuttavia, individuerà i casi più comuni per cui se il set di dati viene convalidato correttamente dallo strumento, è molto probabile che sia importabile e visibile nei dati pubblici Spazio di esplorazione. Consulta la sezione Verifica dei dettagli di seguito per ulteriori informazioni.

Esecuzione del controllo DSPL

Nozioni di base

Nota: queste istruzioni presuppongono che tu abbia ha già seguito l'installazione istruzioni nella pagina Strumenti di DSPL.

Per eseguire il controllo DSPL, vai al terminale / prompt sul sistema e tipo:

python dsplcheck.py [path to dataset XML or zip file]

in cui il termine tra parentesi viene sostituito con il percorso relativo un file XML del set di dati o un bundle DSPL compresso.

Se il set di dati è valido, lo strumento restituisce una riuscito" . In caso contrario, vengono visualizzati uno o più messaggi di errore. che descrive il motivo per cui la convalida non è riuscita. Nel secondo caso, correggi il set di dati come indicato, quindi esegui nuovamente lo strumento.

Controllo del livello

Per impostazione predefinita, DSPL Check esamina l'intero set di dati, compresi i file CSV a cui si fa riferimento nel file XML DSPL principale. Questa procedura funziona bene sulle piccole a set di dati di medie dimensioni, ma potrebbe bloccarsi o esaurire la memoria su set di dati di grandi dimensioni (ossia centinaia di megabyte o più grande).

Per risolvere questi casi, lo strumento ha un livello di controllo che consente di impostare l'ambito della verifica e migliorare il rendimento in base alle esigenze. Per usare questa funzionalità, inserisci --checking_level=[...] prima del percorso del set di dati, dove il termine tra parentesi è sostituito da uno dei i seguenti valori:

  • schema_only: convalida il file XML del set di dati rispetto alla schema DSPL ufficiale, quindi interrompi.
  • schema_and_model: esegui la convalida dello schema e del modello di base, ma ignora i contenuti CSV dopo la riga di intestazione.
  • full: esegui la convalida di schema, modello e dati (impostazione predefinita).

Verifica dei dettagli in corso...

Il controllo DSPL esegue la seguente sequenza di convalide:

  • Convalida schema XML: verifica che il tuo set di dati il file di metadati sia in formato XML valido e conforme alle schema DSPL ufficiale.
  • Esistenza CSV: controlla che tutti i file CSV a cui viene fatto riferimento nel set di dati esistono e sono caricabili.
  • Controlli dei concetti: vari controlli di ogni concetto nel tuo che include:
      .
    • Il set di dati ha almeno un concetto*
    • Tutti i riferimenti all'argomento sono validi
    • Il riferimento alla tabella esiste se il concetto viene utilizzato come non temporale dimensione*
    • Il riferimento della tabella è valido se presente
    • La tabella di riferimento ha una colonna corrispondente all'ID concetto
  • Controlli sezione: vari controlli di ogni sezione nella tua comprensivo di:
      .
    • Il set di dati ha almeno una sezione*
    • Almeno una sezione fa riferimento a una dimensione non temporale*
    • La sezione ha almeno una metrica e una dimensione
    • Esattamente un riferimento a una dimensione time concetto canonico*
    • Ogni sezione ha una combinazione unica di dimensioni
    • Tutti i riferimenti ai concetti locali sono validi
    • Riferimento tabella esistente
    • Il riferimento della tabella è valido
    • La tabella di riferimento ha una colonna per ogni dimensione e metrica nella sezione
    • I tipi di colonna nella tabella a cui viene fatto riferimento corrispondono ai tipi di concetti utilizzati nella sezione
  • Controlli tabella: i vari controlli di ogni tabella nella tabella. comprensivo di:
      .
    • Il set di dati ha almeno una tabella*
    • Il file CSV ha lo stesso numero di colonne della tabella
    • Le stringhe di intestazione CSV corrispondono agli ID colonna
    • Tutte le colonne delle date hanno un attributo format
    • I formati della data sono (approssimativamente) allineati ai concetti di ora associati, ad esempio, il formato di una colonna time:year include almeno un carattere y*
  • Controlli dei dati CSV: vari controlli dei file di dati CSV. a cui fa riferimento il file XML del tuo set di dati, tra cui:
      .
    • Ogni riga CSV ha lo stesso numero di colonne dell'intestazione
    • Il file CSV per la definizione dei concetti non contiene più di una riga per ogni ID concetto
    • Il file CSV della sezione non ha più di una riga per ogni combinazione di dimensioni
    • I valori delle dimensioni a cui viene fatto riferimento nel file CSV della sezione sono validi
    • Il file CSV della sezione è ordinato correttamente
    • I valori CSV dei numeri interi e mobili sono formattati correttamente

I criteri contrassegnati da un asterisco (*) sono necessari in Public Data Explorer, ma tecnicamente non sono richieste nel formato DSPL.

D'altra parte, lo strumento non esamina (ancora) quanto segue:

  • Importazioni di set di dati
  • Riferimenti ad attributi e proprietà
  • Estensioni dei concetti