Domande frequenti su DSPL

Questo documento tratta i problemi più frequenti riscontrati dai proprietari dei dati durante la creazione di set di dati DSPL e il relativo caricamento in Public Data Explorer.

Sommario

Domande generali

Che cos'è DSPL?

DSPL è l'acronimo di Dataset Publishing Language. Si tratta di un formato di rappresentazione sia per i metadati (informazioni sul set di dati, come il nome e il provider, nonché per i concetti che contiene e visualizza) e per i dati effettivi dei set di dati. I metadati sono specificati in XML, mentre i dati sono forniti in formato CSV.

Quali sono i vantaggi principali di utilizzare DSPL?

DSPL è stato progettato completamente per le visualizzazioni di dati avanzate come quelle di Explorer dati pubblici. Per la loro creazione sono necessari metadati dettagliati su sezioni, dimensioni e metriche, entità che non sono così supportate in altri formati di set di dati.

DSPL supporta anche l'importazione dei set di dati, le gerarchie di concetti (ad es. "country" è il figlio di "continent", i dati geocodificati e una serie di altre funzionalità uniche che migliorano l'esperienza di esplorazione dei dati.

DSPL sostituisce altri formati utilizzati per lo scambio e/o l'analisi di dati?

In genere no. Come indicato nella risposta precedente, DSPL è progettato per la visualizzazione e l'esplorazione interattive. Non è inteso come un formato generico di scambio di dati o di analisi.

In definitiva, consideriamo DSPL come complementare rispetto ad altri formati. Gli utenti devono essere in grado di creare set di dati DSPL da altre origini allo scopo di creare visualizzazioni di dati interattive e dettagliate.

Che cosa posso fare con un set di dati DSPL?

Puoi importarli in Public Data Explorer, pubblicarli e consentire ad altri di esplorare i dati tramite visualizzazioni avanzate e interattive. I set di dati pubblicati possono essere inclusi anche nella directory dei dati pubblici in modo che gli utenti interessati possano trovarli.

Al momento, questa è l'unica applicazione che utilizza DSPL. Tuttavia, consigliamo alle persone di utilizzarla per altre applicazioni e prevediamo che l'adozione crescerà nel tempo.

Quali tipi di set di dati sono i più appropriati per DSPL?

Il formato DSPL supporta raccolte arbitrarie di tabelle ed è quindi appropriato per una vasta gamma di tipi di set di dati. Tuttavia, solo un sottoinsieme di set di dati DSPL genererà visualizzazioni interessanti in Public Data Explorer. Quest'ultimo prodotto, in particolare, funziona al meglio per i dati che sono:

  • Quantitativo: a ogni punto dati vengono associate una o più metriche numeriche (ad esempio, "popolazione", "numero di casi di influenza", "entrate").
  • Categoristico: i dati possono essere organizzati in un numero limitato di categorie descrivibili dal testo (ad esempio, "paesi", "genere", "gruppi di età").
  • Serie temporali: per ogni categoria, le metriche dei dati variano in funzione del tempo e i punti adiacenti sono distanti almeno un giorno (non è possibile visualizzare incrementi di tempo inferiori a un giorno).
  • Aggregata: per ogni combinazione di ora/categoria/metrica, è presente un singolo punto dati, non un elenco di eventi o fatti.

Ho creato un set di dati DSPL e vorrei che venga visualizzato nella directory pubblica di dati di Google, in modo che altri possano trovarlo. Chi posso contattare?

Compila questo modulo e fornisci un link al tuo set di dati.

Ho problemi con DSPL. Dove posso trovare assistenza?

Pubblica il problema sul forum di discussione di DSPL.

File del set di dati DSPL

Come devo codificare i file XML e CSV?

Tutti i file XML e CSV devono avere la codifica UTF-8. Tieni presente che un ASCII (a volte chiamato "testo normale") è un sottoinsieme di UTF-8, pertanto dovrebbero funzionare anche i set di dati in questo formato.

Quale software devo utilizzare per creare e modificare i file del mio set di dati?

La scelta consigliata per la modifica dei file XML è un editor di testo normale, con l'evidenziazione della sintassi a scopo di lettura. Leggi questo articolo per alcuni consigli specifici della piattaforma. Sconsigliamo l'utilizzo di elaboratori di testi per uso generico, in grado di inserire ulteriori tag di formattazione nel codice XML, causando errori di importazione.

In genere, un foglio di lavoro è il modo più semplice per creare e modificare i file di dati. Assicurati solo di salvarli nel formato corretto (CSV/valori separati da virgola).

Ho dati in Excel, SPSS, SAS o in qualche altro sistema. Posso importarli direttamente in Public Data Explorer?

No, non adesso. Devi prima esportare i tuoi dati in formato CSV, aggiungere i metadati XML appropriati e poi caricare un set di dati conforme a DSPL in Public Data Explorer.

È importante il nome dei file?

Il nome del file XML del set di dati deve terminare con .xml. I file CSV dei dati associati possono avere qualsiasi nome, purché corrispondano ai nomi specificati nei tag <file> nei metadati XML. Anche il file ZIP utilizzato per pacchettizzare e importare il set di dati in Public Data Explorer può avere un nome qualsiasi.

I miei file CSV devono essere ordinati?

Sì. Devi ordinare i contenuti dei file CSV in base alle dimensioni non temporali (in qualsiasi ordine o direzione) e poi, facoltativamente, in base a qualsiasi altra colonna (ad esempio, ora).

Ad esempio, se hai un file CSV con le colonne date, dimension1, dimension2, metric1 e metric2, devi ordinare i dati in base a dimension1 e dimension2 (in qualsiasi ordine). Se vuoi ordinare i dati anche in base alla colonna data/ora, questa sarà l'ultima ordinata.

In questo modo, le osservazioni per ogni serie temporale vengono raggruppate insieme, il che migliora notevolmente l'efficienza del processo di importazione DSPL.

Modello e sintassi XML

Come faccio a decidere quale metrica deve essere e quale dimensione?

Una dimensione è un'entità che viene utilizzata per segmentare o filtrare i dati. Una metrica, invece, descrive i valori osservati associati a ogni punto dati.

In generale, le dimensioni sono categoriche, mentre le metriche non sono valori categorici, ma variabili in base al tempo. Ecco alcuni esempi prototipici:

  • Dimensioni: paese, stato, contea, regione, anno, mese, genere, categoria di età, segmento di settore
  • Metriche: popolazione, PIL, tasso di disoccupazione, alfabetizzazione, entrate, costo, prezzo

Qual è la differenza tra una proprietà e un attributo?

Le proprietà sono collegate a ogni istanza di un concetto. Ad esempio, una proprietà continente avrà valori diversi per paesi diversi. Gli attributi, invece, sono associati al concetto nel suo complesso. Ad esempio, un attributo isParent è vero per tutti i continenti.

L'ordine dei tag è importante?

Sì. Aggiungi i tag nell'ordine in cui sono visualizzati nella Guida per gli sviluppatori. Ad esempio, <topic> dovrebbe apparire prima del <type> nella definizione di un concetto.

Le lettere maiuscole sono importanti?

Sì, i nomi dei tag e degli attributi XML devono avere le stesse lettere maiuscole nella Guida per gli sviluppatori. Ad esempio, se utilizzi isparent invece di isParent in un tag property, si verificherà un errore di importazione.

Uno può avere due genitori?

No. Ogni concetto può avere un solo riferimento isParent.

Un concetto può fare riferimento a se stesso?

Sì. Consulta il set di dati per le vendite al dettaglio negli Stati Uniti per un esempio di una gerarchia di concetti autoreferenziali.

Formattazione dei dati

Come faccio a formattare le date?

Le date possono essere scritte in qualsiasi formato che può essere descritto con lo standard Joda DateTime. Il codice di formattazione Joda deve essere archiviato in un attributo format all'interno dell'elemento della colonna della tabella corrispondente.

Di seguito sono elencati i codici di formattazione di Joda per alcuni dei formati di data più diffusi:

Esempio di data Formato Joda
2010 yyyy
Maggio 2010 MMM yyyy
21/05/2010 MM/dd/yyyy
21/05/2010 dd/MM/yyyy
2010-05-21 yyyy-MM-dd

In particolare, tieni presente che il codice Joda per i caratteri del mese è M, non m (che rappresenta i minuti).

Posso utilizzare unità di tempo inferiori a un giorno?

Il formato Joda DateTime, e quindi anche DSPL, supporta valori temporali fino all'ordine dei millisecondi. Public Data Explorer, tuttavia, non può (ancora) visualizzare granularità granulari di una giornata.

Uso di concetti canonici

Cosa sono i "concetti canonici" e come sono utili?

Il termine "concetti canonici" si riferisce a un insieme di concetti creati da Google che vengono considerati come componenti di base di altri set di dati. I concetti stessi vengono definiti in sei set di dati DSPL che raggruppano i primi in categorie quali "time", "geo" e così via. Per accedere a questi concetti, importa i set di dati principali appropriati all'inizio del file XML DSPL.

I concetti canonici sono utili perché consentono di risparmiare tempo (ad esempio, evitando di inserire manualmente i valori di latitudine e longitudine per ogni paese del mondo) e indicano il modo in cui i dati devono essere visualizzati. Ad esempio, Public Data Explorer utilizza i concetti time:... per formattare l'asse X dei grafici a linee, usa la proprietà name del concetto entity:entity per produrre stringhe per l'UI del selettore di dimensioni, usa le proprietà latitude e longitude di geo:location per mostrare i dati nella visualizzazione mappa e così via.

Tutti i concetti canonici sono riconosciuti da Public Data Explorer?

Sebbene la maggior parte dei concetti canonici forniti sia comprensibile da Public Data Explorer, alcuni non sono (ancora) visualizzabili. Di seguito sono elencati alcuni esempi di soluzioni alternative:

Concetto Soluzione alternativa
quantity:index Usa invece quantity:ratio o quantity:magnitude.
time:quarter Utilizza time:month come descritto nel Libro di ricette di DSPL.
time:week Utilizza time:day come descritto nel Libro di ricette di DSPL.

Continua a seguirci per non perderti questi suggerimenti futuri.

Come faccio a utilizzare un concetto canonico nel mio set di dati?

Consulta la documentazione per il concetto specifico che vorresti utilizzare e consulta il Libro di ricette di DSPL, che contiene indicazioni dettagliate e dettagliate per quelle più comuni.

Importazione e visualizzazione dei set di dati

Perché non riesco a importare correttamente il set di dati?

Se vengono rilevati errori, l'interfaccia di caricamento di Public Data Explorer eseguirà la scansione del tuo set di dati DSPL e ne bloccherà l'importazione. L'importatore è molto sensibile all'ortografia, all'uso delle maiuscole e all'ordine e al posizionamento dei tag nel file XML, nonché al layout e all'ordinamento dei dati nei file CSV, pertanto potrebbero essere necessari alcuni passaggi per completare correttamente l'importazione e importare il set di dati.

Il primo passaggio per risolvere questi problemi è esaminare i messaggi di errore forniti nell'interfaccia utente ed eseguire l'azione correttiva appropriata. Poiché questi messaggi non sono sempre i più facili da comprendere (Stiamo lavorando attivamente per migliorare), abbiamo compilato una tabella che spiega i più comuni:

Errore Spiegazione
chiave duplicata: ... La tabella di definizione del concetto ha un valore ID ripetuto, ovvero un valore nella colonna con lo stesso nome del concetto. Questi valori vengono utilizzati per identificare in modo univoco le singole istanze del concetto, quindi i duplicati non sono consentiti.
Eccezione nell'analisi delle righe dei dati provenienti dall'origine La combinazione di proprietà [...] compare in più gruppi di righe distinti nei dati. Il file CSV non è ordinato correttamente. Consulta la Discussione sopra per istruzioni su come eseguire questa operazione.
Eccezione nell'analisi delle righe dei dati provenienti dall'origine a causa del formato non valido: "..." non è valido nel formato "..." La formattazione di questo valore (in genere una data) nel file CSV non è coerente con il formato specificato nel file XML. Modifica il formato o il valore in modo che corrispondano.
Eccezione nell'analisi delle righe dei dati provenienti dall'origine causata dal numero di elementi nella riga (...) che non corrisponde al numero di proprietà specificate (...) per la riga: [...] Una riga nel file CSV contiene troppi o troppo pochi valori. Correggi la formattazione di questa riga.
Eccezione nell'analisi delle righe dei dati dall'origine causata dalla stringa di input Per: "..." Un valore nel file CSV (in genere un numero intero o mobile) contiene caratteri non numerici (ad es. il simbolo del dollaro, il simbolo della percentuale e così via) che ne impediscono l'analisi corretta. Rimuovi questi caratteri aggiuntivi.
Eccezione nell'analisi delle righe dei dati provenienti dall'origine causata dal valore dei dati "..." per la proprietà "..." della sezione "..." non è un valore chiave del concetto "...". Una delle sezioni contiene un valore di dimensione non riconosciuto (ad es. che non è nell'elenco di tutti i valori possibili per il concetto corrispondente). Torna alla tabella di definizione del concetto di dimensione e aggiungi il valore, se necessario.
L'intestazione "..." nei dati è una proprietà costante nella tabella L'intestazione di colonna nel file CSV non corrisponde a quella definita nella definizione della tabella XML. Modificane una in modo che corrisponda.
Errore di analisi XML... Sono stati trovati contenuti non validi che iniziano con l'elemento '...'. È previsto uno di "{...}", "{...}". L'elemento XML di riferimento non è nella posizione corretta. Verifica che l'ordine sia corretto e che l'elemento abbia l'elemento padre corretto (ad es. info per name).
Errore di analisi XML ... L'attributo "..." non può essere visualizzato nell'elemento "...". L'ortografia, la richiesta o la posizione di questo attributo tag XML non è corretta. Controlla la documentazione per l'utilizzo appropriato.
Errore di analisi XML. ... L'elemento "..." non può contenere il carattere [children], perché il tipo di contenuti del tipo è di solo elemento. Nel file XML è presente del testo errato (probabilmente causato da un tag con un valore < o > mancante). Correggi il testo e riprova.

In caso di difficoltà a comprendere un messaggio che non è presente nell'elenco precedente, pubblica un messaggio nel forum della DSPL: proveremo a aiutarti.

L'importazione del mio set di dati è riuscita, ma non riesco a visualizzare visualizzazioni per apparire in Public Data Explorer. Che cosa succede?

Questo problema si verifica quando il set di dati è valido, ma non si trova nel sottoinsieme di DSPL che è visualizzabile in Public Data Explorer. Le cause possono essere molte; le più comuni sono:

  • Definizione di un concetto di dimensione senza tabella: senza queste informazioni, Public Data Explorer non sa quali scelte visualizzare nella UI.
  • Creazione di un set di dati con solo metriche:Public Data Explorer richiede almeno una dimensione categoriale (ovvero non temporale) definita in un punto del set di dati per strutturare correttamente l'interfaccia utente di visualizzazione.
  • Non includere una dimensione temporale nelle sezioni: Public Data Explorer può visualizzare solo le serie temporali. Le sezioni non temporali verranno ignorate dal prodotto.
  • Utilizzo di una dimensione temporale diversa da quelle canoniche per time:...: Public Data Explorer utilizza i concetti time canonici per definire e animare le varie visualizzazioni nel prodotto; non comprende altri concetti relativi al tempo, ad esempio quelli creati all'interno del tuo set di dati.
  • Utilizzo di valori di tempo troppo grandi o troppo piccoli: Public Data Explorer non mostra ancora i set di dati con granularità temporali inferiori a un giorno. Dall'altra parte dello spettro, lo strumento presenta problemi con valori molto grandi dell'anno (ad esempio decine di migliaia). Ci auguriamo di rendere queste granularità più flessibili in futuro.

Come faccio a integrare il mio set di dati visualizzato nel mio sito web?

Consulta questo articolo nel Centro assistenza Public Data Explorer. Come spiegato in quest'ultima, è possibile ottenere un "incorporamento completo" (ovvero uno che includa i controlli di esplorazione) regolando manualmente l'URL da incorporare.