Questo documento illustra i problemi più frequenti riscontrati dai proprietari dei dati durante la creazione di set di dati DSPL e il loro caricamento in Public Data Explorer.
Contenuti
Domande generali
Che cos'è la funzione DSPL?
DSPL è l'acronimo di Dataset Publishing Language. È un formato di rappresentazione sia per i metadati (informazioni sul set di dati, come nome e provider, nonché per i concetti che contiene e visualizza) e per i dati effettivi dei set di dati. I metadati sono specificati in XML, mentre i dati sono forniti in formato CSV.
Quali sono i principali vantaggi dell'utilizzo di DSPL?
DSPL è stato progettato da zero per visualizzazioni di dati dettagliati come quelle di Public Data Explorer. Per crearli sono necessari metadati dettagliati relativi a sezioni, dimensioni e metriche, entità non ben supportate in altri formati di set di dati.
DSPL supporta anche l'importazione di set di dati, gerarchie concettuali (ad es. "paese" è l'elemento figlio di "continente"), dati geocodificati e una serie di altre caratteristiche uniche che migliorano l'esperienza di esplorazione dei dati.
DSPL sostituisce altri formati utilizzati per lo scambio e/o l'analisi dei dati?
In genere no. Come indicato nella risposta precedente, DSPL è progettato per la visualizzazione e l'esplorazione interattive. Non è inteso come un formato generico di analisi o interscambio di dati generici.
Essenzialmente, consideriamo DSPL come complementare di altri formati. Gli utenti devono essere in grado di creare set di dati DSPL da altre origini al fine di creare visualizzazioni di dati complete e interattive.
Cosa posso fare con un set di dati DSPL?
Puoi importarli in Public Data Explorer, pubblicarli e consentire ad altri di esplorarli tramite visualizzazioni avanzate e interattive. I set di dati pubblicati possono anche essere inclusi nella directory dei dati pubblici in modo che gli utenti interessati possano trovarli.
Attualmente, questa è l'unica applicazione che utilizza DSPL. Tuttavia, invitiamo gli utenti a utilizzarlo per altre applicazioni e prevediamo che la sua adozione aumenterà nel tempo.
Quali tipi di set di dati sono più appropriati per DSPL?
Il formato DSPL supporta raccolte arbitrarie di tabelle ed è quindi appropriato per un'ampia varietà di tipi di set di dati. Tuttavia, solo un sottoinsieme di set di dati DSPL produrrà visualizzazioni interessanti in Public Data Explorer. Quest'ultimo prodotto, in particolare, funziona meglio per dati che:
- Quantitativa: a ogni punto dati sono associate una o più metriche numeriche (ad es. "population", "numero di casi influenzali", "revenue").
- Categoriche:i dati possono essere organizzati in un numero finito di categorie descrivibili del testo (ad es. "countries", "genders", "age groups").
- Serie temporali: per ogni categoria, le metriche dei dati variano in funzione del tempo e i punti adiacenti sono distanti almeno un giorno (Public Data Explorer non può visualizzare incrementi di tempo minori di un giorno).
- Aggregata:per ogni combinazione di tempo / categoria / metrica, è presente un singolo punto dati, non un elenco di eventi o fatti.
Ho creato un set di dati DSPL e vorrei che venisse visualizzato nella directory di dati pubblici di Google in modo che altri possano trovarlo. Chi posso contattare?
Compila questo modulo e fornisci un link al tuo set di dati.
Ho problemi con DSPL. A chi posso rivolgermi per ricevere assistenza?
Pubblica il tuo problema sul forum di discussione della DSPL.
File di set di dati DSPL
Come faccio a codificare i miei file XML e CSV?
Tutti i file XML e CSV devono avere codifica UTF-8. Tieni presente che ASCII (a volte indicato come "testo normale") è un sottoinsieme di UTF-8, quindi dovrebbero funzionare anche i set di dati in questo formato.
Quale software devo utilizzare per creare e modificare i file dei miei set di dati?
L'editor di testo normale, con evidenziazione della sintassi per motivi di leggibilità, è la scelta consigliata per modificare i file XML. Consulta questo articolo per alcuni suggerimenti specifici per le piattaforme. Sconsigliamo di utilizzare programmi di videoscrittura completi e per uso generico, in quanto tendono a inserire ulteriori tag di formattazione nel file XML, causando errori di importazione.
In genere, un foglio di lavoro è il modo più semplice per creare e modificare i file di dati. Assicurati solo di salvarle nel formato corretto (CSV/valori separati da virgole).
Ho dati in Excel, SPSS, SAS o un altro sistema. Posso importarli direttamente in Public Data Explorer?
No, non adesso. Devi prima esportare i dati in formato CSV, aggiungere i metadati XML appropriati, quindi caricare un set di dati compatibile con DSPL in Public Data Explorer.
È importante assegnare il nome ai miei file?
Il file XML del set di dati deve avere un nome che termina con .xml
.
I file di dati CSV associati possono avere qualsiasi nome, a condizione che corrispondano ai nomi specificati nei tag <file>
nei metadati XML.
Il file ZIP utilizzato per pacchettizzare e importare il set di dati in Public Data Explorer può anche avere un nome qualsiasi.
I miei file CSV devono essere ordinati?
Sì. Devi ordinare i contenuti dei file CSV in base alle dimensioni non temporali (in qualsiasi ordine o direzione) e poi, facoltativamente, in base alle altre colonne (ad es. ora).
Quindi, ad esempio, se un file CSV con le colonne date
,
dimension1
, dimension2
, metric1
e
metric2
, deve essere ordinato in base a dimension1
e
dimension2
(in qualsiasi ordine). Se vuoi ordinare anche in base
alla colonna di data/ora, dovrebbe essere l'ultima impostazione in base alla quale vuoi ordinare.
L'ordinamento in questo modo mantiene raggruppate le osservazioni per ogni serie temporale, il che migliora notevolmente l'efficienza del processo di importazione di DSPL.
Modello XML e sintassi
Come faccio a decidere quale deve essere una metrica e quale deve essere una dimensione?
Una dimensione è un'entità utilizzata per segmentare o filtrare i dati. Una metrica, invece, descrive il valore o i valori osservati associati a ciascun punto dati.
In genere, le dimensioni sono categoriche, mentre le metriche sono valori numerici non categorici e che variano nel tempo. Ecco alcuni esempi prototipici di ciascuno:
- Dimensioni: paese, stato, contea, regione, anno, mese, sesso, categoria di età, segmento di settore
- Metriche: popolazione, PIL, tasso di disoccupazione, alfabetizzazione, entrate, costo, prezzo
Qual è la differenza tra una proprietà e un attributo?
Le proprietà sono collegate a ciascuna istanza di un concetto. Ad esempio, una proprietà continente avrà valori diversi per paesi diversi.
Gli attributi, invece, sono associati al concetto nel suo complesso.
Ad esempio, un attributo isParent
è vero per tutti i continenti.
L'ordine dei tag è importante?
Sì. Aggiungi i tag nell'ordine in cui appaiono nella Guida per gli sviluppatori. Ad esempio, <topic>
dovrebbe apparire prima di <type>
nella definizione di un concetto.
Le lettere maiuscole sono importanti?
Sì, i nomi dei tag XML e degli attributi devono essere in maiuscolo come vengono visualizzati nella Guida per gli sviluppatori. Ad
esempio, l'utilizzo di isparent
anziché isParent
in un
tag property
comporterà un errore di importazione.
Un concetto può avere due genitori?
No. Ogni concetto può avere un solo riferimento isParent
.
Un concetto può fare riferimento a se stesso?
Sì. Consulta il set di dati US Retail Sales per un esempio di gerarchia concettuale autoreferenziale.
Formattazione dei dati
Come faccio a formattare le date?
Le date possono essere scritte in qualsiasi formato descrivebile con lo
standard Joda DateTime. Il codice di formattazione Joda deve essere archiviato in un
attributo format
all'interno dell'elemento corrispondente della colonna di
tabella.
Di seguito sono elencati i codici di formattazione Joda per alcuni formati di data molto utilizzati:
Esempio di data | Formato Joda |
---|---|
2010 | yyyy |
Maggio 2010 | MMM yyyy |
21/05/2010 | MM/dd/yyyy |
21/05/2010 | dd/MM/yyyy |
2010-05-21 | yyyy-MM-dd |
In particolare, tieni presente che il codice Joda per i caratteri del mese è
M
, non m
(che rappresenta i minuti).
Posso utilizzare unità di tempo inferiori a un giorno?
Il formato DateTime di Joda e quindi anche DSPL supporta valori temporali dell'ordine dei millisecondi. Public Data Explorer, tuttavia, non può (ancora) visualizzare granularità temporali minori di un giorno.
Utilizzo dei concetti canonici
Cosa sono i "concetti canonici" e come sono utili?
Il termine "concetti canonici" si riferisce a un insieme di concetti creati da Google intesi come "componenti di base" in altri set di dati. I concetti stessi sono definiti in sei set di dati DSPL che raggruppano i primi in categorie quali "tempo", "geografico" e così via. Per accedere a questi concetti, importa semplicemente i set di dati padre appropriati all'inizio del file XML DSPL.
I concetti canonici sono utili perché consentono di risparmiare tempo (ad es. evitando di inserire manualmente i valori di latitudine e longitudine per ogni paese del mondo) e di segnalare la modalità di visualizzazione dei dati. Ad esempio, Public Data Explorer utilizza i concetti time:...
per formattare l'asse X del grafico a linee, usa la proprietà name
del concetto entity:entity
per generare stringhe per l'interfaccia utente del selettore di dimensioni, usa le proprietà latitude
e longitude
di geo:location
per visualizzare i dati nella visualizzazione della mappa e così via.
Tutti i concetti canonici sono compresi da Public Data Explorer?
Sebbene la maggior parte dei concetti canonici forniti sia compresa da Public Data Explorer, alcuni non sono (ancora) visualizzabili. Queste sono elencate di seguito, insieme ad alcune soluzioni alternative suggerite:
Concetto | Soluzione alternativa |
---|---|
quantity:index |
Usa invece quantity:ratio o quantity:magnitude . |
time:quarter |
Utilizza time:month come descritto nel Libro di ricette DSPL. |
time:week |
Utilizza time:day come descritto nel Libro di ricette DSPL. |
Continua a seguirci per un migliore supporto di questi concetti in futuro.
Come faccio a utilizzare un concetto canonico nel mio set di dati?
Consulta la documentazione per il concetto specifico che vuoi utilizzare e anche il DSPL Cookbook, che contiene istruzioni dettagliate e passo passo per quelli più comuni.
Importazione e visualizzazione dei set di dati
Perché non riesco a importare correttamente il set di dati?
L'interfaccia di caricamento di Public Data Explorer eseguirà la scansione del tuo set di dati DSPL e ne bloccherà l'importazione se vengono rilevati errori. L'importatore è molto sensibile a ortografia, lettere maiuscole e ordine / posizionamento dei tag nel file XML, nonché al layout e all'ordinamento dei dati nei file CSV. Pertanto, potrebbero essere necessarie alcune operazioni per eseguire queste operazioni in modo corretto e importare correttamente il set di dati.
Il primo passaggio per risolvere questi problemi è esaminare i messaggi di errore indicati nell'interfaccia utente e adottare l'azione correttiva appropriata. Poiché questi messaggi non sono sempre i più facili da capire (qualcosa che stiamo lavorando attivamente per migliorare), abbiamo compilato una tabella che spiega i più comuni:
Errore | Spiegazione |
---|---|
chiave duplicata: ... | La tabella di definizione del tuo concetto ha un valore ID ripetuto (ovvero, un valore nella colonna con lo stesso nome del concetto). Questi valori vengono utilizzati per identificare in modo univoco le singole istanze del concetto, quindi non sono consentiti duplicati. |
Eccezione nell'analisi delle righe di dati dall'origine causata dalla combinazione di proprietà, [...], compare in più di un gruppo distinto di righe nei dati. | Il file CSV non è ordinato correttamente. Consulta la discussione sopra per istruzioni su come eseguire questa operazione. |
Eccezione nell'analisi delle righe di dati dall'origine causata da un formato non valido: "..." non valido nel formato "..." | La formattazione di questo valore (in genere una data) nel file CSV non è coerente con il formato specificato nel file XML. Modifica il formato o il valore in modo che corrispondano. |
Eccezione nell'analisi delle righe di dati dall'origine causata dal numero di elementi nella linea (...) non corrispondente al numero di proprietà specificate (...) per la riga: [...] | Una riga del file CSV ha troppi o troppo pochi valori. Correggi la formattazione di questa riga. |
Eccezione nell'analisi delle righe di dati dall'origine causata dalla stringa Per di input: "..." | Un valore nel file CSV (in genere un numero intero o un numero in virgola mobile) contiene caratteri non numerici (ad es. un simbolo del dollaro, un segno di percentuale e così via) che impediscono l'analisi corretta. Rimuovi questi caratteri aggiuntivi. |
L'eccezione nell'analisi delle righe di dati dall'origine causata dal valore dei dati "..." per la proprietà "..." della sezione "..." non è un valore chiave del concetto "..." a cui viene fatto riferimento. | Una delle tue sezioni contiene un valore di dimensione non riconosciuto (ad es. uno che non è nell'elenco di tutti i valori possibili per il concetto corrispondente). Torna alla tabella di definizione del concetto di dimensione e aggiungi il valore, se necessario. |
L'intestazione "..." nei dati è una proprietà costante nella tabella | L'intestazione della colonna nel file CSV non corrisponde all'ID colonna definito nella definizione della tabella XML. Cambia l'una o l'altra opzione in modo che corrispondano. |
Errore di analisi XML ... Sono stati trovati contenuti non validi che iniziano con l'elemento "...". È previsto uno tra "{...}", "{...}", .... | L'elemento XML di riferimento non è nella posizione corretta. Verifica che l'ordine sia corretto e che l'elemento abbia l'elemento padre corretto (ad es. info per name ). |
Errore di analisi XML ... L'attributo "..." non può essere visualizzato nell'elemento "...". | L'ortografia, le maiuscole e le minuscole oppure la posizione di questo attributo del tag XML non sono corrette. Controlla la documentazione per l'utilizzo appropriato. |
Errore di analisi XML. ... L 'elemento "..." non può avere il carattere [children], perché il tipo di contenuti del tipo è di tipo solo elemento. | Il file XML contiene del testo non originale (potenzialmente causato da un tag in cui manca < o > ). Correggi il testo e riprova. |
Se non riesci a capire un messaggio non presente nell'elenco riportato sopra, pubblica un messaggio nel forum DSPL e proveremo ad aiutarti.
Il set di dati viene importato correttamente, ma non riesco a visualizzare nessuna visualizzazione in Public Data Explorer. Che cosa succede?
Questo problema si verifica quando il set di dati è un DSPL valido, ma non si trova nel sottoinsieme di DSPL visualizzabile in Public Data Explorer. Le cause sono molte; le più comuni sono:
- Definizione di un concetto di dimensione senza una tabella: senza queste informazioni, Public Data Explorer non sa quali opzioni visualizzare nella UI.
- Creazione di un set di dati con solo metriche: Public Data Explorer richiede almeno una dimensione categorica (ad es. non temporale) definita in qualche punto del set di dati per strutturare correttamente l'interfaccia utente di visualizzazione.
- Nessuna dimensione temporale nelle sezioni:Public Data Explorer può visualizzare solo le serie temporali. Le sezioni non temporali verranno ignorate dal prodotto.
- Utilizzo di una dimensione temporale diversa da quelle canoniche
time:...
: Public Data Explorer utilizza i concetti canonici ditime
per impostare e animare le varie visualizzazioni nel prodotto; non comprende altri concetti temporali, ad esempio quelli creati all'interno del tuo set di dati. - Utilizzo di valori temporali troppo grandi o troppo piccoli: Public Data Explorer non visualizza ancora set di dati con granularità temporali inferiori a un giorno. All'altra estremità dello spettro, lo strumento presenta problemi con valori degli anni molto grandi (ad es. nell'ordine di decine di migliaia). Ci auguriamo di rendere questi livelli di granularità più flessibili in futuro.
Come faccio a integrare il set di dati visualizzato nel mio sito web?
Consulta questo articolo nel Centro assistenza Public Data Explorer. Come spiegato in quest'ultima, puoi ottenere un "incorporamento completo" (ovvero uno che include i controlli di esplorazione) regolando manualmente l'URL di incorporamento.