Perguntas frequentes sobre DSPL

Este documento aborda os problemas mais frequentes enfrentados pelos proprietários de dados ao criar conjuntos de dados DSPL e fazer o upload deles no Explorador de dados públicos.

Conteúdo

Dúvidas gerais

O que é DSPL?

DSPL significa linguagem de publicação de conjunto de dados. É um formato de representação para os metadados (informações sobre o conjunto de dados, como nome e provedor, bem como os conceitos que ele contém e exibe) e os dados reais dos conjuntos de dados. Os metadados são especificados em XML, enquanto os dados são fornecidos em formato CSV.

Quais são as principais vantagens de usar DSPL?

O DSPL foi desenvolvido desde o início para oferecer visualizações de dados avançadas, como as do Public Data Explorer. Para criá-los, são necessários metadados detalhados sobre frações, dimensões e métricas, entidades que não são tão compatíveis com outros formatos de conjunto de dados.

O DSPL também oferece suporte a importações de conjuntos de dados, hierarquias de conceito (por exemplo, "country" é filho de "continent"), dados geocodificados e vários outros recursos exclusivos que melhoram a experiência de análise detalhada dos dados.

O DSPL substitui outros formatos usados para troca e/ou análise de dados?

Geralmente, não. Conforme mencionado na resposta anterior, o DSPL foi projetado para visualização e exploração interativas. Ele não se destina a um formato genérico de intercâmbio ou análise de dados.

Em última análise, consideramos o DSPL como complementar a outros formatos. Os usuários precisam ser capazes de criar conjuntos de dados DSPL de outras fontes com a finalidade de criar visualizações de dados ricas e interativas.

O que posso fazer com um conjunto de dados DSPL?

É possível importá-los para o Public Data Explorer, publicá-los e permitir que outras pessoas analisem os dados por meio de visualizações avançadas e interativas. Os conjuntos de dados publicados também podem ser incluídos no Public Data Directory para que os usuários interessados possam encontrá-los.

Atualmente, este é o único aplicativo que usa DSPL. No entanto, incentivamos as pessoas a usá-lo para outros aplicativos e esperamos que a adoção aumente com o tempo.

Que tipos de conjuntos de dados são mais adequados para DSPL?

O formato DSPL oferece suporte a coleções arbitrárias de tabelas e, portanto, é apropriado para uma ampla variedade de tipos de conjuntos de dados. No entanto, apenas um subconjunto de conjuntos de dados DSPL produzirá visualizações interessantes no Explorador de dados públicos. O último produto, em particular, funciona melhor para dados que são:

  • Quantitativos: cada ponto de dados tem uma ou mais métricas numéricas associadas a ele (por exemplo, "população", "número de casos de gripe", "receita").
  • Categórico: os dados podem ser organizados em um número finito de categorias de texto descrevíveis (por exemplo, "países", "gêneros", "faixas etárias").
  • Série temporal: em cada categoria, as métricas de dados variam em função do tempo, e os pontos adjacentes têm intervalo de pelo menos um dia. O Explorador de dados públicos não pode visualizar incrementos de tempo menores do que um dia.
  • Agregado:para cada combinação de tempo / categoria / métrica, há um único ponto de dados, não uma lista de eventos ou fatos.

Criei um conjunto de dados DSPL e gostaria que ele aparecesse no Diretório de dados públicos do Google para que outras pessoas pudessem encontrá-lo. Com quem devo entrar em contato?

Preencha este formulário (em inglês) e forneça um link para o conjunto de dados.

Estou tendo problemas com o DSPL. Onde busco ajuda?

Poste seu problema no fórum de discussão do DSPL (em inglês).

Arquivos de conjunto de dados DSPL

Como devo codificar meus arquivos XML e CSV?

Todos os arquivos XML e CSV precisam ser codificados em UTF-8. ASCII (às vezes chamado de "texto simples") é um subconjunto do UTF-8. Portanto, os conjuntos de dados nesse formato também funcionam.

Qual software preciso usar para criar e editar meus arquivos de conjunto de dados?

Um editor de texto simples, com destaque de sintaxe para facilitar a leitura, é a escolha recomendada para editar seus arquivos XML. Consulte este artigo para ver algumas recomendações específicas da plataforma. Não recomendamos o uso de processadores de texto de uso geral completos, já que eles tendem a inserir mais tags de formatação no XML, o que pode causar erros de importação.

Uma planilha geralmente é a maneira mais fácil de criar e editar seus arquivos de dados. Só não se esqueça de salvá-los no formato correto (CSV / valores separados por vírgula).

os dados estão no Excel, SPSS, SAS ou em algum outro sistema. Posso importá-los diretamente para o Explorador de dados públicos?

Agora não. Primeiro, é necessário exportar seus dados para o formato CSV, adicionar os metadados XML apropriados e fazer upload de um conjunto de dados compatível com DSPL para o Explorador de dados públicos.

O nome dos meus arquivos é importante?

O arquivo XML do conjunto de dados precisa ter um nome que termine em .xml. Os arquivos de dados CSV associados podem ter qualquer nome, desde que correspondam aos nomes fornecidos nas tags <file> nos metadados XML. O arquivo ZIP usado para empacotar e importar o conjunto de dados para o Explorador de dados públicos também pode ter qualquer nome.

Meus arquivos CSV devem ser classificados?

Sim. Classifique o conteúdo dos arquivos CSV pelas dimensões que não são de tempo (em qualquer ordem ou direção) e, opcionalmente, por qualquer uma das outras colunas (por exemplo, tempo).

Por exemplo, se você tiver um CSV com as colunas date, dimension1, dimension2, metric1 e metric2, classifique por dimension1 e dimension2 (em qualquer ordem). Se você também quiser classificar pela coluna de data/hora, essa deve ser a última classificação.

A classificação dessa maneira mantém as observações de cada série temporal agrupadas, o que melhora muito a eficiência do processo de importação de DSPL.

Modelo e sintaxe XML

Como decido o que será uma métrica e o que será uma dimensão?

Uma dimensão é uma entidade usada para segmentar ou filtrar seus dados. Já as métricas descrevem os valores observados e associados a cada ponto de dados.

Geralmente, as dimensões são categóricas, enquanto as métricas são valores numéricos não categóricos e variáveis com o tempo. Veja a seguir alguns exemplos prototipados de cada uma delas:

  • Dimensões: país, estado, condado, região, ano, mês, sexo, categoria etária, segmento do setor
  • Métricas: população, PIB, taxa de desemprego, alfabetização, receita, custo e preço

Qual é a diferença entre uma propriedade e um atributo?

As propriedades são anexadas a cada instância de um conceito. Por exemplo, uma propriedade de continente terá valores diferentes para países diferentes. Por outro lado, os atributos são associados ao conceito como um todo. Por exemplo: um atributo isParent é verdadeiro para todos os continentes.

A ordem das tags importa?

Sim. Adicione as tags na ordem em que elas aparecem no guia para desenvolvedores. Por exemplo, <topic> precisa aparecer antes de <type> na definição de um conceito.

O uso de letras maiúsculas faz diferença?

Sim, a tag XML e os nomes dos atributos precisam estar em maiúsculas da mesma maneira que aparecem no Guia para desenvolvedores. Por exemplo, usar isparent em vez de isParent em uma tag property causará um erro de importação.

Um conceito pode ter dois pais?

Não. Cada conceito pode ter apenas uma referência a isParent.

Um conceito pode se referir a si mesmo?

Sim. Consulte o conjunto de dados de vendas de varejo nos EUA para um exemplo de uma hierarquia de conceito de autorreferência.

Formatação de dados

Como formato datas?

As datas podem ser escritas em qualquer formato que possa ser descrito com o padrão Joda DateTime. O código de formatação Joda precisa ser armazenado em um atributo format no elemento correspondente da coluna da tabela.

Os códigos de formatação Joda para alguns formatos de data conhecidos estão listados abaixo:

Exemplo de data Formato Joda
2010 yyyy
Maio de 2010 MMM yyyy
21/05/2010 MM/dd/yyyy
21/05/2010 dd/MM/yyyy
2010-05-21 yyyy-MM-dd

Observe que o código Joda para caracteres de mês é M, não m (que representa os minutos).

Posso usar unidades de tempo menores que um dia?

O formato Joda DateTime e, portanto, o DSPL também, oferece suporte a valores de tempo da ordem de milissegundos. No entanto, o Explorador de dados públicos não pode (ainda) visualizar granularidades de tempo menores que um dia.

Como usar conceitos canônicos

O que são "conceitos canônicos" e qual a utilidade deles?

O termo "conceitos canônicos" refere-se a um conjunto de conceitos criados pelo Google que se destinam como "elementos básicos" de outros conjuntos de dados. Os próprios conceitos são definidos em seis conjuntos de dados DSPL, que agrupam o primeiro em categorias como "time", "geo" etc. Para ter acesso a esses conceitos, basta importar os conjuntos de dados pais apropriados no início do arquivo XML DSPL.

Os conceitos canônicos são úteis porque ajudam a economizar tempo (por exemplo, não precisam inserir manualmente valores de latitude e longitude para cada país do mundo) e também sinalizam como os dados devem ser visualizados. Por exemplo, o Explorador de dados públicos usa os conceitos time:... para formatar o eixo X do gráfico de linhas, usa a propriedade name do conceito entity:entity para produzir strings para a interface do seletor de dimensão, usa as propriedades latitude e longitude de geo:location para exibir dados na visualização de mapa e assim por diante.

Todos os conceitos canônicos são compreendidos pelo Explorador de dados públicos?

Embora a maioria dos conceitos canônicos fornecidos seja compreendida pelo Explorador de dados públicos, há alguns que (ainda) não podem ser visualizados. Elas estão listadas abaixo, junto com algumas soluções sugeridas:

Conceito Alternativa
quantity:index Use quantity:ratio ou quantity:magnitude.
time:quarter Use o time:month conforme descrito no Manual do DSPL (em inglês).
time:week Use o time:day conforme descrito no Manual do DSPL (em inglês).

Não perca as próximas atualizações sobre o suporte a esses conceitos.

Como uso um conceito canônico no meu conjunto de dados?

Consulte a documentação do conceito específico que você quer usar e confira também o Manual do DSPL (em inglês), que tem instruções detalhadas e detalhadas para os mais comuns.

Como importar e visualizar conjuntos de dados

Por que não consigo importar meu conjunto de dados?

A interface de upload do Explorador de dados públicos verificará seu conjunto de dados DSPL e bloqueará a importação se algum erro for detectado. O importador é muito sensível à ortografia, ao uso de letras maiúsculas e à ordem / posicionamento de tags no arquivo XML, bem como ao layout e à classificação dos dados nos arquivos CSV. Por isso, pode levar algumas passagens para fazer tudo certo e importar o conjunto de dados.

A primeira etapa para resolver esses problemas é analisar as mensagens de erro fornecidas na IU e tomar a ação corretiva adequada. Como essas mensagens nem sempre são as mais fáceis de entender (algo em que estamos trabalhando ativamente para melhorar), compilamos uma tabela que explica as mais comuns:

Erro Explicação
chave duplicada: ... A tabela de definição do conceito tem um valor de ID repetido (ou seja, valor na coluna com o mesmo nome do conceito). Esses valores são usados para identificar exclusivamente instâncias individuais do conceito. Portanto, cópias não são permitidas.
Exceção na análise de linhas de dados da origem causada pela combinação de propriedades, [...], que aparece em mais de um grupo distinto de linhas nos dados. O CSV não está classificado corretamente. Consulte a discussão acima para instruções sobre como fazer isso.
Exceção na análise de linhas de dados da origem causada por formato inválido: "..." está incorreto em "...". A formatação desse valor (normalmente uma data) no CSV não é consistente com o formato fornecido no arquivo XML. Mude o formato ou o valor para que eles correspondam.
Exceção na análise de linhas de dados da origem causada pelo Número de elementos na linha (...) não corresponde ao número de propriedades especificadas (...) para a linha: [...] Uma linha no CSV tem muitos ou poucos valores. Corrija a formatação dessa linha.
Exceção na análise de linhas de dados da origem causada por. Para a string de entrada: "..." Um valor no CSV (normalmente um número inteiro ou flutuante) contém caracteres não numéricos (por exemplo, um símbolo de cifrão, um sinal de porcentagem etc.) que o impedem de ser analisado corretamente. Remova esses caracteres extras.
Exceção na análise de linhas de dados da origem causada pelo valor de dados "..." para a propriedade "..." do Slice "..." não é um valor de chave do conceito referenciado "...". Uma das fatias contém um valor de dimensão não reconhecido (por exemplo, um que não esteja na lista de todos os valores possíveis para o conceito correspondente). Volte à tabela de definição de conceito da dimensão e adicione o valor, se necessário.
O cabeçalho "..." nos dados é uma propriedade constante na tabela O cabeçalho da coluna no CSV não corresponde ao ID da coluna definido na definição da tabela XML. Altere uma das opções para que elas correspondam.
Erro de análise do XML ... Um conteúdo inválido foi encontrado começando com o elemento '...'. Um de '{...}', '{...}', ... é esperado. O elemento XML referenciado não está no lugar correto. Confira se a ordem está correta e se o elemento tem o pai correto (por exemplo, info para name).
Erro de análise do XML ... O atributo "..." não tem permissão para aparecer no elemento "...". A ortografia, o caso ou a localização desse atributo de tag XML está incorreto. Consulte a documentação para saber o uso apropriado.
Erro de análise do XML. ... O elemento "..." não pode ter caractere [children], porque o tipo de conteúdo do tipo é somente elemento. Há um texto incorreto no arquivo XML (possivelmente causado por uma tag sem < ou >). Corrija o texto e tente novamente.

Se você tiver dificuldade para entender uma mensagem que não esteja na lista acima, poste uma mensagem no fórum DSPL (em inglês) e tentaremos ajudar.

Meu conjunto de dados é importado, mas não consigo mostrar nenhuma visualização no Explorador de dados públicos. O que está acontecendo?

Esse problema ocorre quando o conjunto de dados é um DSPL válido, mas não está no subconjunto de DSPL que pode ser visualizado no Explorador de dados públicos. Há muitas causas possíveis para isso. As mais comuns são:

  • Definição de um conceito de dimensão sem uma tabela: sem essas informações, o Explorador de dados públicos não sabe quais opções exibir na IU.
  • Criação de um conjunto de dados apenas com métricas: o Explorador de dados públicos requer pelo menos uma dimensão categórica (ou seja, não temporal) definida em algum lugar do conjunto de dados para estruturar adequadamente a interface de visualização.
  • Sem inclusão de uma dimensão de tempo nas frações: o Explorador de dados públicos só pode visualizar séries temporais. As frações que não são de tempo serão ignoradas pelo produto.
  • Uso de uma dimensão de tempo diferente das canônicas time:...: o Explorador de dados públicos usa os conceitos canônicos time para posicionar e animar as várias visualizações no produto. Ele não entende outros conceitos de tempo, por exemplo, aqueles criados no seu próprio conjunto de dados.
  • Uso de valores de tempo muito grandes ou muito pequenos:o Explorador de dados públicos ainda não visualiza conjuntos de dados com granularidades de tempo menores que um dia. No outro extremo do espectro, a ferramenta apresenta problemas com valores de ano muito grandes (por exemplo, na casa de dezenas de milhares). Esperamos tornar essas granularidades mais flexíveis no futuro.

Como faço para integrar o conjunto de dados visualizado ao meu site?

Consulte este artigo na Central de Ajuda do Public Data Explorer. Conforme explicado no último caso, é possível ter uma "incorporação total" (ou seja, uma que inclua os controles de análise detalhada), ajustando manualmente o URL de incorporação.