Verificação DSPL

A Verificação DSPL é um utilitário que valida um conjunto de dados DSPL de acordo com diversos critérios, incluindo adesão ao esquema DSPL oficial, consistência de referências internas e estrutura de arquivo CSV. O utilitário pode detectar muitos problemas que causarão erros de importação DSPL, ajudando você a detectar e corrigir esses problemas rapidamente antes de iniciar o processo de entrada.

Observe que o utilitário (ainda) não verifica seu conjunto de dados DSPL quanto a todos os problemas possíveis. No entanto, ele detectará os erros mais comuns portanto, se o conjunto de dados for validado com sucesso pela ferramenta, há uma grande chance de o vídeo poder ser importado e visualizado na seção de Dados públicos Explorador. Consulte a seção Detalhes da verificação abaixo para mais informações.

Como executar a verificação DSPL

Noções básicas

Observação:essas instruções pressupõem que você já seguiu o processo de instalação instruções da página "Ferramentas de DSPL".

Para executar a verificação de DSPL, acesse o terminal / prompt no seu sistema e type

python dsplcheck.py [path to dataset XML or zip file]

em que o termo entre colchetes é substituído pelo caminho relativo para um arquivo XML do conjunto de dados ou um pacote DSPL compactado.

Se o conjunto de dados for válido, a ferramenta imprimirá uma "descrição bem-sucedido" mensagem. Caso contrário, gera uma ou mais mensagens de erro. descrevendo por que a validação falhou. Se o último caso ocorrer, corrija conjunto de dados conforme indicado e, em seguida, execute a ferramenta novamente.

Verificando nível

Por padrão, a verificação de DSPL examinará todo o conjunto de dados, incluindo os CSVs referenciados a partir do arquivo XML DSPL principal. Esse processo funciona bem em para conjuntos de dados de tamanho médio, mas pode ficar sobrecarregado ou ficar sem memória em conjuntos de dados muito grandes (ou seja, com centenas de megabytes ou maior).

Para resolver esses casos, a ferramenta tem um nível de verificação que permite definir o escopo da verificação e melhorar desempenho, conforme necessário. Para usar, insira --checking_level=[...] antes do caminho do conjunto de dados, em que o termo entre colchetes é substituído por um dos seguintes valores:

  • schema_only: valida o arquivo XML do conjunto de dados em relação ao o esquema DSPL oficial, depois pare.
  • schema_and_model: faz a validação básica do modelo e do esquema, mas ignorar o conteúdo CSV após a linha de cabeçalho.
  • full: faz validação de esquema, modelo e dados (padrão).

Verificando detalhes

A verificação DSPL executa a seguinte sequência de validações:

  • Validação de esquema XML:verifica se o conjunto de dados arquivo de metadados é um XML válido e está em conformidade com a esquema DSPL oficial (em inglês).
  • Existência do CSV:verifica se todos os arquivos CSV referenciados no seu conjunto de dados existem e são carregáveis.
  • Verificações de conceito:várias verificações de cada conceito no seu , incluindo:
    • O conjunto de dados tem pelo menos um conceito*
    • Todas as referências de tópico são válidas
    • A referência de tabela existe se o conceito for usado como um elemento que não é temporal dimensão*
    • A referência da tabela será válida se estiver presente
    • A tabela referenciada tem uma coluna que corresponde ao ID do conceito
  • Verificações de fração: diversas verificações de cada fração do , incluindo:
    • O conjunto de dados tem pelo menos uma fração*
    • Pelo menos uma fração faz referência a uma dimensão que não é de tempo*
    • A fração tem pelo menos uma métrica e uma dimensão
    • Exatamente uma dimensão faz referência time conceito canônico*
    • Cada fração tem uma combinação exclusiva de dimensões.
    • Todas as referências a conceitos locais são válidas
    • Há uma referência de tabela
    • A referência da tabela é válida
    • A tabela referenciada tem uma coluna para cada dimensão e métrica na fatia
    • Os tipos de coluna na tabela referenciada correspondem aos tipos do conceitos usados na fração
  • Verificações de tabela: várias verificações de cada tabela em seu , incluindo:
    • O conjunto de dados tem pelo menos uma tabela*
    • O arquivo CSV tem o mesmo número de colunas que a tabela
    • As strings de cabeçalho do CSV correspondem aos IDs das colunas
    • Todas as colunas de data têm um atributo format
    • Os formatos de data se alinham (aproximadamente) aos conceitos de tempo associados, Por exemplo, o formato de uma coluna time:year inclui pelo menos um caractere de y*
  • Verificações de dados CSV:várias verificações dos arquivos de dados CSV. referenciados pelo arquivo XML do conjunto de dados, incluindo:
    • Cada linha CSV tem o mesmo número de colunas que o cabeçalho
    • O CSV de definição de conceito não tem mais de uma linha para cada ID do conceito
    • O CSV do Slice não tem mais de uma linha para cada combinação de dimensões
    • Os valores de dimensão referenciados no CSV do tipo fatia são válidos
    • O CSV da fração está classificado corretamente
    • Valores CSV inteiros e flutuantes são formatados corretamente

Os critérios marcados com um * são necessários para visualização no Explorador de Dados Públicos, mas tecnicamente não são exigidos pelo o formato DSPL.

Por outro lado, a ferramenta (ainda) não analisa o seguinte:

  • Importações de conjuntos de dados
  • Referências de atributos e propriedades
  • Extensões de conceito