Проверка DSPL

DSPL Check — это утилита, которая проверяет набор данных DSPL по ряду критериев, включая соответствие официальной схеме DSPL, согласованность внутренних ссылок и структуру файла CSV. Утилита может обнаружить множество проблем, вызывающих ошибки импорта DSPL, помогая быстро обнаружить и устранить эти проблемы перед началом процесса ввода.

Обратите внимание, что утилита (пока) не проверяет ваш набор данных DSPL на наличие всех возможных проблем. Однако он выявляет наиболее распространенные проблемы, поэтому, если ваш набор данных будет успешно проверен этим инструментом, велика вероятность, что его можно будет импортировать и визуализировать в Public Data Explorer. Дополнительную информацию см. в разделе «Проверка деталей» ниже.

Запуск проверки DSPL

Основы

Примечание. Эти инструкции предполагают, что вы уже выполнили инструкции по установке , приведенные на странице «Инструменты DSPL».

Чтобы запустить проверку DSPL, перейдите в терминал/подсказку вашей системы и введите:

python dsplcheck.py [path to dataset XML or zip file]

где термин в квадратных скобках заменяется относительным путем либо к XML-файлу набора данных, либо к сжатому пакету DSPL.

Если набор данных действителен, инструмент распечатывает сообщение об успешной проверке. В противном случае он выводит одно или несколько сообщений об ошибках, описывающих, почему проверка не удалась. В последнем случае исправьте набор данных в соответствии с указаниями, а затем снова запустите инструмент.

Проверка уровня

По умолчанию проверка DSPL проверяет весь набор данных, включая CSV-файлы, на которые есть ссылки из основного XML-файла DSPL. Этот процесс хорошо работает с наборами данных малого и среднего размера, но может зависать или исчерпать память для наборов данных очень большого размера (т. е. в сотни мегабайт или больше).

Для решения этих случаев в инструменте предусмотрен параметр уровня проверки , который позволяет вам установить объем проверки и при необходимости повысить производительность. Чтобы использовать, вставьте --checking_level=[...] перед путем к набору данных, где термин в квадратных скобках заменяется одним из следующих значений:

  • schema_only : проверьте XML-файл набора данных на соответствие официальной схеме DSPL, затем остановитесь.
  • schema_and_model : выполнить проверку схемы и базовой модели, но игнорировать содержимое CSV после строки заголовка.
  • full : выполнить проверку схемы, модели и данных (по умолчанию).

Проверка деталей

DSPL Check выполняет следующую последовательность проверок:

  • Проверка схемы XML: проверяет, что ваш файл метаданных набора данных является действительным XML и соответствует официальной схеме DSPL .
  • Существование CSV: проверяет, что все файлы CSV, на которые есть ссылки из вашего набора данных, существуют и доступны для загрузки.
  • Проверки концепций: различные проверки каждой концепции в вашем наборе данных, в том числе:
    • В наборе данных есть хотя бы одно понятие *
    • Все ссылки на темы действительны
    • Ссылка на таблицу существует, если понятие используется как измерение, не связанное со временем *
    • Ссылка на таблицу действительна, если она присутствует.
    • В ссылочной таблице есть столбец, соответствующий идентификатору концепции.
  • Проверки срезов: различные проверки каждого среза в наборе данных, в том числе:
    • Набор данных содержит хотя бы один фрагмент *
    • По крайней мере один срез ссылается на измерение, не связанное со временем *
    • В срезе есть хотя бы одна метрика и одно измерение.
    • Ровно одно измерение отсылает к канонической концепции time *
    • Каждый срез имеет уникальную комбинацию размеров.
    • Все ссылки на местные концепции действительны.
    • Ссылка на таблицу существует
    • Ссылка на таблицу действительна
    • В указанной таблице есть столбец для каждого параметра и показателя в срезе.
    • Типы столбцов в указанной таблице соответствуют типам понятий, используемых в срезе.
  • Проверки таблиц: различные проверки каждой таблицы в наборе данных, в том числе:
    • Набор данных содержит хотя бы одну таблицу *
    • CSV-файл имеет такое же количество столбцов, что и таблица.
    • Строки заголовка CSV соответствуют идентификаторам столбцов.
    • Все столбцы даты имеют атрибут format .
    • Форматы даты соответствуют (приблизительно) соответствующим концепциям времени, например, формат столбца time:year включает как минимум один символ y *
  • Проверки данных CSV: различные проверки файлов данных CSV, на которые ссылается XML-файл набора данных, в том числе:
    • Каждая строка CSV имеет такое же количество столбцов, что и ее заголовок.
    • В CSV-файле определения концепции содержится не более одной строки для каждого идентификатора концепции.
    • Срез CSV содержит не более одной строки для каждой комбинации измерений.
    • Значения измерений, указанные в CSV-файле фрагмента, действительны.
    • Срез CSV отсортирован правильно
    • Целочисленные и плавающие значения CSV отформатированы правильно.

Критерии, отмеченные *, необходимы для визуализации в Public Data Explorer, но технически не требуются для формата DSPL.

С другой стороны, инструмент (пока) не смотрит на следующее:

  • Импорт набора данных
  • Ссылки на атрибуты и свойства
  • Расширение концепции