Проверка DSPL

DSPL Check — это утилита, которая проверяет набор данных DSPL по ряду критериев, включая соответствие официальной схеме DSPL, согласованность внутренних ссылок и структуру файла CSV. Утилита может обнаруживать многие проблемы, которые могут вызвать ошибки импорта DSPL, помогая вам быстро обнаружить и устранить эти проблемы до начала процесса ввода.

Обратите внимание, что утилита (пока) не проверяет ваш набор данных DSPL на наличие всех возможных проблем. Тем не менее, он выявит наиболее распространенные проблемы, поэтому, если ваш набор данных успешно проверен инструментом, есть большая вероятность, что его можно будет импортировать и визуализировать в обозревателе общедоступных данных. Дополнительную информацию см. в разделе « Проверка сведений» ниже.

Запуск проверки DSPL

Основы

Примечание. В этих указаниях предполагается, что вы уже выполнили инструкции по установке, приведенные на странице инструментов DSPL.

Чтобы запустить проверку DSPL, перейдите в терминал / приглашение в вашей системе и введите:

python dsplcheck.py [path to dataset XML or zip file]

где термин в квадратных скобках заменен относительным путем либо к XML-файлу набора данных, либо к заархивированному пакету DSPL.

Если набор данных действителен, инструмент распечатывает сообщение «проверка прошла успешно». В противном случае выводится одно или несколько сообщений об ошибках, описывающих, почему проверка не удалась. В последнем случае исправьте набор данных в соответствии с указаниями, а затем снова запустите инструмент.

Проверка уровня

По умолчанию проверка DSPL проверит весь набор данных, включая файлы CSV, на которые есть ссылки из основного XML-файла DSPL. Этот процесс хорошо работает с наборами данных малого и среднего размера, но может зависнуть или не хватить памяти на очень больших наборах данных (например, в сотнях мегабайт или больше).

Для решения таких случаев в инструменте предусмотрена опция уровня проверки , которая позволяет установить объем проверки и повысить производительность по мере необходимости. Для использования вставьте --checking_level=[...] перед путем к набору данных, где заключенный в квадратные скобки термин заменяется одним из следующих значений:

  • schema_only : проверьте XML-файл набора данных на соответствие официальной схеме DSPL, затем остановитесь.
  • schema_and_model : выполнить проверку схемы и базовой модели, но игнорировать содержимое CSV после строки заголовка.
  • full : проверка схемы, модели и данных (по умолчанию).

Проверка деталей

DSPL Check выполняет следующую последовательность проверок:

  • Проверка схемы XML: проверяет, что ваш файл метаданных набора данных является допустимым XML и соответствует официальной схеме DSPL .
  • Существование CSV: проверяет, что все файлы CSV, на которые есть ссылки в вашем наборе данных, существуют и могут быть загружены.
  • Проверка концепции: различные проверки каждой концепции в вашем наборе данных, в том числе:
    • В наборе данных есть хотя бы одно понятие *
    • Все ссылки на темы действительны
    • Ссылка на таблицу существует, если понятие используется как измерение, не связанное со временем *
    • Ссылка на таблицу действительна, если присутствует
    • В ссылочной таблице есть столбец, соответствующий идентификатору концепции.
  • Проверки срезов: различные проверки каждого среза в вашем наборе данных, в том числе:
    • В наборе данных есть хотя бы один срез *
    • По крайней мере один срез ссылается на невременное измерение *
    • Срез содержит как минимум одну метрику и одно измерение
    • Ровно одно измерение ссылается на каноническую концепцию time *
    • Каждый срез имеет уникальную комбинацию размеров
    • Все ссылки на местные концепции действительны
    • Ссылка на таблицу существует
    • Ссылка на таблицу действительна
    • В ссылочной таблице есть столбец для каждого параметра и показателя в срезе.
    • Типы столбцов в ссылочной таблице соответствуют типам понятий, используемых в срезе.
  • Проверки таблиц: различные проверки каждой таблицы в вашем наборе данных, в том числе:
    • В наборе данных есть хотя бы одна таблица *
    • Файл CSV имеет то же количество столбцов, что и таблица
    • Строки заголовка CSV соответствуют идентификаторам столбцов.
    • Все столбцы даты имеют атрибут format
    • Форматы даты согласуются (примерно) с соответствующими понятиями времени, например, формат для столбца time:year включает по крайней мере один символ y *
  • Проверка данных CSV: различные проверки файлов данных CSV, на которые ссылается XML-файл вашего набора данных, в том числе:
    • Каждая строка CSV имеет такое же количество столбцов, как и ее заголовок.
    • В CSV-файле определения понятия содержится не более одной строки для каждого идентификатора понятия.
    • Срез CSV содержит не более одной строки для каждой комбинации размеров.
    • Значения параметров, указанные в CSV-файле фрагмента, действительны.
    • Фрагмент CSV правильно отсортирован
    • Целочисленные и плавающие значения CSV правильно отформатированы.

Критерии, отмеченные *, необходимы для визуализации в Public Data Explorer, но технически не требуются для формата DSPL.

С другой стороны, инструмент (пока) не смотрит на следующее:

  • Импорт набора данных
  • Ссылки на атрибуты и свойства
  • Расширения концепции