DSPL 확인

DSPL Check는 공식 DSPL 스키마 준수, 내부 참조의 일관성, CSV 파일 구조 등 다양한 기준에 따라 DSPL 데이터 세트의 유효성을 검사하는 유틸리티입니다. 이 유틸리티는 DSPL 가져오기 오류를 일으키는 여러 문제를 포착할 수 있으므로 입력 프로세스를 시작하기 전에 이러한 문제를 빠르게 감지하고 수정할 수 있습니다.

유틸리티는 모든 발생 가능한 문제를 DSPL 데이터 세트에서 확인하지 않습니다. 하지만 가장 일반적인 문제를 포착하므로 도구에서 데이터 세트의 유효성을 검사하면 공개 데이터 탐색기에서 데이터 세트를 가져와서 시각화할 수 있는 가능성이 큽니다. 자세한 내용은 아래의 세부정보 확인 섹션을 참조하세요.

DSPL 확인 실행

기본 사항

참고: 다음 안내는 이미 DSPL 도구 페이지에 제공된 설치 안내를 따랐다고 가정합니다.

DSPL Check를 실행하려면 시스템의 터미널 / 메시지로 이동하여 다음을 입력하세요.

python dsplcheck.py [path to dataset XML or zip file]

여기서 대괄호는 데이터 세트 XML 파일 또는 압축된 DSPL 번들에 대한 상대 경로로 대체됩니다.

데이터 세트가 유효하면 도구에서 '유효성 검사 성공' 메시지를 출력합니다. 그렇지 않으면 검증이 실패한 이유를 설명하는 오류 메시지가 하나 이상 출력됩니다. 후자가 발생하면 데이터 세트를 지시에 따라 수정한 후 도구를 다시 실행하세요.

레벨 확인 중

기본적으로 DSPL Check는 기본 DSPL XML 파일에서 참조되는 CSV를 포함하여 전체 데이터 세트를 검사합니다. 이 프로세스는 중소 규모의 데이터 세트에 적합하지만 크기가 매우 큰 (예: 수백 메가바이트 이상) 데이터 세트의 성능이 저하되거나 메모리가 부족해질 수 있습니다.

이러한 경우를 해결하기 위해 도구에는 필요에 따라 확인 범위를 설정하고 성능을 개선할 수 있는 확인 수준 옵션이 있습니다. 이 기능을 사용하려면 데이터 세트 경로 앞에 --checking_level=[...]를 삽입하세요. 여기서 대괄호는 다음 값 중 하나로 대체됩니다.

  • schema_only: 데이터 세트 XML 파일을 공식 DSPL 스키마와 비교하여 검증한 다음 중지합니다.
  • schema_and_model: 스키마 및 기본 모델 검증을 수행하지만 헤더 행 이후의 CSV 콘텐츠는 무시합니다.
  • full: 스키마, 모델, 데이터 검증을 수행합니다 (기본값).

세부정보 확인 중

DSPL Check는 다음과 같은 일련의 유효성 검사를 수행합니다.

  • XML 스키마 유효성 검사: 데이터 세트 메타데이터 파일이 유효한 XML이고 공식 DSPL 스키마를 준수하는지 확인합니다.
  • CSV 존재: 데이터 세트에서 참조된 모든 CSV 파일이 있고 로드 가능한지 확인합니다.
  • 개념 확인: 다음을 포함한 데이터 세트의 각 개념에 대한 다양한 검사입니다.
    • 데이터 세트에 1개 이상의 개념이 있음*
    • 모든 주제 참조가 유효합니다.
    • 개념이 시간 이외의 측정기준으로 사용되는 경우 테이블 참조가 있습니다.*
    • 테이블 참조가 있는 경우 유효합니다.
    • 참조된 테이블에 개념 ID에 해당하는 열이 있음
  • 슬라이스 확인: 다음을 포함하여 데이터 세트의 각 슬라이스에 관한 다양한 검사입니다.
    • 데이터 세트에 1개 이상의 슬라이스가 있음*
    • 시간 이외의 측정기준을 참조하는 슬라이스 1개 이상*
    • 슬라이스에 1개 이상의 측정항목과 1개의 측정기준이 있습니다.
    • 정확히 1개의 측정기준 참조 time 표준 개념*
    • 각 슬라이스에는 고유한 측정기준 조합이 있습니다.
    • 현지 개념에 관한 모든 참조가 유효함
    • 테이블 참조가 있습니다.
    • 테이블 참조가 유효함
    • 참조된 테이블에는 슬라이스의 각 측정기준 및 측정항목에 대한 열이 있습니다.
    • 참조된 표의 열 유형은 슬라이스에 사용된 개념 유형과 일치합니다.
  • 테이블 검사: 데이터 세트에 있는 다음과 같은 각 테이블에 대한 다양한 검사.
    • 데이터 세트에 테이블이 1개 이상 있음*
    • CSV 파일에 있는 열 수가 표와 같습니다.
    • CSV 헤더 문자열이 열 ID와 일치
    • 모든 날짜 열에 format 속성 있음
    • 날짜 형식은 관련된 시간 개념에 따라 대략적으로 정렬됩니다.예를 들어 time:year 열의 형식에 y 문자가 1개 이상 포함됩니다.*
  • CSV 데이터 확인: 데이터 세트 XML 파일에서 참조하는 CSV 데이터 파일에 대한 다양한 검사.
    • 각 CSV 행의 헤더와 헤더의 수가 동일합니다.
    • 개념 정의 CSV에는 각 개념 ID에 대한 행이 두 개 이하여야 합니다.
    • Slice CSV에는 각 측정기준 조합에 해당하는 행이 1개만 있습니다.
    • 슬라이스 CSV에서 참조한 측정기준 값이 유효합니다.
    • Slice CSV가 올바르게 정렬됨
    • 정수 및 부동 소수점 수 값의 형식이 올바르게 지정되었습니다.

*로 표시된 기준은 공개 데이터 탐색기에서 시각화하는 데 필요하지만 기술적으로 DSPL 형식에는 필요하지 않습니다.

반면에 이 도구는 아직 다음을 확인하지 않습니다.

  • 데이터 세트 가져오기
  • 속성 및 속성 참조
  • 개념 확장