DSPL 확인

DSPL Check는 DSPL 데이터 세트를 검증하는 유틸리티입니다. 공식 DSPL 스키마 준수, 내부 참조의 일관성 및 CSV 파일 구조를 개선할 수 있습니다 이 유틸리티는 DSPL 가져오기 오류를 일으킬 수 있는 많은 문제를 찾아내어 입력 프로세스를 시작하기 전에 이러한 문제를 신속하게 수정할 수 있습니다.

유틸리티는 아직 DSPL 데이터 세트를 모든 문제가 있을 수 있습니다. 그러나 가장 일반적인 문제가 없기 때문에 도구로 데이터 세트의 유효성을 검사하면 공개 데이터에서 가져와 시각화할 수 있는 가능성이 매우 높음 익스플로러를 탭합니다. 세부정보 확인 섹션을 참조하세요. 참조하세요.

DSPL 검사 실행 중

기본사항

참고: 이 안내에서는 설치 후 이미 설치된 안내를 참조하세요.

DSPL 검사를 실행하려면 시스템에서 터미널 / 프롬프트로 이동한 다음 유형:

python dsplcheck.py [path to dataset XML or zip file]

여기서 대괄호로 묶인 항은 데이터 세트 XML 파일 또는 압축된 DSPL 번들.

데이터 세트가 유효하면 도구는 '유효성 검사'를 출력합니다. 성공' 메시지가 표시됩니다. 그러지 않으면 오류 메시지가 하나 이상 출력됩니다. 검증이 실패한 이유를 설명합니다. 후자가 발생하면 원하는 대로 데이터 세트를 학습한 다음 도구를 다시 실행합니다.

레벨 확인 중

기본적으로 DSPL 검사는 CSV를 포함한 전체 데이터 세트를 검사합니다. 기본 DSPL XML 파일에서 참조됩니다. 이 프로세스는 중간 규모의 데이터 세트이지만 너무 복잡하거나 메모리가 부족할 수 있습니다. 매우 큰 데이터 세트 (즉, 수백 메가바이트 또는 합니다.

이러한 케이스를 해결하기 위해 도구에는 검토 수준이 있습니다. 이 옵션을 사용하면 검사 범위를 설정하여 필요에 따라 성능을 향상할 수 있습니다 사용하려면 --checking_level=[...]을(를) 삽입하세요. 괄호로 묶인 항이 다음 값을 사용합니다.

  • schema_only: 공식 DSPL 스키마인 다음 중지합니다.
  • schema_and_model: 스키마 및 기본 모델 검증을 수행하지만 헤더 행 다음의 CSV 콘텐츠는 무시합니다.
  • full: 스키마, 모델, 데이터 검증을 수행합니다 (기본값).

세부정보 확인 중

DSPL 검사는 다음과 같은 순서로 유효성 검사를 수행합니다.

  • XML 스키마 유효성 검사: 데이터 세트가 메타데이터 파일은 유효한 XML이며 공식 DSPL 스키마
  • CSV 존재 여부: 모든 CSV 파일이 존재하는지 확인합니다. 존재하며 로드할 수 있습니다.
  • 개념 검사: 데이터 세트는 다음과 같은 특징이 있습니다. <ph type="x-smartling-placeholder">
      </ph>
    • 데이터 세트에 하나 이상의 개념이 있음*
    • 모든 주제 참조가 유효함
    • 개념이 시간이 아닌 경우 테이블 참조가 존재합니다. 크기*
    • 테이블 참조가 있는 경우 유효합니다.
    • 참조된 테이블에 개념 ID에 해당하는 열이 있음
  • 슬라이스 확인: 슬라이스의 각 슬라이스에 대해 다양한 검사를 수행하여 데이터 세트는 다음과 같은 특징이 있습니다. <ph type="x-smartling-placeholder">
      </ph>
    • 데이터 세트에 1개 이상의 슬라이스가 있음*
    • 1개 이상의 슬라이스가 비시간 차원을 참조함*
    • 슬라이스에 하나 이상의 측정항목과 측정기준이 하나 이상 있습니다.
    • 정확히 1개의 측정기준 참조 time 표준 개념*
    • 각 슬라이스에는 고유한 측정기준 조합이 있음
    • 현지 개념에 대한 모든 언급이 유효함
    • 표 참조가 존재합니다.
    • 테이블 참조가 유효합니다.
    • 참조된 테이블에는 각 측정기준 및 측정항목에 대한 열이 있습니다. 슬라이스
    • 참조된 테이블의 열 유형이 슬라이스에서 사용되는 개념
  • 테이블 확인: 데이터 세트는 다음과 같은 특징이 있습니다. <ph type="x-smartling-placeholder">
      </ph>
    • 데이터 세트에 테이블이 하나 이상 있음*
    • CSV 파일에 테이블과 열 수가 같습니다.
    • CSV 헤더 문자열이 열 ID와 일치함
    • 모든 날짜 열에는 format 속성이 있습니다.
    • 날짜 형식은 대략 관련 시간 개념과 일치하고 예를 들어 time:year 열의 형식에는 최소한 y 1자*
  • CSV 데이터 확인: CSV 데이터 파일에 관한 다양한 확인 작업 다음을 포함하여 데이터 세트 XML 파일에서 참조하는 데이터. <ph type="x-smartling-placeholder">
      </ph>
    • 각 CSV 행에는 헤더와 동일한 수의 열이 있습니다.
    • 개념 정의 CSV에는 각각에 대해 2개 이상의 행이 없습니다. 개념 ID
    • 슬라이스 CSV에는 각 조합에 대한 행이 1개만 있습니다. 측정기준
    • 슬라이스 CSV에서 참조한 측정기준 값이 유효합니다.
    • 슬라이스 CSV가 제대로 정렬되었습니다.
    • 정수 및 부동 소수점 수 CSV 값의 형식이 올바르게 지정되었습니다.

* 표시된 기준은 공개 데이터 탐색기의 시각화를 지원하지만, 기술적으로 DSPL 형식입니다.

반면에 이 도구는 아직 다음을 확인하지 않습니다.

  • 데이터 세트 가져오기
  • 속성 및 속성 참조
  • 개념 확장 프로그램