이 문서에서는 DSPL 데이터 세트를 만들고 공개 데이터 탐색기에 업로드할 때 데이터 소유자가 가장 자주 경험하는 문제를 다룹니다.
목차
일반적인 질문
DSPL이란 무엇인가요?
DSPL은 데이터 세트 게시 언어를 의미합니다. 이는 메타데이터 (데이터 세트의 이름, 제공자와 같은 데이터 세트 정보, 데이터 세트에 포함하고 표시하는 개념 등)와 데이터 세트의 실제 데이터를 모두 나타내는 표현입니다. 메타데이터는 XML로 지정되지만 데이터는 CSV 형식으로 제공됩니다.
DSPL 사용의 주요 이점은 무엇인가요?
DSPL은 처음부터 공개 데이터 탐색기의 데이터와 같은 리치 데이터 시각화를 위해 설계되었습니다. 이를 만들려면 슬라이스, 측정기준, 측정항목에 대한 자세한 메타데이터, 다른 데이터 세트 형식에서는 잘 지원되지 않는 항목이 필요합니다.
또한 DSPL은 데이터 세트 가져오기, 개념 계층 구조 (예: 'country'는 '대륙'의 하위 요소), 지오코딩된 데이터, 데이터 탐색 환경을 향상하는 기타 여러 고유한 기능입니다.
DSPL은 데이터 교환이나 분석에 사용되는 다른 형식을 대체하나요?
일반적으로는 그렇지 않습니다. 이전 답변에서 언급했듯이 DSPL은 대화형 시각화 및 탐색을 위해 설계되었습니다. 일반적인 데이터 교환 또는 분석 형식이 아닙니다.
궁극적으로 DSPL은 다른 형식을 보완하는 것으로 간주됩니다. 사용자는 풍부한 양방향 데이터 시각화를 위해 다른 소스에서 DSPL 데이터 세트를 만들 수 있어야 합니다.
DSPL 데이터 세트로 무엇을 할 수 있나요?
데이터를 Public Data Explorer로 가져와서 게시하고 다른 사용자가 풍부한 대화형 시각화를 통해 데이터를 탐색하도록 할 수 있습니다. 게시된 데이터 세트는 관심 있는 사용자가 찾을 수 있도록 공개 데이터 디렉터리에 포함될 수도 있습니다.
현재 이 애플리케이션은 DSPL을 사용하는 유일한 애플리케이션입니다. 그러나 다른 애플리케이션에도 사용하는 것이 좋으며 시간이 지남에 따라 채택률이 증가할 것으로 예상됩니다.
DSPL에 가장 적합한 데이터 세트 유형은 무엇인가요?
DSPL 형식은 임의의 테이블 컬렉션을 지원하므로 다양한 데이터 세트 유형에 적합합니다. 하지만 Public Data Explorer에서는 DSPL 데이터 세트의 일부만 흥미로운 시각화를 생성할 수 있습니다. 후자의 제품은 특히 다음과 같은 데이터에 적합합니다.
- 정량적: 각 데이터 포인트에는 연결된 하나 이상의 숫자 측정항목이 있습니다 (예: '인구', '독감 사례 수', '수익').
- 범주형: 데이터를 텍스트로 설명할 수 있는 한정된 수의 카테고리 (예: '국가', '성별', '연령대')로 구성됩니다.
- 시계열: 각 카테고리에서 데이터 측정항목은 시간의 함수로 다양하며 인접 지점의 간격은 최소 하루 이상입니다 (공개 데이터 탐색기는 1일보다 작은 시간 단위를 시각화할 수 없음).
- 집계: 시간 / 카테고리 / 측정항목 조합마다 이벤트 또는 사실 목록이 아닌 단일 데이터 포인트가 있습니다.
DSPL 데이터 세트를 만들었고 다른 사람들이 찾을 수 있도록 Google 공개 데이터 디렉터리에 이를 표시하고 싶습니다. 어디에 문의해야 하나요?
이 양식을 작성하고 데이터 세트 링크를 제공하세요.
DSPL에 문제가 있습니다. 도움을 받으려면 어떻게 해야 하나요?
DSPL 토론 포럼에 문제를 게시하세요.
DSPL 데이터 세트 파일
XML 및 CSV 파일을 인코딩하려면 어떻게 해야 하나요?
모든 XML 및 CSV 파일은 UTF-8로 인코딩되어야 합니다. ASCII('일반 텍스트'라고도 함)는 UTF-8의 하위 집합이므로 이 형식의 데이터 세트도 작동합니다.
데이터 세트 파일을 만들고 수정하려면 어떤 소프트웨어를 사용해야 하나요?
XML 파일을 수정할 때는 가독성을 위해 구문 강조 표시가 포함된 일반 텍스트 편집기를 사용하는 것이 좋습니다. 플랫폼별 권장사항은 이 도움말을 참조하세요. 모든 기능을 갖춘 범용 워드 프로세서는 추가 서식 태그를 XML에 삽입하여 가져오기 오류를 일으킬 수 있으므로 사용하지 않는 것이 좋습니다.
스프레드시트는 일반적으로 데이터 파일을 만들고 수정하는 가장 쉬운 방법입니다. 올바른 형식 (CSV/쉼표로 구분된 값)으로 저장해야 합니다.
Excel, SPSS, SAS 또는 기타 시스템에 데이터가 있습니다. Public Data Explorer로 직접 가져올 수 있나요?
아니요. 지금은 사용하지 않겠습니다. 먼저 데이터를 CSV 형식으로 내보내고 적절한 XML 메타데이터를 추가한 다음 DSPL 준수 데이터 세트를 Public Data Explorer에 업로드해야 합니다.
파일 이름을 지정하는 것이 중요한가요?
데이터 세트 XML 파일의 이름은 .xml
로 끝나야 합니다.
연결된 CSV 데이터 파일의 이름은 XML 메타데이터의 <file>
태그에 지정된 이름과 일치하면 어떤 이름이든 가능합니다.
데이터 세트를 패키징하고 공개 데이터 탐색기로 가져오는 데 사용되는 ZIP 파일도 원하는 이름을 지정할 수 있습니다.
CSV 파일을 정렬해야 하나요?
저도요 CSV 파일의 콘텐츠는 시간 이외의 측정기준 (순서 또는 방향에 관계없이)을 기준으로 정렬한 다음 필요한 경우 다른 열 (예: 시간)을 기준으로 정렬해야 합니다.
예를 들어 date
, dimension1
, dimension2
, metric1
, metric2
열이 포함된 CSV가 있으면 순서와 관계없이 dimension1
및 dimension2
를 기준으로 정렬해야 합니다. 날짜/시간 열도 정렬하려면 이 열을 마지막 기준으로 정렬해야 합니다.
이러한 방식으로 정렬하면 각 시계열의 관찰이 함께 그룹화되므로 DSPL 가져오기 프로세스의 효율성이 크게 향상됩니다.
XML 모델 및 구문
어떤 측정항목이 측정항목과 차원이 되어야 하는지 어떻게 결정하나요?
측정기준은 데이터를 분류하거나 필터링하는 데 사용되는 항목입니다. 반면 측정항목은 각 데이터 포인트와 연결된 관찰된 값을 설명합니다.
일반적으로 측정기준은 범주형인 반면, 측정항목은 범주형이 아닌 시간 변동의 숫자 값입니다. 각각에 대한 몇 가지 프로토타입 예는 다음과 같습니다.
- 측정기준: 국가, 주, 카운티, 지역, 연도, 월, 성별, 연령 카테고리, 업종 세그먼트
- 측정항목: 인구, GDP, 실업률, 문해력, 매출, 비용, 가격
속성과 속성의 차이점은 무엇인가요?
속성은 개념의 각 인스턴스에 연결됩니다. 예를 들어 대륙 속성은 국가별로 값이 다릅니다.
반면에 속성은 개념 전체와 관련이 있습니다.
예를 들어 isParent
속성이 모든 대륙에서 true입니다.
태그 순서가 중요합니까?
저도요 개발자 가이드에 표시된 순서대로 태그를 추가합니다. 예를 들어, 개념 정의에서 <topic>
는 <type>
앞에 와야 합니다.
대문자 사용이 중요한가요?
예. XML 태그와 속성 이름은 개발자 가이드에 표시되는 것과 동일한 방식으로 대문자로 표기해야 합니다. 예를 들어 property
태그에서 isParent
대신 isparent
를 사용하면 가져오기 오류가 발생합니다.
하나의 개념에 두 개의 상위 요소가 있을 수 있나요?
아니요. 각 개념에는 isParent
참조가 하나만 있을 수 있습니다.
개념 자체를 나타낼 수 있나요?
저도요 자체 참조 개념 계층 구조의 예시는 미국 소매 판매 데이터 세트를 참조하세요.
데이터 형식
날짜 형식은 어떻게 지정하나요?
날짜는
Jda DateTime 표준으로 설명할 수 있는 모든 형식으로 작성할 수 있습니다. Joda 형식 지정 코드는 상응하는 표 열 요소 내의 format
속성에 저장해야 합니다.
다음은 많이 사용되는 날짜 형식의 Joda 형식 코드입니다.
날짜 예 | Joda 형식 |
---|---|
2010 | yyyy |
2010년 5월 | MMM yyyy |
2010/05/21 | MM/dd/yyyy |
2010년 5월 21일 | dd/MM/yyyy |
2010-05-21 | yyyy-MM-dd |
특히 월 문자에 대한 Joda 코드는 m
(분을 나타냄)가 아닌 M
입니다.
1일보다 작은 시간 단위를 사용할 수 있나요?
Joda DateTime 형식 및 DSPL도 밀리초 단위의 시간 값을 지원합니다. 하지만 Public Data Explorer에서는 아직 1일보다 작은 시간 단위를 시각화할 수 없습니다.
표준 개념 사용
'표준 개념'이란 무엇이고 어떻게 유용한가요?
'표준 개념'이라는 용어는 다른 데이터 세트의 기본 '구성요소'로 사용하기 위해 Google에서 만든 개념의 집합을 나타냅니다. 개념 자체는 전자를 '시간', '지역' 등의 카테고리로 그룹화하는 6개의 DSPL 데이터 세트에서 정의됩니다. 이러한 개념에 액세스하려면 DSPL XML 파일의 시작 부분에서 적절한 상위 데이터 세트를 가져오기만 하면 됩니다.
표준 개념은 시간을 절약하는 데 도움이 되고 (예: 전 세계 모든 국가의 위도 및 경도 값을 수동으로 입력할 필요가 없음) 데이터를 시각화하는 방법을 알려주기 때문에 유용합니다. 예를 들어 공개 데이터 탐색기는 time:...
개념을 사용하여 선 차트 X축의 형식을 지정하고 entity:entity
개념의 name
속성을 사용하여 측정기준 선택 도구 UI용 문자열을 생성하며 geo:location
의 latitude
및 longitude
속성을 사용하여 지도 시각화에 데이터를 표시하는 등의 작업을 수행합니다.
Public Data Explorer에서 모든 표준 개념을 이해할 수 있나요?
제공된 표준 개념의 대부분은 Public Data Explorer에서 이해할 수 있지만 아직 시각화할 수 없는 개념도 있습니다. 이러한 문제 및 해결 방법은 다음과 같습니다.
개념 | 해결 방법 |
---|---|
quantity:index |
대신 quantity:ratio 또는 quantity:magnitude 를 사용하세요. |
time:quarter |
DSPL 설명서에 설명된 대로 time:month 를 사용합니다. |
time:week |
DSPL 설명서에 설명된 대로 time:day 를 사용합니다. |
앞으로 이러한 개념이 더 잘 지원되니 기대해 주세요.
데이터 세트에서 표준 개념을 사용하려면 어떻게 해야 하나요?
사용하려는 구체적인 개념은 문서를 참조하고 가장 일반적인 개념에 대한 자세한 단계별 안내가 있는 DSPL 설명서를 참조하세요.
데이터 세트 가져오기 및 시각화
데이터 세트를 성공적으로 가져올 수 없는 이유는 무엇인가요?
공개 데이터 탐색기의 업로드 인터페이스가 DSPL 데이터 세트를 스캔하고 오류가 감지되면 가져오기를 차단합니다. 가져오기 도구는 XML 파일의 철자, 대문자 사용(영문), 태그 순서 / 배치, CSV 파일 데이터의 레이아웃 및 정렬에 매우 민감하므로, 이러한 사항을 올바르게 이해하고 데이터 세트를 성공적으로 가져오려면 몇 번의 패스 스루를 거쳐야 할 수 있습니다.
이러한 문제를 해결하는 첫 번째 단계는 UI에 제공된 오류 메시지를 확인하고 적절한 수정 조치를 취하는 것입니다. 이러한 메시지가 항상 이해하기 쉬운 것은 아니기 때문에 (Google에서는 현재 최선을 다해 개선하고 있으며) 가장 일반적인 메시지를 표로 정리했습니다.
오류 | 설명 |
---|---|
중복 키: ... | 개념에 대한 정의 테이블에 반복되는 ID 값(즉, 개념과 이름이 동일한 열의 값)이 있습니다. 이러한 값은 개념의 개별 인스턴스를 고유하게 식별하는 데 사용되므로 중복이 허용되지 않습니다. |
소스에서 데이터 행을 파싱할 때 발생하는 예외로 인해 [...] 속성의 조합이 데이터에서 2개 이상의 고유한 행 그룹에 나타납니다. | CSV가 제대로 정렬되지 않았습니다. 방법에 관한 안내는 위의 토론을 참고하세요. |
잘못된 형식으로 인해 소스에서 데이터 행을 파싱할 때 예외가 발생했습니다. '...'에서 '...'의 형식이 잘못되었습니다. | CSV에서 이 값 (일반적으로 날짜)의 형식이 XML 파일에 지정된 형식과 일치하지 않습니다. 형식 또는 값이 일치하도록 변경하세요. |
행의 요소 수 (...)로 인해 발생한 소스에서 데이터 행을 파싱할 때의 예외가 줄: [...] 줄에 지정된 속성 수(...)와 일치하지 않습니다. | CSV의 행에 값이 너무 많거나 너무 적습니다. 이 행의 형식을 수정하세요. |
입력 문자열: '...'로 인해 소스에서 데이터 행을 파싱할 때 예외가 발생했습니다. | CSV의 값 (일반적으로 정수 또는 부동 소수점 수)에 숫자가 아닌 문자 (예: 달러 기호, 백분율 기호 등)가 있어 올바르게 파싱되지 않습니다. 이러한 추가 문자를 삭제하세요. |
'...' 슬라이스의 '...' 속성 '...' 데이터 값 '...'로 인해 소스에서 데이터 행을 파싱할 때 발생하는 예외가 참조된 개념 '...'의 키 값이 아닙니다. | 슬라이스 중 하나에 인식할 수 없는 크기 값 (예: 해당하는 개념의 가능한 모든 값의 목록에 없는 값). 측정기준 개념 정의 표로 돌아가서 필요한 경우 값을 추가합니다. |
데이터의 헤더 '...'이 표의 상수 속성입니다. | CSV의 열 헤더가 XML 테이블 정의에 정의된 열 ID와 일치하지 않습니다. 둘 중 하나가 일치하도록 변경하세요. |
XML 파싱 오류 ... '...' 요소에서 잘못된 콘텐츠가 발견되었습니다. '{...}', '{...}', ... 중 하나가 필요합니다. | 참조된 XML 요소가 올바른 위치에 있지 않습니다. 순서가 올바른지, 요소의 상위 요소 (예: name 의 경우 info ). |
XML 파싱 오류 ... '...' 속성은 '...' 요소에 표시할 수 없습니다. | 이 XML 태그 속성의 철자, 대소문자, 위치가 잘못되었습니다. 적절한 사용법에 대한 문서를 확인하세요. |
XML 파싱 오류입니다. ... 유형의 콘텐츠 유형이 요소 전용이므로 '...' 요소에는 [children] 문자가 포함될 수 없습니다. | XML 파일에 잘못된 텍스트가 있습니다 (< 또는 > 가 누락된 태그로 인해 발생할 수 있음). 텍스트를 수정하고 다시 시도하세요. |
위 목록에 없는 메시지를 이해하는 데 문제가 있는 경우 DSPL 포럼에 메시지를 게시하면 최선을 다해 도와드리겠습니다.
데이터 세트를 성공적으로 가져오지만 Public Data Explorer에 표시할 시각화를 가져올 수 없습니다. 어떤 문제인가요?
이 문제는 데이터 세트가 유효한 DSPL이지만 Public Data Explorer에서 시각화할 수 있는 DSPL의 하위 집합에 없는 경우에 발생합니다. 여기에는 다양한 원인이 있을 수 있으며 가장 일반적인 원인은 다음과 같습니다.
- 테이블 없이 측정기준 개념 정의: 이 정보가 없으면 공개 데이터 탐색기에서 UI에 어떤 선택사항을 표시할지 알 수 없습니다.
- 측정항목만 있는 데이터 세트 만들기: 공개 데이터 탐색기에 시각화 UI를 올바르게 구조화하려면 데이터 세트의 어딘가에 정의된 범주형 (즉, 시간이 아닌) 측정기준이 하나 이상 필요합니다.
- 슬라이스에 시간 측정기준을 포함하지 않음: Public Data Explorer는 시계열만 시각화할 수 있습니다. 시간 슬라이스가 아닌 슬라이스는 제품에서 무시됩니다.
- 표준
time:...
이외의 시간 측정기준 사용: Public Data Explorer는 표준time
개념을 사용하여 제품의 다양한 시각화를 배치하고 애니메이션 처리합니다. 자체 데이터 세트 내에서 만든 것과 같은 다른 시간 개념은 이해하지 못합니다. - 너무 크거나 너무 작은 시간 값 사용: Public Data Explorer는 아직 1일 미만의 시간 단위로 데이터 세트를 시각화하지 않습니다. 반면에 연도 값 (예: 수만 개)이 매우 큰 데 문제가 있습니다. 향후 이러한 세부사항을 보다 유연하게 만들기 위해 노력하고 있습니다.
시각화된 데이터 세트를 웹사이트에 통합하려면 어떻게 해야 하나요?
Public Data Explorer 고객센터에서 이 도움말을 참조하세요. 후자의 설명처럼 삽입 URL을 수동으로 조정하여 '전체 삽입' (즉, 탐색 분석 컨트롤이 포함된 URL)을 가져올 수 있습니다.