커뮤니티 커넥터를 빌드할 때 스키마에서 정의하는 각 필드에는 데이터 유형이 필요합니다. 데이터 유형은 BOOLEAN, STRING, NUMBER 등과 같은 필드의 기본 유형을 정의합니다.
데이터 유형 외에도 데이터 스튜디오는 시맨틱 유형을 사용합니다.
시맨틱 유형은 데이터가 나타내는 정보의 종류를 설명하는 데 도움이 됩니다. 예를 들어 NUMBER 데이터 유형의 필드는 시맨틱하게 통화 금액 또는 백분율을 나타낼 수 있으며 STRING 데이터 유형의 필드는 시맨틱하게 도시를 나타낼 수 있습니다. 사용 가능한 시맨틱 유형을 확인하려면
시맨틱 유형 문서를 참고하세요.
커뮤니티 커넥터 스키마 및 데이터 스튜디오 필드
커뮤니티 커넥터의 스키마를 정의할 때 각 필드에는 데이터 스튜디오에서 필드가 표시되고 사용되는 방식을 결정하는 다양한 속성이 있습니다. 예를 들면 다음과 같습니다.
- conceptType은
커넥터 스키마에서
conceptType속성을 사용하여 정의됩니다. 이 속성은 필드가 측정기준으로 처리되는지 측정항목으로 처리되는지 결정합니다. 측정항목과 측정기준의 차이점에 대한 설명은 다음 측정기준 및 측정항목을 참고하세요. - 시맨틱 유형은 커넥터 스키마에서 정의하거나 커넥터에 정의된 데이터 유형 속성 및 커넥터에서 반환된 데이터 값을 기반으로 데이터 스튜디오에서 자동으로 감지할 수 있습니다. 작동 방식에 관한 자세한 내용은 자동 시맨틱 유형 감지를 참고하세요.
- 집계 유형 은 측정항목 값 (측정기준은 무시됨)을 다시 집계할 수 있는지 결정합니다.
semantics.isReaggregatable속성을true로 설정하면 기본적으로SUM집계가 사용되고, 그렇지 않으면Auto로 설정됩니다. `defaultAggregationType` 속성을 사용하여 다시 집계할 수 있는 필드의 기본 집계 유형을 수동으로 설정할 수도 있습니다.defaultAggregationType
데이터 스튜디오에서 커넥터를 사용하여 구성하고 연결하면 필드 편집기에 위에서 정의한 속성을 기반으로 커넥터의 전체 스키마가 표시됩니다. 시맨틱 유형을 포함한 경우 정의한 대로 표시됩니다. 자동 시맨틱 유형 감지를 사용하는 경우 필드가 감지된 대로 표시됩니다.
시맨틱 정보 설정
시맨틱 정보를 설정하는 방법에는 두 가지가 있습니다. 필드 시맨틱스를 수동으로 설정하거나 데이터 스튜디오에서 자동으로 감지하도록 할 수 있습니다.
예를 들어 시맨틱하게 미국 달러를 나타내는 숫자가 있는 경우 데이터 스튜디오에서 이 시맨틱 유형을 자동으로 감지할 수 없습니다. 또한 자동 시맨틱 감지를 사용하려면 데이터 스튜디오에서 스키마의 각 필드에 데이터 가져오기 호출을 실행해야 합니다. 대신 스키마를 수동으로 지정하면 데이터 가져오기 호출이 실행되지 않습니다. 데이터의 시맨틱 유형 (예: 통화, 백분율, 날짜 등)을 알고 있는 경우 정확성과 성능을 위해 스키마에서 명시적으로 설정하는 것이 좋습니다.
시맨틱 유형 수동 설정 (권장)
시맨틱 유형을 알고 있는 경우 각 스키마 필드에 semantics를 수동으로 정의할 수 있습니다. 사용 가능한 속성에 관한 자세한 내용은
필드 참조 페이지를 참고하세요. 수동 시맨틱 유형을 정의하려면 모든 필드에 semanticType 및 semanticGroup을 정의하는 것이 좋습니다. 이러한 속성을 수동으로 제공하면 자동 시맨틱 유형 감지 프로세스가 실행되지 않습니다. 일부 필드만 수동으로 설정하고 일부는 설정하지 않으면 지정하지 않은 필드는 필드에 지정된 dataType에 따라 기본적으로 Text, Number 또는 Boolean으로 설정됩니다.
다음은 시맨틱 유형을 수동으로 설정하는 간단한 스키마의 예입니다. Income은 통화로 설정되고 Filing Year는 날짜로 설정됩니다.
수동 시맨틱 유형 문제 해결
기본 데이터의 시맨틱 유형을 잘못 설정하면 제대로 작동하지 않습니다. 테스트하기 어려울 수 있지만 문제를 찾는 데 도움이 되는 몇 가지 방법이 있습니다.
- 데이터 전체가 아닌 2~3개의 행을 반환한 후 수동으로 검사합니다.
- 확인하려는 필드만 사용하는 테이블을 데이터 스튜디오에서 만듭니다.
- 가장 엄격한 형식이 있는
Geo및Date필드에 주의하세요.
자동 시맨틱 유형 감지
스키마에 시맨틱 유형을 정의하지 않은 경우 데이터 스튜디오 는 데이터 유형 속성 및 커넥터에서 반환된 데이터 값의 형식 을 기반으로 시맨틱 유형을 자동으로 감지하려고 시도합니다.
자동 감지 프로세스의 단계는 다음과 같습니다.
- 커뮤니티 커넥터의
getSchema함수를 실행하여 스키마를 요청합니다. - 커넥터 스키마에 정의된 필드 배치를 반복하고 필드에
getData요청을 실행합니다.getData요청은 데이터 요청이 시맨틱 감지를 위한 것임을 나타내기 위해sampleExtraction매개변수가true로 설정된 상태로 실행됩니다. - 필드 데이터 유형 및
getData요청에서 반환된 값의 형식을 기반으로 필드의 시맨틱 유형을 식별합니다.
자동 시맨틱 유형 감지 처리 옵션
데이터 스튜디오가 시맨틱 감지를 위해 커뮤니티 커넥터의 getData 함수를 실행하면 수신 요청에 sampleExtraction 속성이 포함되며 이 속성은 true로 설정됩니다. 커넥터에서 반환된 데이터는 데이터 스튜디오에서 필드의 시맨틱 유형을 식별하는 데만 사용됩니다. 값은 다른 용도로 사용되지 않으므로 외부 소스의 실제 데이터가 필요하지 않습니다.
코드에서 시맨틱 유형 감지를 개선하는 방법에는 여러 가지가 있습니다.
권장: 미리 정의된 값 전달
필드의 시맨틱 유형을 가장 잘 나타내고 데이터 스튜디오에서 올바르게 감지되는 것으로 알려진 각 필드의 미리 정의된 값을 반환합니다. 예를 들어 필드의 시맨틱 유형이 국가 인 경우 이탈리아의 값(예:IT)을 반환합니다. 이 접근 방식의 또 다른 이점은 데이터에 대해 서드 파티 서비스에 HTTP 요청을 실행할 필요가 없으므로 훨씬 빠르다는 것입니다.n 개의 레코드만 반환
데이터를 가져오는 서드 파티 서비스에서 데이터를 요청할 때 행 제한을 지원하는 경우 전체 데이터 세트 대신 데이터 스튜디오에 작은 행 하위 집합을 반환합니다. 이렇게 하면 각 시맨틱 감지 요청에 대해 데이터 스튜디오에 전달해야 하는 데이터의 양이 제한됩니다.모든 열을 요청하고 응답을 캐시
데이터를 가져오는 서드 파티 서비스의 모든 열을 요청할 수 있는 경우 데이터 스튜디오에서 수신한 첫 번째 시맨틱 감지 요청에서 모든 열을 가져오고 결과를 캐시합니다. 후속 시맨틱 감지 요청의 경우 서드 파티 서비스에 추가 HTTP 요청을 실행하는 대신 캐시에서 열 값을 가져옵니다.다른 작업 없음
이(가)true으로 설정된 요청에 대해 특정 조정사항을 구현하지 않도록 선택할 수 있습니다.sampleExtraction이렇게 하면 데이터 스튜디오에서 시맨틱 감지 프로세스의 모든 데이터를 가져와야 하므로 시맨틱 감지 프로세스가 느려집니다. 또한 많은 시맨틱 감지 요청이 동시에 실행되므로 외부 데이터 소스의 요청 비율에 영향을 미칩니다.
자동 시맨틱 유형 감지를 위해 인식되는 형식
날짜 및 시간
YYYY/MM/DD-HH:MM:SSYYYY-MM-DD [HH:MM:SS[.uuuuuu]]YYYY/MM/DD [HH:MM:SS[.uuuuuu]]YYYYMMDD [HH:MM:SS[.uuuuuu]]Sat, 24 May 2008 20:09:47 GMT2008-05-24T20:09:47Z- 시간: 초, 마이크로, 밀리, 나노의 에포크
지역
- 대륙 이름 또는 코드
- 아대륙 이름 또는 코드
- 지역 이름 또는 코드
- 국가 이름 또는 코드. ISO_3166-1도 참고하세요.
- 도시 이름
- 쉼표로 구분된 위도 및 경도 값
- 지정 시장 지역 (DMA) 이름 및 코드