데이터세트

이름, 설명, 작성자, 배포 형식 등의 지원 정보를 구조화된 데이터로 제공하면 데이터세트를 더 쉽게 찾을 수 있습니다. Google은 데이터세트 탐색을 위해 schema.org와 함께 페이지에 추가하여 데이터세트를 설명할 수 있는 기타 메타데이터 표준을 활용하는 접근방식을 선택합니다. 이 마크업의 목적은 생명과학, 사회과학, 머신러닝, 시민 및 정부 데이터와 같은 분야의 데이터세트 탐색을 개선하는 것입니다.

다음은 데이터세트의 조건을 충족할 수 있는 몇 가지 예입니다.

  • 일부 데이터가 포함된 표 또는 CSV 파일
  • 정리된 표 모음
  • 데이터가 포함된 고유한 형식의 파일
  • 함께 의미 있는 데이터세트를 구성하는 파일 모음
  • 처리를 위해 특별한 도구로 로드할 수 있는 다른 형식의 데이터가 포함된 구조화된 개체
  • 데이터가 포함된 이미지
  • 학습된 매개변수나 신경망 구조 정의 등 머신러닝과 관련된 파일
  • 데이터세트로 보이는 모든 파일

데이터세트 탐색을 위한 Google의 접근방식

Google은 schema.org 데이터세트 마크업 또는 이와 동등하게 W3CDCAT(Data Catalog Vocabulary) 형식에 명시된 구조를 사용하는 데이터세트에 관한 웹페이지의 구조화된 데이터를 이해할 수 있습니다. 또한 W3C CSVW를 기반으로 구조화된 데이터를 위한 실험 지원 방법을 계속 찾고 있으며, 데이터세트 설명을 위한 권장사항이 생겨나면서 Google의 접근방식은 더 진화하고 조정될 것입니다. 데이터세트 탐색을 위한 Google의 접근방식을 자세히 알아보려면 공개 데이터세트 쉽게 탐색하기를 참조하세요.

다음은 구조화된 데이터용 테스트 도구에서 JSON-LD 구문(권장)을 사용하는 데이터세트의 예입니다. RDFa 1.1, Microdata 또는 W3C DCAT 용어에도 동일한 용어를 사용할 수 있습니다. 아래의 예는 실제 데이터세트 설명을 기반으로 합니다.

JSON-LD

다음은 JSON-LD의 데이터세트 예입니다.

RDFa

다음은 RDFa 데이터세트의 예입니다.

가이드라인

사이트는 구조화된 데이터 가이드라인을 준수해야 합니다. 구조화된 데이터 가이드라인 외에도 아래 명시된 사이트맵소스 및 출처 권장사항을 따르는 것이 좋습니다.

사이트맵 권장사항

사이트맵 파일을 사용하여 Google에서 URL을 찾을 수 있게 하세요. 사이트맵 파일과 sameAs 마크업을 사용하면 데이터세트 설명이 사이트 전체에 게시되는 방식을 기록하는 데 도움이 됩니다.

데이터세트 저장소가 있는 경우 각 데이터세트의 표준('방문') 페이지와 여러 데이터세트(예: 검색결과 또는 데이터세트의 일부 하위 세트)가 나열된 페이지 등 최소 두 가지 유형의 페이지가 있을 수 있습니다. 데이터세트에 관한 구조화된 데이터를 표준 페이지에 추가하는 것이 좋습니다. 검색결과 페이지의 목록과 같이 여러 개의 데이터세트 사본에 구조화된 데이터를 추가하는 경우 sameAs 속성을 사용하여 표준 페이지에 연결하세요.

소스 및 출처 권장사항

오픈 데이터세트가 재게시되고, 집계되며, 다른 데이터세트를 기반으로 하는 것은 일반적인 일입니다. 이는 데이터세트가 다른 데이터세트의 사본이거나 다른 데이터세트를 기반으로 하는 상황을 나타내는 Google의 기본 접근방식과 일치합니다.

  • 다른 곳에 게시된 자료를 단순히 데이터세트 또는 설명으로 재게시하는 경우 sameAs 속성을 사용하여 원본에 가장 가까운 표준 URL을 지정합니다.
  • 재게시한 데이터세트(메타데이터 포함)가 크게 변경된 경우 isBasedOn 속성을 사용합니다.
  • 데이터세트가 여러 원본에서 파생되거나 여러 원본을 집계하는 경우 isBasedOn 속성을 사용합니다.
  • identifier 속성을 사용하여 적절한 디지털 개체 식별자(DOI) 또는 컴팩트 식별자를 연결합니다. 데이터세트에 식별자가 둘 이상 있는 경우 identifier 속성을 반복합니다. JSON-LD를 사용하는 경우 JSON 목록 구문을 사용하여 표현됩니다.

Google에서는 다양한 의견을 바탕으로 권장사항을 개선하고자 하며, 특히 출처의 설명과 버전 관리 및 시계열 게시와 관련된 날짜에 관한 의견을 기다리고 있습니다. 커뮤니티 토론에 참여해 주세요.

텍스트 속성 권장사항

모든 텍스트 입력란은 5,000자(영문기준) 이하로 제한하는 것이 좋습니다. Google 데이터세트 검색에서는 텍스트 입력란의 첫 5,000자만 사용합니다. 이름과 제목은 일반적으로 단어 몇 개 또는 짧은 문구로 이루어집니다.

알려진 오류 및 경고

Google의 구조화된 데이터용 테스트 도구 및 기타 유효성 검사 시스템에서 오류 또는 경고가 표시될 수 있습니다. 특히 유효성 검사 시스템에서 조직에 contactType을 포함한 연락처 정보가 있어야 한다고 제안할 수 있습니다. 유용한 값에는 customer service, emergency, journalist, newsroom, public engagement가 포함됩니다. 또한 mainEntity 속성의 예기치 않은 값으로 발생하는 csvw:Table 오류도 무시해도 됩니다.

구조화된 데이터 유형 설명

리치 결과에 콘텐츠를 표시하려면 필수 속성이 있어야 합니다. 권장 속성을 통해 콘텐츠에 관한 정보를 추가하여 더욱 만족스러운 사용자 환경을 제공할 수 있습니다.

구조화된 데이터용 테스트 도구를 사용하여 마크업의 유효성을 검사할 수 있습니다.

핵심은 데이터세트(메타데이터 포함)에 관한 정보를 설명하고 콘텐츠를 나타내는 것입니다. 예를 들어 데이터세트 메타데이터는 무엇에 관한 데이터세트인지, 어떤 변수를 측정하는지, 누가 작성했는지 등을 기술하며 변수에 관한 특정 값을 포함하지는 않습니다.

Dataset

Dataset의 전체 정의는 schema.org/Dataset에서 확인할 수 있습니다.

데이터세트의 게시에 관한 추가 정보를 기술할 수 있습니다. 예를 들어 데이터세트가 게시된 경우 라이선스, 데이터세트의 DOI 또는 다른 저장소에 있는 데이터세트의 표준 버전으로 연결되는 sameAs 등의 정보를 포함할 수 있습니다. 출처 및 라이선스 정보를 제공하는 데이터세트의 identifier, licensesameAs를 추가하세요.

필수 속성
description Text

데이터세트의 간단한 요약 설명입니다.

가이드라인

  • 요약은 50~5,000자(영문기준) 사이여야 합니다.
  • 요약에는 Markdown 구문이 포함될 수 있습니다. 삽입된 이미지는 상대 경로가 아닌 절대 경로 URL을 사용해야 합니다.
  • JSON-LD 형식 사용 시 \n(2개 문자: 백 슬래시와 소문자 'n')으로 새 행을 나타냅니다.
name Text

데이터세트를 설명하는 이름입니다. 예: '북반구의 눈깊이'

권장 속성
alternateName Text

별칭이냐 약어와 같이 이 데이터세트를 나타내는 다른 이름입니다. 예를 들면 다음과 같습니다(JSON-LD 형식).

"name": "The Quick, Draw! Dataset"
"alternateName": ["Quick Draw Dataset", "quickdraw-dataset"]
citation Text 또는 CreativeWork

데이터 제공자가 데이터세트에 추가하여 인용을 권장하는 학술 자료를 나타냅니다. name, identifier, creator, publisher 필드 등의 다른 필드와 함께 데이터세트에 관한 인용을 제공합니다. 예를 들어 이 필드는 데이터 설명어, 데이터 페이퍼, 이 데이터세트가 보충 자료로 사용되는 문서와 같은 관련 학술지를 고유하게 식별할 수 있습니다. 예를 들면 다음과 같습니다(JSON-LD 형식).

"citation": "https://doi.org/10.1111/111"
"citation": "https://identifiers.org/pubmed:11111111"
"citation": "https://identifiers.org/arxiv:0111.1111v1"
"citation":
 "Doe J (2014) Influence of X ... https://doi.org/10.1111/111"

추가 가이드라인

  • 데이터세트 자체에 관한 인용 정보 제공을 위해 이 필드를 사용하지 마세요. 데이터세트 자체가 아닌 관련 학술 자료를 식별하기 위한 것입니다. 데이터세트 자체를 인용하는 데 필요한 정보를 제공하려면 name, identifier, creator, publisher 필드를 대신 사용하세요.
  • 인용 스니펫으로 인용 필드를 채울 때 가능하다면 문서 식별자(DOI 등)를 제공하세요.

    권장: 'Doe J (2014) X. Biomics 1(1)의 영향을 받음 https://doi.org/10.1111/111'

    권장하지 않음: 'Doe J (2014) X. Biomics 1(1)의 영향을 받음'

identifier URL, Text 또는 PropertyValue

DOI 또는 Compact Identifier와 같은 식별자: 데이터세트에 식별자가 둘 이상 있는 경우 identifier 속성을 반복합니다. JSON-LD를 사용하는 경우 JSON 목록 구문을 사용하여 표현됩니다.

keywords Text

데이터세트를 요약하는 키워드입니다.

license URL, Text

데이터세트 배포에 적용되는 라이선스입니다.

sameAs URL

보통 다른 저장소의 동일한 데이터세트에 관한 추가 정보를 제공하는 페이지의 링크입니다.

spatialCoverage Text, Place

데이터세트의 공간적 측면을 나타내는 하나의 지점을 제공할 수 있습니다. 데이터세트에 공간 차원이 있는 경우에만 이 속성을 포함합니다. 예를 들면 모든 측정값이 수집된 위치 또는 영역의 경계 상자 좌표를 나타내는 단일 지점입니다.

지점

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

도형

GeoShape를 사용하여 여러 모양의 영역을 나타냅니다. 예를 들어 경계 상자를 지정할 수 있습니다.

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

box, circle, line, polygon 속성 내 지점은 위도 및 경도(순서 유지)에 해당하는 두 값을 공백으로 분리한 쌍으로 표현되어야 합니다.

이름이 지정된 위치

"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

데이터세트의 데이터가 특정 시간 간격을 나타냅니다. 데이터세트에 시간 차원이 있는 경우에만 이 속성을 포함합니다. Schema.org에서는 ISO 8601 표준을 사용하여 시간 간격 및 시점을 나타냅니다. 데이터세트 간격에 따라 날짜를 다르게 기술할 수 있습니다. 두 개의 소수점(..)은 종료 시점이 없는 간격을 나타냅니다.

단일 날짜

"temporalCoverage" : "2008"

기간

"temporalCoverage" : "1950-01-01/2013-12-18"

종료 시점이 없는 기간

"temporalCoverage" : "2013-12-19/.."
variableMeasured Text, PropertyValue

데이터세트가 측정하는 변수입니다. 예: 온도 또는 압력

version Text, Number

데이터세트의 버전 번호입니다.

url URL

데이터세트를 설명하는 페이지의 위치입니다.

DataCatalog

DataCatalog의 전체 정의는 schema.org/DataCatalog에서 확인할 수 있습니다.

데이터세트는 여러 개의 다른 데이터세트가 포함된 저장소에 게시되는 경우가 많습니다. 동일한 데이터세트가 두 개 이상의 저장소에 포함될 수도 있습니다. 데이터세트를 직접 참조하여 데이터세트가 속한 데이터 카탈로그를 참조할 수 있습니다.

권장 속성
includedInDataCatalog DataCatalog

데이터세트가 속한 카탈로그입니다.

DataDownload

DataDownload의 전체 정의는 schema.org/DataDownload에서 확인할 수 있습니다. 다운로드 옵션을 제공하는 데이터세트에는 데이터세트 속성 외에 다음 속성도 추가하세요.

URL이 데이터세트를 설명하는 방문 페이지로 연결되는 경우가 많으므로 distribution 속성은 데이터세트 자체를 가져오는 방법을 설명합니다. distribution 속성은 데이터를 가져올 위치와 형식을 설명합니다. 이 속성은 여러 값을 가질 수 있습니다. 예를 들면 CSV 버전에 하나의 URL이 있고 Excel 버전에 다른 URL을 사용할 수 있습니다.

필수 속성
distribution.contentUrl URL

다운로드 링크입니다.

속성
distribution DataDownload

데이터세트의 다운로드 위치 및 다운로드 파일 형식에 관한 설명입니다.

distribution.fileFormat Text

배포 파일 형식입니다.

표 형식 데이터세트

표 형식 데이터세트는 주로 행과 열의 격자 모양 형태로 구성된 데이터세트입니다. 표 형식 데이터세트를 삽입하는 페이지의 경우 위에 설명된 기본 방법에 따라 더욱 명확한 마크업을 만들 수도 있습니다. 현재 HTML 페이지에서 사용자 중심의 표 형식 콘텐츠와 함께 제공되는 CSVW('CSV on the Web', W3C 참조)의 변형이 인식됩니다.

다음 예는 CSVW JSON-LD 형식으로 인코딩된 작은 표를 보여줍니다. 구조화된 데이터용 테스트 도구에 몇 가지 알려진 오류가 있습니다.

도움말 및 도구

다음에 대한 의견 보내기...