Conjunto de datos

Los conjuntos de datos son más fáciles de encontrar cuando proporcionas información de apoyo (por ejemplo, su nombre, descripción, creador y formatos de distribución) como datos estructurados. El enfoque de Google con respecto al descubrimiento de conjuntos de datos es emplear schema.org y otros estándares de metadatos que se pueden añadir a las páginas que describen conjuntos de datos. El propósito de estas etiquetas es mejorar el descubrimiento de conjuntos de datos de campos como las ciencias de la vida, las ciencias sociales, el aprendizaje automático, los datos de la comunidad y gubernamentales, etc. Para encontrar conjuntos de datos, utiliza la herramienta Búsqueda de Datasets.

ejemplo de Búsqueda de Datasets

A continuación se muestran algunos ejemplos que pueden considerarse conjuntos de datos:

  • Una tabla o un archivo CSV con algunos datos.
  • Una colección organizada de tablas.
  • Un archivo en un formato de propiedad que contiene datos.
  • Una colección de archivos que, juntos, constituyen un conjunto de datos representativo.
  • Un objeto estructurado con datos en algún otro formato que quizás quieras cargar en una herramienta especial de procesamiento.
  • Datos de capturas de imágenes.
  • Archivos relacionados con el aprendizaje automático, como parámetros entrenados o definiciones de estructura de red neuronal.
  • Cualquier cosa que consideres un conjunto de datos.

Nuestro enfoque con respecto al descubrimiento de conjuntos de datos

Podemos interpretar los datos estructurados en páginas web sobre conjuntos de datos con etiquetas de conjunto de datos schema.org o estructuras equivalentes representadas en el formato Catálogo de datos de vocabulario (DCAT) de W3C. También estamos explorando una compatibilidad experimental con datos estructurados basados en W3C CSVW, y esperamos avanzar y adaptar nuestro enfoque a medida que surjan prácticas recomendadas para describir conjuntos de datos. Para obtener más información sobre nuestro enfoque sobre el descubrimiento de conjuntos de datos, consulta cómo facilitar su descubrimiento.

Ejemplos

A continuación se muestra un ejemplo de conjuntos de datos que usan la sintaxis JSON-LD (preferida) en la Herramienta de prueba de datos estructurados. El mismo vocabulario también se puede usar en el vocabulario RDFa 1.1, microdatos o W3C DCAT. El siguiente ejemplo se basa en una descripción del conjunto de datos del mundo real.

JSON-LD

A continuación se muestra un ejemplo de un conjunto de datos en JSON-LD:

RDFa

A continuación se muestra un ejemplo de un conjunto de datos en RDFa:

Directrices

Los sitios web deben seguir las directrices de datos estructurados, y además recomendamos las prácticas recomendadas de sitemaps y de fuentes y procedencias incluidas a continuación.

Prácticas recomendadas de sitemaps

Usa un archivo de sitemap para ayudar a Google a encontrar tus URL. Si usas archivos de sitemap y las etiquetas sameAs, te será más fácil documentar cómo se publican las descripciones del conjunto de datos en todo el sitio web.

Si tienes un repositorio de conjuntos de datos, es probable que tengas al menos dos tipos de páginas: páginas canónicas ("de destino") de cada conjunto de datos, y páginas que enumeran múltiples conjuntos de datos (por ejemplo, resultados de búsqueda o algún subconjunto de conjuntos de datos). Te recomendamos que añadas datos estructurados sobre un conjunto de datos a las páginas canónicas. Usa la propiedad sameAs para enlazar a la página canónica si añades datos estructurados a varias copias del conjunto de datos, como fichas en las páginas de resultados de búsqueda.

Prácticas recomendadas sobre fuentes y procedencias

Es habitual que los conjuntos de datos abiertos se vuelvan a publicar, se acumulen y se basen en otros conjuntos de datos. Este es un esquema inicial de nuestro enfoque para representar situaciones en las que un conjunto de datos es una copia de otro conjunto de datos o se basa en él.

  • Usa la propiedad sameAs para indicar las URL más canónicas del original en los casos en que el conjunto de datos o la descripción sea solamente una nueva publicación de materiales publicados en otro lugar. El valor de sameAs debe indicar de forma inequívoca la identidad del conjunto de datos, es decir, dos conjuntos de datos distintos no deben utilizar la misma URL que el valor sameAs.
  • Usa la propiedad isBasedOn en los casos en que el conjunto de datos que se ha vuelto a publicar (incluidos sus metadatos) haya cambiado significativamente.
  • Cuando un conjunto de datos deriva de varios originales o los acumula, usa la propiedad isBasedOn.
  • Con la propiedad identifier, puedes adjuntar cualquier identificador de objeto digital (DOI) o identificador compacto. Si el conjunto de datos tiene más de un identificador, repite la propiedad identifier. Si usas JSON-LD, esto se representa mediante la sintaxis de lista JSON.

Esperamos mejorar nuestras recomendaciones a partir de los comentarios, en particular en torno a la descripción de procedencia, al control de versiones y a las fechas asociadas con la publicación de series temporales. Únete a las conversaciones de la comunidad.

Recomendaciones de propiedad textual

Recomendamos limitar todas las propiedades textuales a un máximo de 5000 caracteres. Google Búsqueda de Datasets solo usa los primeros 5000 caracteres de las propiedades textuales. Los nombres y títulos suelen ser unas pocas palabras o una oración corta.

Errores conocidos y advertencias

Es posible que veas errores o advertencias en la Herramienta de prueba de datos estructurados de Google y otros sistemas de validación. Concretamente, los sistemas de validación pueden sugerir que las organizaciones deben tener información de contacto, incluido un tipo de contactType; entre valores útiles se incluyen customer service, emergency, journalist, newsroom y public engagement. También puedes ignorar los errores que indican que csvw:Table es un valor inesperado en la propiedad mainEntity.

Definiciones de tipos de datos estructurados

Debes incluir las propiedades obligatorias para que tu contenido pueda mostrarse como un resultado enriquecido. También puedes incluir las propiedades recomendadas para añadir más información sobre tu contenido, lo que puede ayudar a mejorar la experiencia de usuario.

Puedes usar la Herramienta de prueba de datos estructurados para validar las etiquetas.

El objetivo es describir información sobre un conjunto de datos (sus metadatos) y representar su contenido. Por ejemplo, los metadatos del conjunto de datos indican de qué se trata el conjunto de datos, qué variables mide, quién lo ha creado, etc., y no contiene, por poner un caso, valores específicos en las variables.

Dataset

La definición completa de Dataset está disponible en schema.org/Dataset.

Puedes describir información adicional sobre la publicación del conjunto de datos, como la licencia, cuándo se publicó, su DOI o un valor sameAs que apunta a una versión canónica del conjunto de datos en un repositorio diferente. Añade identifier, license y sameAs a los conjuntos de datos que proporcionan información de procedencia y licencia.

Propiedades obligatorias
description Text

Es un resumen breve que describe un conjunto de datos.

Directrices

  • El resumen debe tener una longitud de entre 50 y 5000 caracteres.
  • El resumen puede incluir la sintaxis Markdown. Las imágenes insertadas deben usar URLs de ruta absoluta (en lugar de rutas relativas).
  • Cuando utilices el formato JSON-LD, indica las líneas nuevas con \n (dos caracteres: barra invertida y letra minúscula "n").
name Text

Es el nombre descriptivo de un conjunto de datos. Por ejemplo, "Acumulación de nieve en el hemisferio norte".

Propiedades recomendadas
alternateName Text

Son nombres alternativos que se han utilizado para hacer referencia a este conjunto de datos, como alias o abreviaturas. Ejemplo (en formato JSON-LD):


"name": "The Quick, Draw! Dataset"
"alternateName": ["Quick Draw Dataset", "quickdraw-dataset"]
creator Person o Organization

Es el creador o autor de este conjunto de datos. Para identificar de forma exclusiva a las personas, usa ORCID ID como el valor de la propiedad sameAs del tipo Person. Para identificar de manera única las instituciones y organizaciones, usa ROR ID. Ejemplo (en formato JSON-LD):


"creator": [
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0000",
        "givenName": "Jane",
        "familyName": "Foo",
        "name": "Jane Foo"
    },
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0001",
        "givenName": "Jo",
        "familyName": "Bar",
        "name": "Jo Bar"
    },
    {
        "@type": "Organization",
        "sameAs": "http://ror.org/xxxxxxxxx",
        "name": "Fictitious Research Consortium"
    }
]
citation Text o CreativeWork

Identifica los artículos académicos recomendados por el proveedor de datos que se citan además del conjunto de datos en sí. Proporciona la cita del conjunto de datos con otras propiedades, como name, identifier, creator y publisher. Por ejemplo, esta propiedad puede identificar de forma exclusiva una publicación académica relacionada, como un descriptor de datos, un documento de datos o un artículo para el que este conjunto de datos es material complementario. Ejemplos (en formato JSON-LD):


"citation": "https://doi.org/10.1111/111"

"citation": "https://identifiers.org/pubmed:11111111"

"citation": "https://identifiers.org/arxiv:0111.1111v1"

"citation":
 "Doe J (2014) Influence of X ... https://doi.org/10.1111/111"

Directrices adicionales

  • No uses esta propiedad para proporcionar información de citas en el conjunto de datos en sí. Su objetivo es identificar artículos académicos relacionados, no el conjunto de datos en sí. Para proporcionar la información necesaria para citar el conjunto de datos, usa mejor las propiedades name, identifier, creator y publisher.
  • Cuando completes la propiedad de cita con un fragmento de cita, proporciona el identificador del artículo (como un DOI) siempre que sea posible.

    Recomendado: "Doe J (2014) Influence of X. Biomics 1(1). https://doi.org/10.1111/111"

    No recomendado: "Doe J (2014) Influence of X. Biomics 1(1)."

hasPart o isPartOf URL o Dataset

Si el conjunto de datos es una colección de conjuntos de datos más pequeños, indica la relación con la propiedad hasPart; por el contrario, si el conjunto de datos forma parte de un conjunto de datos más grande, usa isPartOf. Ambas propiedades pueden adoptar el formato de una URL o de una instancia Dataset. En el caso de que se utilice Dataset como valor, debe incluir todas las propiedades obligatorias para un Dataset independiente. Ejemplos:


"hasPart" : [
  {
    "@type": "Dataset",
    "name": "Sub dataset 01",
    "description": "Informative description of the first subdataset...",
    "license" : "https://creativecommons.org/publicdomain/zero/1.0/"
  },
  {
    "@type": "Dataset",
    "name": "Sub dataset 02",
    "description": "Informative description of the second subdataset...",
    "license" : "https://creativecommons.org/publicdomain/zero/1.0/"
  }
]

"isPartOf" : "https://example.com/aggregate_dataset"
identifier URL, Text, o PropertyValue

Es un identificador, como un DOI, o un identificador compacto. Si el conjunto de datos tiene más de un identificador, repite la propiedad identifier. Si usas JSON-LD, esto se representa mediante la sintaxis de lista JSON.

keywords Text

Son palabras clave que resumen el conjunto de datos.

license URL, CreativeWork

Indica una licencia con la que se distribuye el conjunto de datos. Por ejemplo:


"license" : "https://creativecommons.org/publicdomain/zero/1.0/"

"license" : {
  "@type": "CreativeWork",
  "name": "Custom license",
  "url": "https://example.com/custom_license"
  }

Directrices adicionales

  • Proporciona una URL que identifique inequívocamente una versión específica de la licencia utilizada.

    Recomendado

    
    "license" : "https://creativecommons.org/licenses/by/4.0"

    No recomendado

    
    "license" : "https://creativecommons.org/licenses/by"
sameAs URL

URL de una página web de referencia que indica inequívocamente la identidad del conjunto de datos, normalmente en otro repositorio.

spatialCoverage Text, Place

Puedes proporcionar un único punto que describa el aspecto espacial del conjunto de datos. Incluye esta propiedad solo si el conjunto de datos tiene una dimensión espacial. Por ejemplo, un punto único donde se recopilaron todas las mediciones, o las coordenadas de un cuadro delimitador de un área.

Puntos


"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

Formas

Usa GeoShape para describir áreas de diferentes formas. Por ejemplo, para especificar un cuadro delimitador.


"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

Los puntos dentro de las propiedades box, circle, line o polygon deben expresarse como un par de dos valores separados por espacios correspondientes a la latitud y la longitud (en ese orden).

Ubicaciones con nombre


"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

Los datos en el conjunto de datos cubren un intervalo de tiempo específico. Incluye esta propiedad solo si el conjunto de datos tiene una dimensión temporal. Schema.org utiliza el estándar ISO 8601 para describir intervalos de tiempo y puntos de tiempo. Puedes describir las fechas de manera diferente según el intervalo del conjunto de datos. Indica intervalos abiertos con dos puntos decimales (..).

Fecha única


"temporalCoverage" : "2008"

Periodo


"temporalCoverage" : "1950-01-01/2013-12-18"

Periodo abierto


"temporalCoverage" : "2013-12-19/.."
variableMeasured Text, PropertyValue

Indica la variable que mide este conjunto de datos. Por ejemplo, temperatura o presión.

version Text, Number

Es el número de versión del conjunto de datos.

url URL

Indica la ubicación de una página que describe el conjunto de datos.

DataCatalog

Puedes consultar la definición completa de DataCatalog en schema.org/DataCatalog.

Los conjuntos de datos a menudo se publican en repositorios que contienen muchos otros conjuntos de datos. El mismo conjunto de datos se puede incluir en más de uno de estos repositorios. Puedes hacer referencia directa a un catálogo de datos al que pertenece este conjunto de datos.

Propiedades recomendadas
includedInDataCatalog DataCatalog

Es el catálogo al que pertenece el conjunto de datos.

DataDownload

Puedes consultar la definición completa de DataDownload en schema.org/DataDownload. Además de las propiedades del conjunto de datos, añade las siguientes propiedades para los conjuntos de datos que proporcionan opciones de descarga.

La propiedad distribution describe cómo obtener el conjunto de datos en sí porque la URL a menudo apunta a la página de destino que describe el conjunto de datos. La propiedad distribution describe dónde obtener los datos y en qué formato. Esta propiedad puede tener varios valores; por ejemplo, una versión CSV tiene una URL y una versión de Excel está disponible en otra.

Propiedades obligatorias
distribution.contentUrl URL

Indica el enlace para realizar la descarga.

Propiedades recomendadas
distribution DataDownload

Es la descripción de la ubicación para descargar el conjunto de datos y el formato de archivo de la descarga.

distribution.encodingFormat Text, URL

Indica el formato de archivo de la distribución.

Conjuntos de datos tabulares

Un conjunto de datos tabular es un conjunto organizado principalmente a partir de una cuadrícula de filas y columnas. En el caso de las páginas que incorporan conjuntos de datos tabulares, también puedes crear etiquetas más explícitas, basándose en el enfoque básico que se ha descrito anteriormente. En estos momentos, comprendemos una variación de CSVW ("CSV en la Web", consulta W3C), que se proporciona en paralelo al contenido tabular orientado al usuario en la página HTML.

A continuación se proporciona un ejemplo que muestra una pequeña tabla codificada en formato CSVW JSON-LD. Hay algunos errores conocidos en la Herramienta de prueba de datos estructurados.

Ayuda y herramientas