Volcado de datos

Los volcados de datos son una versión descargable de los datos de Freebase. Constituyen una instantánea de los datos almacenados en Freebase y el esquema que los estructura, y se proporcionan bajo la misma licencia CC-BY. Las asignaciones de Freebase/Wikidata se proporcionan bajo la licencia CC0.

  1. Freebase Triples
  2. Freebase Deleted Triples
  3. Asignaciones de Freebase/Wikidata
  4. Licencia
  5. Citas

Triples de Freebase

Este conjunto de datos contiene todos los hechos que actualmente se encuentran en Freebase.
  • Tríos totales: 1,900 millones
  • Actualización: Semanal
  • Formato de datos: N-Triples RDF
  • Licencia: CC-BY
22 GB gzip
250 GB sin comprimir

Los datos RDF se serializan con el formato N-Triples, se codifican como texto UTF-8 y se comprimen con Gzip.

RDF
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .

Si escribes tu propio código para analizar los volcados de RDF, suele ser más eficiente leer directamente desde el archivo GZip en lugar de extraer los datos primero y, luego, procesar los datos sin comprimir.

<subject>  <predicate>  <object> .

Nota: En Freebase, los objetos tienen MIDs que se ven como /m/012rkqx. En RDF, esos MIDs se convierten en m.012rkqx. Del mismo modo, el esquema de Freebase, como /common/topic, se escribe como common.topic.

El sujeto es el ID de un objeto de Freebase. Puede ser un MID de Freebase (p. ej., m.012rkqx) para temas y CVT, o un ID legible (p. ej., common.topic) para el esquema.

El predicado siempre es un ID legible para las personas de una propiedad de Freebase o una propiedad de un vocabulario RDF estándar, como RDFS. Los espacios de nombres de claves externas de Freebase también se usan como predicados para facilitar la búsqueda de claves por espacio de nombres.

El campo object puede contener un MID de Freebase para un objeto o un ID legible por humanos para el esquema de Freebase o de otros vocabularios de RDF. También puede incluir valores literales, como cadenas, valores booleanos y valores numéricos.

Las descripciones de los temas suelen contener saltos de línea. Para que cada tripleta quepa en una sola línea, escapamos los saltos de línea con "\n".

Tuplas borradas de Freebase

También proporcionamos un volcado de las tuplas que se borraron de Freebase con el tiempo. Esta es una volcado único hasta marzo de 2013. En el futuro, es posible que consideremos proporcionar actualizaciones periódicas de las triples borradas recientemente, pero, por el momento, no tenemos un cronograma específico para hacerlo y solo proporcionamos esta volcado único.

El volcado se distribuye como un archivo .tar.gz (2.1 GB comprimido, 7.7 GB sin comprimir). Contiene 63,036,271 de tríos borrados en 20 archivos (los archivos individuales no tienen un significado particular, solo es más fácil manipular varios archivos más pequeños que uno enorme).

Gracias a Chun How Tan y John Giannandrea por hacer posible el lanzamiento de estos datos.

  • Total de combinaciones: 63 millones
  • Actualización: 9 de junio de 2013
  • Formato de datos: CSV
  • Licencia: CC-BY
2 GB gzip
8 GB sin comprimir

El formato de los datos es básicamente CSV, con una advertencia importante. El campo del objeto puede contener cualquier carácter, incluidas comas (así como cualquier otro delimitador razonable que se te ocurra). Sin embargo, se garantiza que todos los demás campos no contienen comas, por lo que los datos se pueden analizar de forma inequívoca.

Las columnas del conjunto de datos se definen de la siguiente manera:

  • creation_timestamp (marca de tiempo de Unix en milisegundos)
  • creador
  • deletion_timestamp (marca de tiempo de época Unix en milisegundos)
  • deletor
  • Asunto (MID)
  • predicado (MID)
  • objeto (MID/literal)
  • language_code
CSV
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en
1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en
1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en
1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en
1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en
1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en
1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en
1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en

Asignaciones de Freebase/Wikidata

Los datos se crearon en función del volcado de Wikidata del 28 de octubre de 2013 y solo contienen aquellos vínculos que tienen al menos dos vínculos comunes de Wikipedia y ningún vínculo de Wikipedia en desacuerdo. Además, las líneas se ordenan según la cantidad de vínculos comunes de Wikipedia (aunque, en Turtle, esto no importa mucho).
  • Tríos totales: 2.1 millones
  • Actualización: 28 de octubre de 2013
  • Formato de datos: N-Triples RDF
  • Licencia: CC0
21.2 MB gzip
242.9 MB sin comprimir

Los datos RDF se serializan con el formato N-Triples, se codifican como texto UTF-8 y se comprimen con Gzip.

RDF
<http://rdf.freebase.com/ns/m.0695j>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q6718> .
<http://rdf.freebase.com/ns/m.05nrg>  <http://www.w3.org/2002/07/owl#sameAs7>  <http://www.wikidata.org/entity/Q538> .
<http://rdf.freebase.com/ns/m.0jgd>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q414> .
<http://rdf.freebase.com/ns/m.0d_23>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q2537> .
<http://rdf.freebase.com/ns/m.04g7d>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q315> .

Licencia

Google proporciona las volcados de datos de Freebase sin cargo para cualquier propósito y con actualizaciones periódicas. Al igual que Freebase, se distribuyen bajo la licencia Creative Commons Attribution (también conocida como CC-BY), y su uso está sujeto a las Condiciones del Servicio. Las asignaciones de ID de Freebase/Wikidata se proporcionan bajo la licencia CC0 y se pueden usar sin restricciones.

Citas

Si deseas citar estos volcados de datos en una publicación, puedes usar lo siguiente:

Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>

O bien, como BibTeX:

BibTex
@misc{freebase:datadumps,
  title = "Freebase Data Dumps"
  author = "Google",
  howpublished = "\url{https://developers.google.com/freebase/data}",
  edition = "<month> <day>, <year>",
  year = "<year>"
}