Los volcados de datos son una versión descargable de los datos de Freebase. Constituyen una instantánea de los datos almacenados en Freebase y el esquema que los estructura, y se proporcionan bajo la misma licencia CC-BY. Las asignaciones de Freebase/Wikidata se proporcionan bajo la licencia CC0.
Triples de Freebase
Este conjunto de datos contiene todos los hechos que actualmente se encuentran en Freebase. |
|
22 GB gzip 250 GB sin comprimir |
Los datos RDF se serializan con el formato N-Triples, se codifican como texto UTF-8 y se comprimen con Gzip.
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> .
Si escribes tu propio código para analizar los volcados de RDF, suele ser más eficiente leer directamente desde el archivo GZip en lugar de extraer los datos primero y, luego, procesar los datos sin comprimir.
<subject> <predicate> <object> .
Nota: En Freebase, los objetos tienen MIDs que se ven como /m/012rkqx
. En RDF, esos MIDs se convierten en m.012rkqx. Del mismo modo, el esquema de Freebase, como /common/topic
, se escribe como common.topic
.
El sujeto es el ID de un objeto de Freebase. Puede ser un MID de Freebase (p. ej., m.012rkqx) para temas y CVT, o un ID legible (p. ej., common.topic
) para el esquema.
El predicado siempre es un ID legible para las personas de una propiedad de Freebase o una propiedad de un vocabulario RDF estándar, como RDFS. Los espacios de nombres de claves externas de Freebase también se usan como predicados para facilitar la búsqueda de claves por espacio de nombres.
El campo object puede contener un MID de Freebase para un objeto o un ID legible por humanos para el esquema de Freebase o de otros vocabularios de RDF. También puede incluir valores literales, como cadenas, valores booleanos y valores numéricos.
Las descripciones de los temas suelen contener saltos de línea. Para que cada tripleta quepa en una sola línea, escapamos los saltos de línea con "\n".
Tuplas borradas de Freebase
También proporcionamos un volcado de las tuplas que se borraron de Freebase con el tiempo. Esta es una volcado único hasta marzo de 2013. En el futuro, es posible que consideremos proporcionar actualizaciones periódicas de las triples borradas recientemente, pero, por el momento, no tenemos un cronograma específico para hacerlo y solo proporcionamos esta volcado único.
El volcado se distribuye como un archivo .tar.gz (2.1 GB comprimido, 7.7 GB sin comprimir). Contiene 63,036,271 de tríos borrados en 20 archivos (los archivos individuales no tienen un significado particular, solo es más fácil manipular varios archivos más pequeños que uno enorme).
Gracias a Chun How Tan y John Giannandrea por hacer posible el lanzamiento de estos datos.
2 GB gzip 8 GB sin comprimir |
El formato de los datos es básicamente CSV, con una advertencia importante. El campo del objeto puede contener cualquier carácter, incluidas comas (así como cualquier otro delimitador razonable que se te ocurra). Sin embargo, se garantiza que todos los demás campos no contienen comas, por lo que los datos se pueden analizar de forma inequívoca.
Las columnas del conjunto de datos se definen de la siguiente manera:
- creation_timestamp (marca de tiempo de Unix en milisegundos)
- creador
- deletion_timestamp (marca de tiempo de época Unix en milisegundos)
- deletor
- Asunto (MID)
- predicado (MID)
- objeto (MID/literal)
- language_code
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en 1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en 1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en 1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en 1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en 1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en 1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en 1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en
Asignaciones de Freebase/Wikidata
Los datos se crearon en función del volcado de Wikidata del 28 de octubre de 2013 y solo contienen aquellos vínculos que tienen al menos dos vínculos comunes de Wikipedia y ningún vínculo de Wikipedia en desacuerdo. Además, las líneas se ordenan según la cantidad de vínculos comunes de Wikipedia (aunque, en Turtle, esto no importa mucho). |
|
21.2 MB gzip 242.9 MB sin comprimir |
Los datos RDF se serializan con el formato N-Triples, se codifican como texto UTF-8 y se comprimen con Gzip.
<http://rdf.freebase.com/ns/m.0695j> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q6718> . <http://rdf.freebase.com/ns/m.05nrg> <http://www.w3.org/2002/07/owl#sameAs7> <http://www.wikidata.org/entity/Q538> . <http://rdf.freebase.com/ns/m.0jgd> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q414> . <http://rdf.freebase.com/ns/m.0d_23> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q2537> . <http://rdf.freebase.com/ns/m.04g7d> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q315> .
Licencia
Google proporciona las volcados de datos de Freebase sin cargo para cualquier propósito y con actualizaciones periódicas. Al igual que Freebase, se distribuyen bajo la licencia Creative Commons Attribution (también conocida como CC-BY), y su uso está sujeto a las Condiciones del Servicio. Las asignaciones de ID de Freebase/Wikidata se proporcionan bajo la licencia CC0 y se pueden usar sin restricciones.
Citas
Si deseas citar estos volcados de datos en una publicación, puedes usar lo siguiente:
Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>
O bien, como BibTeX:
@misc{freebase:datadumps, title = "Freebase Data Dumps" author = "Google", howpublished = "\url{https://developers.google.com/freebase/data}", edition = "<month> <day>, <year>", year = "<year>" }