Vidages de données

Les vidages de données sont une version téléchargeable des données dans Freebase. Ils constituent un instantané des données stockées dans Freebase et du schéma qui les structure. Ils sont fournis sous la même licence CC-BY. Les mappages Freebase/Wikidata sont fournis sous la licence CC0.

  1. Tripbases triples
  2. Triples supprimés de Freebase
  3. Mappages Freebase/Wikidata
  4. Licence
  5. Citer

Triples sans frais

Cet ensemble de données contient tous les faits actuels dans Freebase.
  • Total des triples:1,9 milliard
  • Mis à jour:une fois par semaine
  • Format de données:N-Triples RDF
  • Licence:CC-BY
22 Go gzip
250 Go non compressés

Les données RDF sont sérialisées au format N-Triples, encodées en texte UTF-8 et compressées avec Gzip.

RDF
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .

Si vous écrivez votre propre code pour analyser les vidages RDF, il est souvent plus efficace de lire directement le fichier GZip que d'extraire les données, puis de les traiter.

<subject>  <predicate>  <object> .

Remarque: Dans Freebase, les objets ont des MID semblables à /m/012rkqx. Dans RDF, ces MID deviennent m.012rkqx. De même, les schémas Freebase tels que /common/topic sont écrits sous la forme common.topic.

L'objet correspond à l'ID d'un objet Freebase. Il peut s'agir d'un ID MID sans frais (par exemple, m.012rkqx) pour les sujets et les CVT, ou d'un ID lisible (par exemple, common.topic) pour le schéma.

Le prédicat est toujours un ID lisible pour une propriété Freebase ou une propriété d'un vocabulaire RDF standard tel que RDFS. Les espaces de noms de clés étrangères Freebase sont également utilisés comme prédicats pour faciliter la recherche de clés par espace de noms.

Le champ "objet" peut contenir un MID Freebase pour un objet, ou un ID lisible pour un schéma issu de Freebase ou d'autres vocabulaires RDF. Il peut également inclure des valeurs littérales, comme des chaînes, des valeurs booléennes et des valeurs numériques.

Les descriptions des sujets contiennent souvent des sauts de ligne. Pour que chaque triple s'adapte sur une seule ligne, nous avons échappé les nouvelles lignes avec "\n".

Triples supprimés en base sans frais

Nous proposons également un vidage de triples qui ont été supprimés de Freebase au fil du temps. Il s'agit d'une copie unique qui couvrira mars 2013. À l'avenir, nous envisageons de fournir des mises à jour périodiques des triples récemment supprimés, mais pour le moment nous n'avons pas de délai spécifique pour le faire, et nous ne fournissons que cette copie ponctuelle.

Le fichier de dump est distribué sous forme de fichier .tar.gz (2,1 Go compressés, 7,7 Go non compressés). Il contient 63 036 271 triples supprimés en 20 fichiers (il n'y a aucune signification particulière pour chaque fichier, il est plus facile de manipuler plusieurs fichiers plus petits qu'un gros fichier).

Merci à Chun How Tan et John Giannandrea d'avoir rendu possible la publication de ces données.

  • Total des triples:63 millions
  • Mise à jour:9 juin 2013
  • Format des données:CSV
  • Licence:CC-BY
2 Go gzip
8 Go non compressés

Le format de données est un fichier CSV contenant une mise en garde importante. Le champ "objet" peut contenir n'importe quel caractère, y compris des virgules (ainsi que tout autre délimiteur raisonnablement accessible). Cependant, il est garanti que tous les autres champs ne contiennent pas de virgules. Les données peuvent donc toujours être analysées sans ambiguïté.

Les colonnes de l'ensemble de données sont définies comme suit:

  • create_timestamp (heure de l'epoch Unix en millisecondes)
  • créateur
  • delete_timestamp (heure epoch Unix en millisecondes)
  • deletor
  • objet (MID)
  • prédicat (MID)
  • objet (MID/Literal)
  • code_langue
CSV
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en
1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en
1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en
1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en
1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en
1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en
1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en
1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en

Mappages Freebase/Wikidata

Les données ont été créées sur la base du fichier de dump du 28 octobre 2013. Elles ne contiennent que les liens comportant au moins deux liens Wikipédia courants, mais pas un lien Wikipédia correspondant. De plus, les lignes sont triées en fonction du nombre de liens Wikipédia courants (même si, dans Turtle, cela n'a pas d'importance).
  • Total des triples:2,1 M
  • Mise à jour:28 octobre 2013
  • Format de données:N-Triples RDF
  • Licence:CC0
21,2 Mo gzip
242,9 Mo non compressés

Les données RDF sont sérialisées au format N-Triples, encodées en texte UTF-8 et compressées avec Gzip.

RDF
<http://rdf.freebase.com/ns/m.0695j>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q6718> .
<http://rdf.freebase.com/ns/m.05nrg>  <http://www.w3.org/2002/07/owl#sameAs7>  <http://www.wikidata.org/entity/Q538> .
<http://rdf.freebase.com/ns/m.0jgd>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q414> .
<http://rdf.freebase.com/ns/m.0d_23>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q2537> .
<http://rdf.freebase.com/ns/m.04g7d>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q315> .

Licence

Les copies de données Freebase sont fournies sans frais et pour quelque raison que ce soit, avec des mises à jour régulières de Google. Ils sont distribués, comme Freebase, par l'intermédiaire de l'attribution Creative Commons (alias CC-BY), et sont sujettes aux Conditions d'utilisation. Les mappages d'ID Freebase/Wikidata sont fournis sous CC0 et peuvent être utilisés sans restrictions.

Citer

Si vous souhaitez citer ces vidages de données dans une publication, vous pouvez utiliser:

Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>

Ou comme BibTeX:

BibTex
@misc{freebase:datadumps,
  title = "Freebase Data Dumps"
  author = "Google",
  howpublished = "\url{https://developers.google.com/freebase/data}",
  edition = "<month> <day>, <year>",
  year = "<year>"
}