Daten-Dumps

Data Dumps sind eine herunterladbare Version der Daten in Freebase. Sie stellen einen Snapshot der in Freebase gespeicherten Daten und des Schemas dar, das sie strukturiert, und werden unter derselben CC-BY-Lizenz bereitgestellt. Die Freebase-/Wikidata-Zuweisungen werden unter der CC0-Lizenz bereitgestellt.

  1. Freebase-Tripel
  2. Gelöschte Freebase-Triples
  3. Freebase-/Wikidata-Zuordnungen
  4. Lizenz
  5. Zitieren

Freebase-Triples

Dieses Dataset enthält alle Fakten, die derzeit in Freebase vorhanden sind.
  • Gesamtzahl der Dreifach-Kombinationen:1,9 Milliarden
  • Aktualisiert:wöchentlich
  • Datenformat:N-Triples RDF
  • Lizenz:CC-BY
22 GB gzip
250 GB unkomprimiert

Die RDF-Daten werden im N-Triples-Format serialisiert, als UTF-8-Text codiert und mit Gzip komprimiert.

RDF
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .

Wenn Sie Ihren eigenen Code zum Parsen der RDF-Dumps schreiben, ist es oft effizienter, direkt aus der GZip-Datei zu lesen, anstatt die Daten zuerst zu extrahieren und dann die unkomprimierten Daten zu verarbeiten.

<subject>  <predicate>  <object> .

Hinweis: In Freebase haben Objekte MIDs, die so aussehen: /m/012rkqx. In RDF werden diese MIDs zu m.012rkqx. Freebase-Schemata wie /common/topic werden als common.topic geschrieben.

Das Subjekt ist die ID eines Freebase-Objekts. Das kann eine Freebase-MID (z. B. m.012rkqx) für Themen und CVTs oder eine für Menschen lesbare ID (z. B. common.topic) für das Schema.

Das Prädikat ist immer eine für Menschen lesbare ID für ein Freebase-Attribut oder ein Attribut aus einem standardmäßigen RDF-Vokabular wie RDFS. Freebase-Fremdschlüssel-Namespaces werden auch als Prädikate verwendet, um das Nachschlagen von Schlüsseln nach Namespace zu erleichtern.

Das Objektfeld kann eine Freebase-MID für ein Objekt oder eine für Menschen lesbare ID für ein Schema aus Freebase oder anderen RDF-Vokabularen enthalten. Sie kann auch Literalwerte wie Strings, boolesche Werte und numerische Werte enthalten.

Themenbeschreibungen enthalten oft Zeilenumbrüche. Damit jedes Triple in eine Zeile passt, haben wir Zeilenumbrüche mit „\n“ maskiert.

Gelöschte Freebase-Tripel

Außerdem stellen wir einen Dump von Triplets zur Verfügung, die im Laufe der Zeit aus Freebase gelöscht wurden. Dies ist ein einmaliger Export bis März 2013. In Zukunft werden wir möglicherweise regelmäßige Updates zu kürzlich gelöschten Dreifach-Tupeln bereitstellen. Derzeit haben wir jedoch keinen bestimmten Zeitrahmen dafür und stellen nur diesen einmaligen Dump zur Verfügung.

Der Dump wird als TAR.GZ-Datei verteilt (2,1 GB komprimiert, 7,7 GB unkomprimiert). Sie enthält 63.036.271 gelöschte Dreifach-Tupel in 20 Dateien. Die einzelnen Dateien haben keine besondere Bedeutung. Es ist nur einfacher, mehrere kleinere Dateien als eine riesige Datei zu bearbeiten.

Vielen Dank an Chun How Tan und John Giannandrea, die diese Datenveröffentlichung ermöglicht haben.

  • Gesamtzahl der Dreifach-Kombinationen:63 Millionen
  • Aktualisiert am:9. Juni 2013
  • Datenformat:CSV
  • Lizenz:CC-BY
2 GB gzip
8 GB unkomprimiert

Das Datenformat ist im Wesentlichen CSV, mit einer wichtigen Einschränkung. Das Objektfeld kann beliebige Zeichen enthalten, einschließlich Kommas (sowie alle anderen sinnvollen Trennzeichen, die Ihnen einfallen). Alle anderen Felder enthalten jedoch garantiert keine Kommas, sodass die Daten weiterhin eindeutig geparst werden können.

Die Spalten im Dataset sind so definiert:

  • creation_timestamp (Unixzeit in Millisekunden)
  • Creator
  • deletion_timestamp (Unix-Epochen-Zeit in Millisekunden)
  • Löschvorgang
  • Betreff (MID)
  • Prädikat (MID)
  • Objekt (MID/Literal)
  • language_code
CSV
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en
1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en
1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en
1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en
1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en
1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en
1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en
1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en

Freebase-/Wikidata-Zuordnungen

Die Daten wurden auf Grundlage des Wikidata-Dumps vom 28. Oktober 2013 erstellt und enthalten nur Links, die mindestens zwei gemeinsame Wikipedia-Links und keinen einzigen abweichenden Wikipedia-Link haben. Außerdem werden die Zeilen nach der Anzahl der gemeinsamen Wikipedia-Links sortiert (in Turtle spielt das jedoch keine Rolle).
  • Gesamtzahl der Dreifach-Kombinationen:2,1 Mio.
  • Aktualisiert am:28. Oktober 2013
  • Datenformat:N-Triples RDF
  • Lizenz:CC0
21,2 MB gzip
242,9 MB unkomprimiert

Die RDF-Daten werden im N-Triples-Format serialisiert, als UTF-8-Text codiert und mit Gzip komprimiert.

RDF
<http://rdf.freebase.com/ns/m.0695j>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q6718> .
<http://rdf.freebase.com/ns/m.05nrg>  <http://www.w3.org/2002/07/owl#sameAs7>  <http://www.wikidata.org/entity/Q538> .
<http://rdf.freebase.com/ns/m.0jgd>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q414> .
<http://rdf.freebase.com/ns/m.0d_23>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q2537> .
<http://rdf.freebase.com/ns/m.04g7d>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q315> .

Lizenz

Freebase-Daten-Dumps werden kostenlos für jeden Zweck zur Verfügung gestellt und regelmäßig von Google aktualisiert. Sie werden wie Freebase selbst unter der Creative Commons Attribution (CC-BY)-Lizenz verbreitet und die Nutzung unterliegt den Nutzungsbedingungen. Die Freebase-/Wikidata-ID-Zuweisungen werden unter CC0 bereitgestellt und können uneingeschränkt verwendet werden.

Zitieren

Wenn Sie diese Daten-Dumps in einer Publikation zitieren möchten, können Sie Folgendes verwenden:

Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>

Oder als BibTeX:

BibTex
@misc{freebase:datadumps,
  title = "Freebase Data Dumps"
  author = "Google",
  howpublished = "\url{https://developers.google.com/freebase/data}",
  edition = "<month> <day>, <year>",
  year = "<year>"
}