Dump Data

Dump Data adalah versi data yang dapat didownload di Freebase. Data tersebut merupakan ringkasan data yang disimpan di Freebase dan Schema yang menyusunnya, dan disediakan di bawah lisensi CC-BY yang sama. Pemetaan Freebase/Wikidata disediakan berdasarkan lisensi CC0.

  1. Trip Base Gratis
  2. Tiga Tiang Freebase Dihapus
  3. Pemetaan Freebase/Wikidata
  4. Lisensi
  5. Mengutip

Tiga Garis Bebas

Set data ini berisi setiap fakta yang saat ini ada di Freebase.
  • Total tiga kali lipat: 1,9 miliar
  • Diperbarui: Mingguan
  • Format Data: N-Triples RDF
  • Lisensi: CC-BY
22 GB gzip
250 GB tanpa kompresi

Data RDF diserialisasi menggunakan format N-Triples, yang dienkode sebagai teks UTF-8 dan dikompresi dengan Gzip.

RDF
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .

Jika Anda menulis kode sendiri untuk mengurai RDF, dump-nya sering kali lebih efisien untuk dibaca langsung dari file GZip daripada mengekstrak data terlebih dahulu, lalu memproses data yang tidak dikompresi.

<subject>  <predicate>  <object> .

Catatan: Di Freebase, objek memiliki MID yang terlihat seperti /m/012rkqx. Di RDF, MID tersebut menjadi m.012rkqx. Demikian juga, skema Freebase seperti /common/topic ditulis sebagai common.topic.

Subjek adalah ID objek Freebase. Sumber dapat berupa MID Freebase (misalnya, m.012rkqx) untuk topik dan CVT atau ID yang dapat dibaca manusia (misalnya, common.topic) untuk skema.

Predikat selalu merupakan ID yang dapat dibaca manusia untuk properti Freebase atau properti dari kosakata RDF standar seperti RDFS. Namespace kunci asing Freebase juga digunakan sebagai predikat untuk mempermudah pencarian kunci berdasarkan namespace.

Kolom objek dapat berisi MID Freebase untuk objek atau ID yang dapat dibaca manusia untuk skema dari Kosakata Freebase atau kosa kata RDF lainnya. Ini juga dapat meliputi nilai literal seperti string, boolean, dan nilai numerik.

Deskripsi topik sering kali berisi baris baru. Agar tiga bagian cocok dalam satu baris, kami telah meng-escape baris baru dengan "\n".

Tiga Dihapus Freebase

Kami juga menyediakan dump tiga kali lipat yang telah dihapus dari Freebase seiring waktu. Ini adalah pembuangan satu kali hingga Maret 2013. Di masa mendatang, kami mungkin mempertimbangkan untuk memberikan update berkala untuk triple yang baru saja dihapus, tetapi saat ini kami tidak memiliki jangka waktu spesifik untuk melakukannya, dan hanya memberikan dump satu kali ini.

Dump didistribusikan sebagai file .tar.gz (2,1 Gb terkompresi, 7,7 Gb tidak dikompresi). Ini berisi 63.036.271 triple yang dihapus dalam 20 file (tidak ada arti khusus untuk file individual, lebih mudah untuk memanipulasi beberapa file yang lebih kecil daripada satu file besar).

Terima kasih kepada Chun How Tan dan John Giannandrea yang telah memungkinkan rilis data ini.

  • Total tiga kali lipat: 63 juta
  • Diperbarui: 9 Juni 2013
  • Format Data: CSV
  • Lisensi: CC-BY
2 GB gzip
8 GB tanpa kompresi

Format data pada dasarnya adalah CSV dengan satu peringatan penting. Kolom objek dapat berisi karakter apa pun, termasuk tanda koma (serta pembatas wajar lainnya yang dapat Anda pikirkan). Namun, semua kolom lainnya dijamin tidak berisi koma sehingga data tetap dapat diurai dengan jelas.

Kolom dalam set data ditentukan sebagai:

  • pembuatan_timestamp (Waktu epoch Unix dalam milidetik)
  • kreator
  • penghapusan_timestamp (waktu epoch Unix dalam milidetik)
  • Deletor
  • subjek (MID)
  • predikat (MID)
  • objek (MID/Literal)
  • language_code
CSV
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en
1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en
1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en
1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en
1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en
1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en
1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en
1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en

Pemetaan Freebase/Wikidata

Data telah dibuat berdasarkan Wikidata-Dump tanggal 28 Oktober 2013, dan hanya berisi link yang memiliki setidaknya dua Link Wikipedia umum dan bukan satu Link Wikipedia yang tidak setuju. Selain itu, baris diurutkan berdasarkan jumlah Wikipedia-Link umum (meskipun di Turtle ini tidak terlalu penting).
  • Total tiga kali lipat: 2,1 juta
  • Diperbarui: 28 Oktober 2013
  • Format Data: N-Triples RDF
  • Lisensi: CC0
21,2 MB gzip
242.9 MB uncomkompresi

Data RDF diserialisasi menggunakan format N-Triples, yang dienkode sebagai teks UTF-8 dan dikompresi dengan Gzip.

RDF
<http://rdf.freebase.com/ns/m.0695j>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q6718> .
<http://rdf.freebase.com/ns/m.05nrg>  <http://www.w3.org/2002/07/owl#sameAs7>  <http://www.wikidata.org/entity/Q538> .
<http://rdf.freebase.com/ns/m.0jgd>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q414> .
<http://rdf.freebase.com/ns/m.0d_23>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q2537> .
<http://rdf.freebase.com/ns/m.04g7d>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q315> .

Lisensi

Dump Data Freebase disediakan tanpa biaya untuk tujuan apa pun dengan update rutin oleh Google. Keduanya didistribusikan, seperti Freebase itu sendiri, berdasarkan Atribusi Creative Commons (alias CC-BY) dan penggunaannya tunduk pada Persyaratan Layanan. Pemetaan ID Freebase/Wikidata disediakan berdasarkan CC0 dan dapat digunakan tanpa batasan.

Mengutip

Jika ingin mengutip dump data ini di publikasi, Anda dapat menggunakan:

Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>

Atau sebagai BibTeX:

BibTex
@misc{freebase:datadumps,
  title = "Freebase Data Dumps"
  author = "Google",
  howpublished = "\url{https://developers.google.com/freebase/data}",
  edition = "<month> <day>, <year>",
  year = "<year>"
}