डेटा डंप

डेटा डंप, Freebase में डेटा का डाउनलोड करने लायक वर्शन होता है. ये फ़्रीबेस और उसमें बनाए गए स्कीमा में मौजूद डेटा का स्नैपशॉट बनाते हैं. साथ ही, उन्हें एक ही CC-BY लाइसेंस के तहत उपलब्ध कराया जाता है. Freebase/Wikidata मैपिंग CC0 लाइसेंस के तहत दी गई हैं.

  1. फ़्रीबेस ट्रिप्स
  2. फ़्रीबेस ट्रिपल ट्रिप किया गया
  3. फ़्रीबेस/विकीडेटा मैपिंग
  4. लाइसेंस
  5. उद्धरण

फ़्रीबेस ट्रिप्स

इस डेटासेट में, Freebase के सभी मौजूदा तथ्य शामिल हैं.
  • कुल तीन: 1.9 अरब
  • अपडेट किया गया: हर हफ़्ते
  • डेटा फ़ॉर्मैट: N-Triples RDF
  • लाइसेंस: CC-BY
22 जीबी gzip
250 जीबी कंप्रेस नहीं किया गया

आरडीएफ़ डेटा को N-Triples फ़ॉर्मैट का इस्तेमाल करके क्रम से लगाया जाता है. इसे UTF-8 टेक्स्ट के तौर पर कोड में बदला जाता है और Gzip की मदद से कंप्रेस किया जाता है.

आरडीएफ़
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .

अगर आप पार्स करने के लिए खुद का कोड लिख रहे हैं, तो RDF अक्सर सबसे पहले डेटा निकालने और उसके बाद कंप्रेस नहीं किए गए डेटा को प्रोसेस करने के बजाय, GGP फ़ाइल से पढ़ने के लिए ज़्यादा कारगर होता है.

<subject>  <predicate>  <object> .

ध्यान दें: Freebase में, ऑब्जेक्ट के MID कुछ /m/012rkqx के समान होते हैं. RDF में वे MIDs m.012rkqx बन जाते हैं. इसी तरह, /common/topic जैसे फ़्री बेस स्कीमा को common.topic के तौर पर लिखा जाता है.

विषय एक फ़्रीबेस ऑब्जेक्ट का आईडी है. यह विषयों और CVT के लिए फ़्रीबेस MID (उदाहरण m.012rkqx) हो सकता है या कोई ऐसा आईडी हो सकता है जिसे लोग पढ़ सकें. common.topic) का इस्तेमाल करें.

प्रेडीकेट हमेशा ऐसी आईडी होती है जिसे फ़्रीबेस प्रॉपर्टी के लिए पढ़ा जा सकता है. इसके अलावा, यह प्रॉपर्टी RDFS जैसे स्टैंडर्ड आरडीएफ़ शब्दावली की प्रॉपर्टी भी हो सकती है. फ़्रीबेस फ़ॉरेन की के नेमस्पेस का इस्तेमाल अनुमान के तौर पर भी किया जाता है. इससे नेमस्पेस के लिए, बटन को आसानी से खोजा जा सकता है.

ऑब्जेक्ट फ़ील्ड में किसी ऑब्जेक्ट के लिए फ़्रीबेस MID या फ़्रीबेस या दूसरे RDF शब्दावली से स्कीमा के लिए पढ़ा जा सकने वाला आईडी हो सकता है. इसमें स्ट्रिंग, बूलियन, और न्यूमेरिक वैल्यू जैसे लिटरल वैल्यू भी शामिल हो सकते हैं.

विषय के ब्यौरे में अक्सर नई लाइनें शामिल होती हैं. हम हर लाइन को एक ही लाइन में फ़िट करने के लिए, "\n" का इस्तेमाल करके नई लाइनों को एस्केप करते हैं.

फ़्रीबेस मिटाई गई ट्रिपल

हम उन तीनों फ़ाइलों के डंप भी उपलब्ध कराते हैं जिन्हें समय के साथ Freebase से मिटा दिया गया है. यह मार्च 2013 तक एक बार किया जाने वाला डंप है. हो सकता है कि आने वाले समय में, हम समय-समय पर मिटाए गए तीन वीडियो के बारे में अपडेट दें, लेकिन फ़िलहाल हम इसके लिए कोई खास समयसीमा तय नहीं करते हैं. हम सिर्फ़ एक बार किए जाने वाले इन अनुरोधों को अपडेट करने की सुविधा दे रहे हैं.

डंप को .tar.gz फ़ाइल (2.1Gb कंप्रेस की गई, 7.7Gb कंप्रेस नहीं की गई) के तौर पर डिस्ट्रिब्यूट किया जाता है. इसमें 20 फ़ाइलों की 6,30,36,271 मिटाया गया तीन फ़ाइलें हैं (अलग-अलग फ़ाइलों के लिए कोई खास मतलब नहीं है, एक बड़ी फ़ाइल के मुकाबले कई छोटी फ़ाइलों में फेरबदल करना ज़्यादा आसान है).

इस डेटा को संभव बनाने के लिए, चुन तान और जॉन जिएनांद्रे का धन्यवाद.

  • कुल तीन लोग: 6.3 करोड़
  • अपडेट किया गया: 9 जून, 2013
  • डेटा फ़ॉर्मैट: CSV
  • लाइसेंस: CC-BY
2 जीबी gzip
8 जीबी कंप्रेस नहीं किया गया

डेटा फ़ॉर्मैट एक ज़रूरी चेतावनी वाला CSV होता है. ऑब्जेक्ट फ़ील्ड में कॉमा के साथ-साथ कोई भी वर्ण हो सकता है (साथ ही, ऐसे दूसरे डीलिमिटर भी जिनके बारे में आप सोच सकते हैं). हालांकि, अन्य सभी फ़ील्ड में कॉमा शामिल न होने की गारंटी होती है. इसलिए, डेटा को अब भी साफ़ तौर पर पार्स किया जा सकता है.

डेटासेट में मौजूद कॉलम इस तरह परिभाषित किए जाते हैं:

  • creative_timestamp (यूनिक्स युग में मिलीसेकंड में समय)
  • क्रिएटर
  • delete_timestamp (मिलीसेकंड में Unix epoch टाइम)
  • डेलीटर
  • विषय (एमआईडी)
  • प्रेडीकेट (MID)
  • ऑब्जेक्ट (एमआईडी/लिटरल)
  • भाषा कोड
CSV
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en
1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en
1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en
1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en
1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en
1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en
1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en
1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en

फ़्रीबेस/विकिडा मैपिंग

यह डेटा 28 अक्टूबर, 2013 के Wikidata-Dump के आधार पर बनाया गया है और इसमें सिर्फ़ वे लिंक शामिल हैं, जिनमें कम से कम दो सामान्य Wikipedia-लिंक हैं और एक भी विकिपीडिया-अलिंक नहीं है. इसके अलावा, लाइनें सामान्य Wikipedia-लिंक की संख्या के मुताबिक क्रम से लगाई जाती हैं (हालांकि, टर्टल में यह ज़्यादा मायने नहीं रखता).
  • कुल तीन: 21 लाख
  • अपडेट किया गया: 28 अक्टूबर, 2013
  • डेटा फ़ॉर्मैट: N-Triples RDF
  • लाइसेंस: CC0
21.2 एमबी gzip
242.9 एमबी कंप्रेस नहीं किया गया

आरडीएफ़ डेटा को N-Triples फ़ॉर्मैट का इस्तेमाल करके क्रम से लगाया जाता है. इसे UTF-8 टेक्स्ट के तौर पर कोड में बदला जाता है और Gzip की मदद से कंप्रेस किया जाता है.

आरडीएफ़
<http://rdf.freebase.com/ns/m.0695j>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q6718> .
<http://rdf.freebase.com/ns/m.05nrg>  <http://www.w3.org/2002/07/owl#sameAs7>  <http://www.wikidata.org/entity/Q538> .
<http://rdf.freebase.com/ns/m.0jgd>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q414> .
<http://rdf.freebase.com/ns/m.0d_23>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q2537> .
<http://rdf.freebase.com/ns/m.04g7d>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q315> .

लाइसेंस

Google के नियमित अपडेट के साथ, Freebase के डेटा डंप किसी भी काम के लिए बिना किसी शुल्क के उपलब्ध कराए जाते हैं. इन्हें क्रिएटिव कॉमंस एट्रिब्यूशन (यानी कि CC-BY) के तहत, Freebase की तरह ही बांटा जाता है और इसका इस्तेमाल सेवा की शर्तों के मुताबिक किया जाता है. Freebase/Wikidata आईडी मैपिंग CC0 के तहत दी गई हैं और उनका इस्तेमाल बिना किसी पाबंदी के हो सकता है.

उद्धरण

अगर आपको किसी प्रकाशन में इन डेटा डंप का हवाला देना है, तो आपके पास ये विकल्प होते हैं:

Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>

या BibTeX के तौर पर:

BibTex
@misc{freebase:datadumps,
  title = "Freebase Data Dumps"
  author = "Google",
  howpublished = "\url{https://developers.google.com/freebase/data}",
  edition = "<month> <day>, <year>",
  year = "<year>"
}