ডাটা ডাম্প

ডেটা ডাম্পগুলি ফ্রিবেসের ডেটার একটি ডাউনলোডযোগ্য সংস্করণ। তারা Freebase-এ সঞ্চিত ডেটার একটি স্ন্যাপশট এবং স্কিমা গঠন করে যা এটি গঠন করে এবং একই CC-BY লাইসেন্সের অধীনে সরবরাহ করা হয়। ফ্রিবেস/উইকিডাটা ম্যাপিং CC0 লাইসেন্সের অধীনে প্রদান করা হয়।

  1. ফ্রিবেস ট্রিপলস
  2. Freebase মুছে ফেলা Triples
  3. ফ্রিবেস/উইকিডেটা ম্যাপিং
  4. লাইসেন্স
  5. উদ্ধৃতি

ফ্রিবেস ট্রিপলস

এই ডেটাসেটে বর্তমানে Freebase-এ থাকা প্রতিটি তথ্য রয়েছে।
  • মোট তিনগুণ: 1.9 বিলিয়ন
  • আপডেট করা হয়েছে: সাপ্তাহিক
  • ডেটা বিন্যাস: N-Triples RDF
  • লাইসেন্স: CC-BY
22 জিবি জিজিপ
250 জিবি আনকম্প্রেসড

RDF ডেটা N-Triples ফর্ম্যাট ব্যবহার করে সিরিয়ালাইজ করা হয়, UTF-8 টেক্সট হিসাবে এনকোড করা হয় এবং Gzip দিয়ে সংকুচিত হয়।

আরডিএফ
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .

আপনি যদি RDF ডাম্প পার্স করার জন্য আপনার নিজের কোড লিখছেন তবে প্রথমে ডেটা বের করে এবং তারপরে সংকুচিত ডেটা প্রক্রিয়া করার পরিবর্তে GZip ফাইল থেকে সরাসরি পড়তে এটি আরও দক্ষ।

<subject>  <predicate>  <object> .

দ্রষ্টব্য: ফ্রিবেসে, অবজেক্টের MID আছে যা দেখতে /m/012rkqx এর মতো। RDF-এ সেই MIDগুলি m.012rkqx হয়ে যায়। একইভাবে, ফ্রীবেস স্কিমা যেমন /common/topic লেখা হয় common.topic হিসাবে।

বিষয় হল একটি Freebase অবজেক্টের ID। এটি বিষয় এবং CVT-এর জন্য একটি Freebase MID (উদাঃ m.012rkqx) অথবা স্কিমার জন্য একটি মানব-পঠনযোগ্য আইডি (উদাঃ. common.topic ) হতে পারে।

ফ্রিবেস প্রপার্টি বা RDFS- এর মতো স্ট্যান্ডার্ড RDF শব্দভান্ডার থেকে প্রিডিকেট সবসময় একটি মানব-পাঠযোগ্য আইডি। ফ্রিবেস বিদেশী কী নেমস্পেসগুলিও নেমস্পেস দ্বারা কীগুলি সন্ধান করা সহজ করার জন্য পূর্বাভাস হিসাবে ব্যবহৃত হয়।

অবজেক্ট ফিল্ডে একটি অবজেক্টের জন্য একটি Freebase MID বা Freebase বা অন্যান্য RDF শব্দভান্ডার থেকে স্কিমার জন্য একটি মানব-পাঠযোগ্য ID থাকতে পারে। এটি স্ট্রিং, বুলিয়ান এবং সংখ্যাসূচক মানগুলির মতো আক্ষরিক মানগুলিও অন্তর্ভুক্ত করতে পারে।

বিষয়ের বর্ণনায় প্রায়ই নতুন লাইন থাকে। প্রতিটি ট্রিপলকে এক লাইনে মানানসই করার জন্য, আমরা "\n" দিয়ে নতুন লাইন এড়িয়ে গেছি।

Freebase মুছে ফেলা Triples

আমরা ট্রিপলগুলির একটি ডাম্পও সরবরাহ করি যা সময়ের সাথে সাথে Freebase থেকে মুছে ফেলা হয়েছে। এটি মার্চ 2013 পর্যন্ত একটি এককালীন ডাম্প৷ ভবিষ্যতে, আমরা সম্প্রতি মুছে ফেলা ট্রিপলগুলির পর্যায়ক্রমিক আপডেটগুলি প্রদান করার কথা বিবেচনা করতে পারি, কিন্তু এই মুহুর্তে এটি করার জন্য আমাদের কোন নির্দিষ্ট সময়সীমা নেই, এবং শুধুমাত্র এই এককালীন ডাম্প প্রদান করছি৷

ডাম্পটি একটি .tar.gz ফাইল হিসাবে বিতরণ করা হয় (2.1Gb সংকুচিত, 7.7Gb আনকম্প্রেসড)। এটিতে 20টি ফাইলের মধ্যে 63,036,271টি মুছে ফেলা ট্রিপল রয়েছে (ব্যক্তিগত ফাইলগুলির কোনও বিশেষ অর্থ নেই, একটি বিশাল ফাইলের চেয়ে বেশ কয়েকটি ছোট ফাইল ম্যানিপুলেট করা সহজ)।

এই তথ্য প্রকাশ সম্ভব করার জন্য চুন হাউ ট্যান এবং জন জিয়ানান্দ্রিয়াকে ধন্যবাদ।

  • মোট ট্রিপল: 63 মিলিয়ন
  • আপডেট করা হয়েছে: জুন 9, 2013
  • ডেটা বিন্যাস: CSV
  • লাইসেন্স: CC-BY
2 জিবি জিজিপ
8 জিবি আনকম্প্রেসড

ডেটা বিন্যাসটি মূলত একটি গুরুত্বপূর্ণ সতর্কতা সহ CSV। অবজেক্ট ফিল্ডে কমা সহ যেকোন অক্ষর থাকতে পারে (পাশাপাশি অন্য কোন যুক্তিসঙ্গত ডিলিমিটার যা আপনি ভাবতে পারেন)। যাইহোক, অন্যান্য সমস্ত ক্ষেত্রে কমা না থাকার গ্যারান্টি দেওয়া হয়, তাই ডেটা এখনও দ্ব্যর্থহীনভাবে পার্স করা যেতে পারে।

ডেটাসেটের কলামগুলি এইভাবে সংজ্ঞায়িত করা হয়েছে:

  • সৃষ্টি_টাইমস্ট্যাম্প (মিলিসেকেন্ডে ইউনিক্স যুগের সময়)
  • সৃষ্টিকর্তা
  • deletion_timestamp (মিলিসেকেন্ডে ইউনিক্স যুগের সময়)
  • অপসারণকারী
  • বিষয় (MID)
  • পূর্বাভাস (MID)
  • বস্তু (MID/আক্ষরিক)
  • ভাষা_কোড
CSV
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en
1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en
1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en
1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en
1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en
1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en
1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en
1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en

ফ্রিবেস/উইকিডেটা ম্যাপিং

তথ্যটি 28 অক্টোবর, 2013-এর উইকিডাটা-ডাম্পের উপর ভিত্তি করে তৈরি করা হয়েছে এবং এতে কেবলমাত্র সেই লিঙ্কগুলি রয়েছে যেগুলিতে কমপক্ষে দুটি সাধারণ উইকিপিডিয়া-লিঙ্ক রয়েছে এবং একটিও অসম্মত উইকিপিডিয়া-লিঙ্ক নেই। তদুপরি, লাইনগুলি সাধারণ উইকিপিডিয়া-লিঙ্কগুলির সংখ্যা অনুসারে বাছাই করা হয়েছে (যদিও টার্টলে এটি সত্যিই গুরুত্বপূর্ণ নয়)।
  • মোট তিনগুণ: 2.1M
  • আপডেট করা হয়েছে: অক্টোবর 28, 2013
  • ডেটা বিন্যাস: N-Triples RDF
  • লাইসেন্স: CC0
21.2 এমবি জিজিপ
242.9 MB আনকম্প্রেসড

RDF ডেটা N-Triples ফর্ম্যাট ব্যবহার করে সিরিয়ালাইজ করা হয়, UTF-8 টেক্সট হিসাবে এনকোড করা হয় এবং Gzip দিয়ে সংকুচিত হয়।

আরডিএফ
<http://rdf.freebase.com/ns/m.0695j>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q6718> .
<http://rdf.freebase.com/ns/m.05nrg>  <http://www.w3.org/2002/07/owl#sameAs7>  <http://www.wikidata.org/entity/Q538> .
<http://rdf.freebase.com/ns/m.0jgd>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q414> .
<http://rdf.freebase.com/ns/m.0d_23>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q2537> .
<http://rdf.freebase.com/ns/m.04g7d>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q315> .

লাইসেন্স

ফ্রিবেস ডেটা ডাম্পগুলি Google দ্বারা নিয়মিত আপডেট সহ যেকোনো উদ্দেশ্যে বিনামূল্যে প্রদান করা হয়। এগুলি ক্রিয়েটিভ কমন্স অ্যাট্রিবিউশন (ওরফে CC-BY) এর অধীনে Freebase-এর মতোই বিতরণ করা হয় এবং ব্যবহার পরিষেবার শর্তাবলী সাপেক্ষে৷ ফ্রিবেস/উইকিডাটা আইডি ম্যাপিংগুলি CC0 এর অধীনে প্রদান করা হয় এবং সীমাবদ্ধতা ছাড়াই ব্যবহার করা যেতে পারে।

উদ্ধৃতি

আপনি যদি একটি প্রকাশনায় এই ডেটা ডাম্পগুলিকে উদ্ধৃত করতে চান তবে আপনি ব্যবহার করতে পারেন:

Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>

বা BibTeX হিসাবে:

বিবটেক্স
@misc{freebase:datadumps,
  title = "Freebase Data Dumps"
  author = "Google",
  howpublished = "\url{https://developers.google.com/freebase/data}",
  edition = "<month> <day>, <year>",
  year = "<year>"
}