تخلیه داده ها

Data Dumps یک نسخه قابل دانلود از داده ها در Freebase است. آنها یک عکس فوری از داده های ذخیره شده در Freebase و طرحی که آن را ساختار می دهد تشکیل می دهند و تحت همان مجوز CC-BY ارائه می شوند. نگاشت Freebase/Wikidata تحت مجوز CC0 ارائه می شود.

  1. Freebase Triples
  2. Freebase Triples حذف شده است
  3. Freebase/Wikidata Mappings
  4. مجوز
  5. استناد کردن

Freebase Triples

این مجموعه داده شامل تمام واقعیت های موجود در Freebase است.
  • مجموع سه برابر: 1.9 میلیارد
  • به روز شده: هفتگی
  • فرمت داده: N-Triples RDF
  • مجوز: CC-BY
22 گیگابایت gzip
250 گیگابایت غیر فشرده

داده های RDF با استفاده از فرمت N-Triples، به صورت متنی UTF-8 کدگذاری شده و با Gzip فشرده شده است.

RDF
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .

اگر کد خود را برای تجزیه و تحلیل RDF dump می نویسید، خواندن مستقیم از فایل GZip اغلب کارآمدتر است تا اینکه ابتدا داده ها را استخراج کنید و سپس داده های فشرده نشده را پردازش کنید.

<subject>  <predicate>  <object> .

توجه: در Freebase، اشیاء دارای MIDهایی هستند که شبیه /m/012rkqx هستند. در RDF آن MID ها m.012rkqx می شوند. به همین ترتیب، طرحواره Freebase مانند /common/topic به عنوان common.topic نوشته می شود.

موضوع شناسه یک شی Freebase است. این می‌تواند یک MID Freebase (مثلاً m.012rkqx) برای موضوعات و CVT یا یک شناسه قابل خواندن برای انسان (مثلاً common.topic ) برای طرحواره باشد.

گزاره همیشه یک شناسه قابل خواندن توسط انسان برای یک ویژگی Freebase یا یک ویژگی از واژگان استاندارد RDF مانند RDFS است. فضای نام کلید خارجی Freebase نیز به عنوان محمول استفاده می شود تا جستجوی کلیدها بر اساس فضای نام آسان تر شود.

فیلد شی ممکن است حاوی یک MID Freebase برای یک شی یا یک شناسه قابل خواندن توسط انسان برای طرحواره از Freebase یا سایر واژگان RDF باشد. همچنین ممکن است شامل مقادیر تحت اللفظی مانند رشته ها، بولی ها و مقادیر عددی باشد.

توضیحات موضوع اغلب حاوی خطوط جدید است. برای اینکه هر سه گانه را در یک خط قرار دهیم، از خطوط جدید با "\n" فرار کرده ایم.

Freebase Triples حذف شده است

ما همچنین فهرستی از سه‌گانه‌هایی را ارائه می‌کنیم که به مرور زمان از Freebase حذف شده‌اند. این یک بارگیری تا مارس 2013 است. در آینده، ممکن است به‌روزرسانی‌های دوره‌ای سه‌گانه‌های اخیراً حذف‌شده را در نظر بگیریم، اما در حال حاضر هیچ بازه زمانی خاصی برای انجام این کار نداریم و فقط یک بار مصرف را ارائه می‌کنیم.

Dump به عنوان یک فایل tar.gz (2.1 گیگابایت فشرده، 7.7 گیگابایت غیرفشرده) توزیع می شود. این شامل 63,036,271 سه گانه حذف شده در 20 فایل است (هیچ معنای خاصی برای فایل های جداگانه وجود ندارد، فقط دستکاری چندین فایل کوچکتر از یک فایل بزرگ آسان تر است).

با تشکر از Chun How Tan و John Giannandrea برای امکان انتشار این اطلاعات.

  • مجموع سه برابر: 63 میلیون
  • به روز رسانی: 9 ژوئن 2013
  • فرمت داده: CSV
  • مجوز: CC-BY
2 گیگابایت gzip
8 گیگابایت غیر فشرده

فرمت داده اساساً CSV با یک نکته مهم است. فیلد شی ممکن است حاوی هر کاراکتری باشد، از جمله کاما (و همچنین هر جداکننده معقولی دیگری که فکرش را بکنید). با این حال، تمام فیلدهای دیگر تضمین می شود که حاوی کاما نباشند، بنابراین داده ها همچنان می توانند بدون ابهام تجزیه شوند.

ستون های مجموعه داده به صورت زیر تعریف می شوند:

  • Creation_timestamp (زمان دوره یونیکس بر حسب میلی ثانیه)
  • ایجاد کننده
  • deletion_timestamp (زمان دوره یونیکس بر حسب میلی ثانیه)
  • حذف کننده
  • موضوع (MID)
  • محمول (MID)
  • شی (MID/Literal)
  • زبان_کد
CSV
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en
1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en
1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en
1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en
1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en
1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en
1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en
1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en

Freebase/Wikidata Mappings

داده‌ها بر اساس Wikidata-Dump در 28 اکتبر 2013 ایجاد شده‌اند و فقط حاوی پیوندهایی هستند که حداقل دو پیوند ویکی‌پدیا مشترک دارند و یک پیوند ویکی‌پدیا مخالف وجود ندارد. علاوه بر این، خطوط بر اساس تعداد پیوندهای رایج ویکی‌پدیا مرتب می‌شوند (اگرچه در Turtle این واقعاً مهم نیست).
  • مجموع سه گانه: 2.1 میلیون
  • به روز رسانی: 28 اکتبر 2013
  • فرمت داده: N-Triples RDF
  • مجوز: CC0
21.2 مگابایت gzip
242.9 مگابایت فشرده نشده

داده های RDF با استفاده از فرمت N-Triples، به صورت متنی UTF-8 کدگذاری شده و با Gzip فشرده شده است.

RDF
<http://rdf.freebase.com/ns/m.0695j>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q6718> .
<http://rdf.freebase.com/ns/m.05nrg>  <http://www.w3.org/2002/07/owl#sameAs7>  <http://www.wikidata.org/entity/Q538> .
<http://rdf.freebase.com/ns/m.0jgd>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q414> .
<http://rdf.freebase.com/ns/m.0d_23>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q2537> .
<http://rdf.freebase.com/ns/m.04g7d>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q315> .

مجوز

Freebase Data Dumps برای هر منظوری با به روز رسانی منظم توسط Google به صورت رایگان ارائه می شود. آنها، مانند خود Freebase، تحت عنوان Creative Commons Attribution (معروف به CC-BY) توزیع می شوند و استفاده از آنها تابع شرایط خدمات است. نگاشت شناسه Freebase/Wikidata تحت CC0 ارائه شده است و می توان بدون محدودیت از آنها استفاده کرد.

استناد کردن

اگر می‌خواهید این داده‌ها را در یک نشریه ذکر کنید، می‌توانید از این موارد استفاده کنید:

Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>

یا به عنوان BibTeX:

BibTex
@misc{freebase:datadumps,
  title = "Freebase Data Dumps"
  author = "Google",
  howpublished = "\url{https://developers.google.com/freebase/data}",
  edition = "<month> <day>, <year>",
  year = "<year>"
}