مفاهیم اساسی

اگر با Freebase تازه کار هستید، این بخش اصطلاحات و مفاهیم اولیه مورد نیاز برای درک نحوه عملکرد Freebase را پوشش می دهد.

  1. نمودارها
  2. موضوعات
  3. انواع و خواص
  4. دامنه ها و شناسه ها
  5. انواع ارزش مرکب
  6. MID های موضوع
  7. فضاهای نام، کلیدها و شناسه های موضوع
  8. اطلاعات بیشتر در مورد Properties
  9. خلاصه

نمودارها

داده های Freebase در ساختار داده ای به نام گراف ذخیره می شوند. یک نمودار بر روی گره هایی که توسط یال ها به هم متصل شده اند تشکیل شده است. در Freebase، گره ها با استفاده از /type/object و یال ها با استفاده از /type/link تعریف می شوند. Freebase با ذخیره داده ها به عنوان یک نمودار، می تواند به سرعت از اتصالات دلخواه بین موضوعات عبور کند و بدون نیاز به تغییر ساختار داده ها، به راحتی طرح های جدید اضافه کند.

موضوعات

Freebase بیش از 39 میلیون موضوع در مورد موجودات دنیای واقعی مانند افراد، مکان ها و چیزها دارد. از آنجایی که داده های Freebase یک گراف نشان داده می شود، این موضوعات با گره های موجود در نمودار مطابقت دارند. با این حال، هر گره یک موضوع نیست. بخش CVTs را به عنوان نمونه ای از گره هایی که موضوع نیستند، ببینید.

نمونه هایی از انواع موضوعات موجود در Freebase:

برخی از موضوعات قابل توجه هستند زیرا دارای داده های زیادی هستند (مثلاً وال مارت ) و برخی قابل توجه هستند زیرا به بسیاری از موضوعات دیگر مرتبط هستند، به طور بالقوه در حوزه های مختلف اطلاعات. به عنوان مثال، موضوعات انتزاعی مانند عشق، فقر، جوانمردی و غیره ویژگی های زیادی با خود ندارند، اما اغلب به عنوان موضوع کتاب، موضوع شعر، موضوع فیلم و غیره ظاهر می شوند و آنها را قابل توجه تر می کند.

انواع و خواص

هر موضوع داده شده را می توان برای بسیاری از دیدگاه های مختلف مشاهده کرد، به عنوان مثال:

  • باب دیلن آهنگساز، خواننده، مجری، نویسنده کتاب و بازیگر سینما بود.
  • لئوناردو داوینچی یک نقاش، یک مجسمه ساز، یک آناتومیست، یک معمار، یک مهندس بود.
  • عشق موضوع کتاب، موضوع فیلم، موضوع بازی، موضوع شعر، ...;
  • هر شهر یک مکان، به طور بالقوه یک مقصد گردشگری و کارفرمای کارمندان دولت است.

به منظور درک این ماهیت چند وجهی بسیاری از موضوعات، مفهوم انواع را در Freebase معرفی می کنیم. موضوعات در Freebase می توانند انواع مختلفی را به آنها اختصاص دهند. موضوع در مورد باب دیلن انواع مختلفی دارد: نوع آهنگساز، نوع آهنگساز، نوع هنرمند موسیقی (خواننده)، نوع نویسنده کتاب، و غیره. مثلا،

  • نوع هنرمند موسیقی دارای ویژگی است که تمام آلبوم‌هایی را که باب دیلن تولید کرده است و همچنین تمام آلات موسیقی که او برای نواختن شناخته شده بود فهرست می‌کند.
  • نوع نویسنده کتاب شامل ویژگی‌هایی است که تمام کتاب‌هایی را که باب دیلن نوشته یا ویرایش کرده است، و همچنین مکتب افکار یا حرکت‌های او را فهرست می‌کند.
  • نوع شرکت شامل اموال بسیاری برای فهرست بنیانگذاران شرکت، اعضای هیئت مدیره، شرکت مادر، بخش ها، کارکنان، محصولات، سوابق درآمد و سود سال به سال و غیره است.

بنابراین، یک نوع را می توان به عنوان یک ظرف مفهومی از ویژگی هایی در نظر گرفت که معمولاً برای توصیف یک جنبه خاص از اطلاعات مورد نیاز است. (شما می توانید یک نوع را شبیه به یک جدول رابطه ای در نظر بگیرید، و هر جدول "نوع" یک کلید خارجی در یک جدول "هویت" دارد که به طور منحصر به فرد هر موضوع را تعریف می کند.)

دامنه ها و شناسه ها

همانطور که ویژگی ها به انواع گروه بندی می شوند، انواع خود نیز در دامنه ها گروه بندی می شوند. دامنه ها را به عنوان بخش هایی در روزنامه مورد علاقه خود در نظر بگیرید: تجارت، سبک زندگی، هنر و سرگرمی، سیاست، اقتصاد و غیره. به هر دامنه یک شناسه (شناسه) داده می شود، به عنوان مثال،

  • /business شناسه دامنه کسب و کار است
  • /music - دامنه موسیقی
  • /film - دامنه فیلم
  • /medicine - دامنه پزشکی

شناسه یک دامنه شبیه یک مسیر فایل یا یک مسیر در یک آدرس وب است.

به هر نوع یک شناسه نیز داده می شود و شناسه آن بر اساس دامنه ای است که به آن تعلق دارد. به عنوان مثال، نوع Company متعلق به دامنه Business است و شناسه /business/company به آن داده می شود. در اینجا چند نمونه دیگر وجود دارد:

  • /music/album شناسه نوع آلبوم (Music) است که به دامنه Music تعلق دارد.
  • /film/actor - نوع Actor در حوزه Film
  • /medicine/disease - نوع بیماری در حوزه پزشکی

همانطور که یک نوع شروع ID خود را از دامنه خود به ارث می برد، یک ویژگی نیز شروع ID خود را از نوعی که به آن تعلق دارد به ارث می برد. به عنوان مثال، ویژگی Industry از نوع Company (که برای مشخص کردن اینکه یک شرکت در کدام صنعت است استفاده می شود) با شناسه /business/company/industry داده می شود. در اینجا چند نمونه دیگر وجود دارد:

بنابراین، حتی اگر انواع در Freebase به صورت سلسله مراتبی مرتب نشده اند. به دامنه‌ها، انواع و ویژگی‌ها شناسه‌هایی داده می‌شود که به صورت مفهومی در یک سلسله‌مراتب دایرکتوری فایل مرتب شده‌اند.

انواع ارزش مرکب

یک نوع ارزش مرکب نوعی در Freebase است که برای نمایش داده‌هایی که هر ورودی از چندین فیلد تشکیل شده است استفاده می‌شود. انواع مقادیر مرکب یا CVT در Freebase برای نمایش داده های پیچیده استفاده می شود. ممکن است در ابتدا کمی گیج کننده باشد، اما CVT ها بخش بسیار مهمی از طرح Freebase هستند و به آن اجازه می دهند تا روابط پیچیده بین موضوعات را با دقت بیشتری مدل سازی کند.

به مثال زیر فکر کنید: جمعیت برای یک شهر چیزی است که در طول زمان تغییر می کند. این بدان معناست که هر زمان که Freebase را برای جمعیت جستجو می کنید، حداقل به طور ضمنی جمعیت را در یک تاریخ خاص درخواست می کنید. دو ارزش درگیر هستند، تعدادی از افراد و تاریخ. در اینجا موقعیتی وجود دارد که در آن CVT بسیار مفید می شود. بدون یک، برای مدل‌سازی داده‌های جمعیت، باید یک موضوع بسازید و نام آن را چیزی شبیه «جمعیت ونکوور در سال 1997» بگذارید و اطلاعات را در آنجا ارسال کنید.

CVT را می توان به عنوان موضوعی در نظر گرفت که نیازی به ایجاد نام نمایشی ندارد. CVT ها مانند موضوعات عادی دارای یک GUID هستند که می توان به طور مستقل به آن ارجاع داد. با این حال، مشتری Freebase با آنها بسیار متفاوت از موضوعات رفتار می کند. در بیشتر موارد، هر ویژگی CVT باید یک ویژگی ابهام‌زدایی باشد.

MID های موضوع

در حالی که ممکن است یک موضوع با شناسه های فضای نام/کلید قابل شناسایی باشد یا نباشد، همیشه می توان آن را با یک MID - یک شناسه ماشین، که شامل /m/ و به دنبال شناسه منحصر به فرد پایه-32 است، شناسایی کرد. MIDها در زمان ایجاد به موضوعات اختصاص داده می شوند و در طول عمر موضوع مدیریت می شوند. آنها نقش مهمی را در هنگام ادغام یا تقسیم موضوعات ایفا می کنند و به برنامه های کاربردی خارجی اجازه می دهند موضوع منطقی را ردیابی کنند حتی اگر هویت فیزیکی Freebase (GUID موضوع) تغییر کند. شناسه‌های تولید شده توسط ماشین با سایر شناسه‌های Freebase قابل خواندن توسط انسان (که توسط ویژگی «id» برگردانده می‌شوند) متفاوت هستند، زیرا عبارتند از:

  • تضمین وجود دارد
  • ماشینی تولید می شود
  • طراحی شده برای پشتیبانی از مقایسه آفلاین
  • برای انتقال معنا به انسان طراحی نشده است
  • کوتاه (احتمالا طول ثابت)
  • ایده آل برای تبادل سریع کلیدها بین سیستم ها و اجزای خارجی (خارجی، مبادله)

MID ها شناسه توصیه شده برای استفاده برای پرداختن به موضوعات در Freebase هستند

فضاهای نام، کلیدها و شناسه های موضوع

سلسله‌مراتب دایرکتوری‌مانند فایل از شناسه‌های دامنه، نوع و ویژگی تنها یکی از کاربردهای مفهوم کلی‌تر است: فضاهای نام و کلیدها . فضای نام مانند دایرکتوری فایل است و کلید مانند نام فایل است. همانطور که همه نام های فایل در یک فهرست فایل خاص باید بین خودشان منحصر به فرد باشند، همه کلیدهای داخل یک فضای نام خاص نیز باید بین خودشان منحصر به فرد باشند.

به عنوان مثال خاص تر، /business فضای نام مربوط به دامنه Business است. در داخل آن، انواع مرتبط با کسب و کار کلیدهایی داده می شود (به عنوان مثال، company ) که بین خودشان منحصر به فرد هستند. شناسه هر نوع با الحاق کلید آن به شناسه فضای نام (به عنوان مثال، /business/company ) تشکیل می شود.

چندین نوع فضای نام در کنار فضاهای نام وجود دارد که با دامنه ها و انواع مطابقت دارند. مهم‌ترین و پرکاربردترین فضای نام /en است. این فضای نام انگلیسی است که در آن به اکثر موضوعات شناخته شده می توان کلیدهای منحصر به فردی داد تا شناسه های انگلیسی قابل خواندن توسط انسان را تشکیل دهند. به عنوان مثال، باب دیلن پرکار به قدری شناخته شده است که به موضوع او در Freebase کلید bob_dylan در فضای نام /en داده می شود و بنابراین شناسه موضوع /en/bob_dylan است. این شناسه به شما امکان می دهد تا با URL ساده به موضوع وی در وب کلاینت دسترسی داشته باشید

اطلاعات بیشتر در مورد Properties

آخرین مفهوم اساسی که باید مورد بحث قرار گیرد شامل یک تفاوت عمده بین ویژگی های Freebase و قیاس آنها در فناوری های پایگاه داده رابطه ای، یعنی ستون های جدول رابطه ای است. برای هر سطر، یک ستون جدول رابطه ای فقط می تواند یک مقدار را در خود جای دهد. به عنوان مثال، یک جدول رابطه ای معمولی "کتاب" با ستونی به نام "نویسنده" را در نظر بگیرید. برای هر ردیف در جدول "کتاب"، ستون "نویسنده" تنها می تواند یک کلید خارجی را برای جدول "نویسنده" نگه دارد. اگر اتفاقاً یک کتاب چندین نویسنده داشته باشد، پس این طراحی طرحواره رابطه‌ای ساده کار نمی‌کند و ما باید یک جدول جدید برای مدل‌سازی نویسندگان بسازیم. یعنی ما به یک جدول "کتاب"، یک جدول "نویسنده" و یک جدول "مؤلف" برای ذخیره روابط n-to-n بین کتاب ها و نویسندگان نیاز داریم. و نحوه بازیابی داده ها با تغییر از یک طرح به طرح دیگر کاملاً تغییر می کند.

برخلاف فناوری‌های پایگاه داده مرسوم، Freebase ویژگی‌های چند ارزشی را در مدل‌سازی داده‌های واقعی آنقدر مطلوب می‌داند که به طور پیش‌فرض از ویژگی‌های چند ارزشی پشتیبانی می‌کند. یعنی وقتی ویژگی /book/written_work/author ایجاد شد، فرض بر این بود که چندین نویسنده در هر کتاب اجازه می‌دهد، و شما می‌توانید یک ویژگی چند ارزشی و یک ویژگی تک ارزشی را دقیقاً به همان روش جستجو کنید. نیازی به فکر کردن نیست که آیا باید با جدول سومی که رابطه n-to-n را مدل می کند ملحق شوید.

خلاصه

  • نوع یک ظرف مفهومی از ویژگی های مرتبط است که معمولاً برای توصیف جنبه خاصی از یک موضوع مورد نیاز است.
  • یک موضوع را می توان یک یا چند نوع اختصاص داد (نوع پیش فرض /common/topic است)
  • همانطور که ویژگی ها به انواع گروه بندی می شوند، انواع نیز در دامنه ها گروه بندی می شوند.
  • دامنه‌ها، انواع و ویژگی‌ها در یک سلسله‌مراتب فضای نام/کلید شناسه داده می‌شوند.
  • به موضوعات شناخته شده رایج شناسه هایی در فضای نام /en داده می شود که رشته های انگلیسی قابل خواندن توسط انسان هستند.
  • موضوعات به طور منحصر به فرد در Freebase توسط GUID شناسایی می شوند.
  • ویژگی ها به طور پیش فرض چند ارزشی هستند و ویژگی های چند ارزشی و ویژگی های تک ارزشی را می توان به همین روش پرس و جو کرد.