আপনি যদি Freebase-এ নতুন হয়ে থাকেন, তাহলে এই বিভাগে Freebase কীভাবে কাজ করে তা বোঝার জন্য প্রয়োজনীয় মৌলিক পরিভাষা এবং ধারণাগুলি কভার করে।
- গ্রাফ
- বিষয়
- প্রকার এবং বৈশিষ্ট্য
- ডোমেইন এবং আইডি
- যৌগিক মূল্য প্রকার
- বিষয় MIDs
- নেমস্পেস, কী এবং টপিক আইডি
- বৈশিষ্ট্য সম্পর্কে আরো
- সারাংশ
গ্রাফ
ফ্রিবেস ডেটা গ্রাফ নামে একটি ডেটা কাঠামোতে সংরক্ষণ করা হয়। প্রান্ত দ্বারা সংযুক্ত নোডগুলিতে একটি গ্রাফ তৈরি করা হয়। ফ্রিবেসে, নোডগুলিকে /type/object ব্যবহার করে সংজ্ঞায়িত করা হয় এবং প্রান্তগুলিকে /type/link ব্যবহার করে সংজ্ঞায়িত করা হয়। একটি গ্রাফ হিসাবে ডেটা সংরক্ষণ করে, Freebase দ্রুত বিষয়গুলির মধ্যে নির্বিচারে সংযোগগুলি অতিক্রম করতে পারে এবং ডেটার গঠন পরিবর্তন না করে সহজেই নতুন স্কিমা যোগ করতে পারে।
বিষয়
মানুষ, স্থান এবং জিনিসের মতো বাস্তব-বিশ্বের সত্তা সম্পর্কে Freebase-এর 39 মিলিয়নেরও বেশি বিষয় রয়েছে। যেহেতু ফ্রিবেস ডেটা একটি গ্রাফ উপস্থাপনা করা হয়, তাই এই বিষয়গুলি গ্রাফের নোডগুলির সাথে মিলে যায়। যাইহোক, প্রতিটি নোড একটি বিষয় নয়। বিষয় নয় এমন নোডের উদাহরণ হিসেবে CVT- এর বিভাগটি দেখুন।
Freebase-এ পাওয়া বিষয়ের প্রকারের উদাহরণ:
- ভৌত সত্তা, যেমন, বব ডিলান , ল্যুভর মিউজিয়াম , শনি গ্রহ , থেকে
- শৈল্পিক/মিডিয়া সৃষ্টি, যেমন, দ্য ডার্ক নাইট (চলচ্চিত্র) , হোটেল ক্যালিফোর্নিয়া (গান) , থেকে
- শ্রেণীবিভাগ, যেমন, মহৎ গ্যাস , Chordate , থেকে
- বিমূর্ত ধারণা, যেমন, প্রেম , থেকে
- চিন্তাধারা বা শৈল্পিক আন্দোলন, যেমন, ইমপ্রেশনিজম ।
কিছু বিষয় উল্লেখযোগ্য কারণ তারা প্রচুর ডেটা ধারণ করে (যেমন, Wal-Mart ), এবং কিছু উল্লেখযোগ্য কারণ তারা তথ্যের বিভিন্ন ডোমেনে সম্ভাব্য অন্যান্য অনেক বিষয়ের সাথে লিঙ্ক করে। উদাহরণস্বরূপ, প্রেম, দারিদ্র্য, বীরত্ব ইত্যাদির মতো বিমূর্ত বিষয়গুলির সাথে অনেক বৈশিষ্ট্য যুক্ত থাকে না তবে সেগুলি প্রায়শই বইয়ের বিষয়, কবিতার বিষয়, চলচ্চিত্র বিষয় ইত্যাদি হিসাবে উপস্থিত হয় যা তাদের আরও উল্লেখযোগ্য করে তোলে।
প্রকার এবং বৈশিষ্ট্য
যে কোনো প্রদত্ত বিষয় অনেক ভিন্ন দৃষ্টিকোণ থেকে দেখা যেতে পারে উদাহরণস্বরূপ:
- বব ডিলান ছিলেন একজন গানের লেখক, গায়ক, অভিনয়শিল্পী, বইয়ের লেখক এবং চলচ্চিত্র অভিনেতা;
- লিওনার্দো দা ভিঞ্চি ছিলেন একজন চিত্রশিল্পী, একজন ভাস্কর, একজন শারীরস্থানবিদ, একজন স্থপতি, একজন প্রকৌশলী, ...;
- প্রেম একটি বইয়ের বিষয়, চলচ্চিত্রের বিষয়, নাটকের বিষয়, কবিতার বিষয়, ...;
- যে কোনো শহর একটি অবস্থান, সম্ভাব্য একটি পর্যটন গন্তব্য এবং সরকারি কর্মচারীদের নিয়োগকর্তা।
অনেক বিষয়ের এই বহুমুখী প্রকৃতিকে ক্যাপচার করার জন্য, আমরা Freebase-এ প্রকারের ধারণাটি চালু করি। Freebase-এর বিষয়গুলি যেকোন সংখ্যক প্রকারের জন্য নির্ধারিত থাকতে পারে। বব ডিলানের বিষয়বস্তু বিভিন্ন ধরনের বরাদ্দ করা হয়েছে: গানের লেখকের ধরন, সঙ্গীত রচয়িতা প্রকার, সঙ্গীত শিল্পী (গায়ক) প্রকার, বইয়ের লেখকের ধরন ইত্যাদি। প্রতিটি টাইপ সেই প্রকারের জন্য আলাদা আলাদা বৈশিষ্ট্য বহন করে। যেমন,
- মিউজিক আর্টিস্ট টাইপটিতে এমন একটি প্রপার্টি রয়েছে যা বব ডিলান যে সমস্ত অ্যালবাম তৈরি করেছে এবং সেইসঙ্গে তিনি যে সমস্ত মিউজিক ইন্সট্রুমেন্ট বাজাতেন তা তালিকাভুক্ত করে;
- বইয়ের লেখকের ধরণে এমন একটি সম্পত্তি রয়েছে যা বব ডিলানের লেখা বা সম্পাদিত সমস্ত বই তালিকাভুক্ত করে, সেইসাথে তার লেখার চিন্তা বা আন্দোলনের স্কুল;
- কোম্পানির ধরণে একটি কোম্পানির প্রতিষ্ঠাতা, বোর্ড সদস্য, মূল কোম্পানি, বিভাগ, কর্মচারী, পণ্য, বছর বছর রাজস্ব এবং লাভের রেকর্ড ইত্যাদি তালিকাভুক্ত করার জন্য অনেক সম্পত্তি রয়েছে।
সুতরাং, একটি প্রকারকে বৈশিষ্ট্যগুলির একটি ধারণাগত ধারক হিসাবে বিবেচনা করা যেতে পারে যা তথ্যের একটি নির্দিষ্ট দিক বর্ণনা করার জন্য সবচেয়ে বেশি প্রয়োজন। (আপনি একটি রিলেশনাল টেবিলের অনুরূপ একটি টাইপকে ভাবতে পারেন এবং প্রতিটি "টাইপ" টেবিলের একটি "পরিচয়" টেবিলে একটি বিদেশী কী থাকে যা প্রতিটি বিষয়কে স্বতন্ত্রভাবে সংজ্ঞায়িত করে।)
ডোমেইন এবং আইডি
প্রপার্টিগুলিকে যেমন প্রকারভেদে গোষ্ঠীভুক্ত করা হয়, তেমনি প্রকারগুলিকে ডোমেনে গোষ্ঠীভুক্ত করা হয়। আপনার প্রিয় সংবাদপত্রের বিভাগ হিসাবে ডোমেনগুলিকে ভাবুন: ব্যবসা, জীবন শৈলী, শিল্প ও বিনোদন, রাজনীতি, অর্থনীতি, ইত্যাদি। প্রতিটি ডোমেনে একটি আইডি (পরিচয়কারী) দেওয়া হয়, যেমন,
-
/business
হল বিজনেস ডোমেনের আইডি -
/music
- সঙ্গীত ডোমেন -
/film
- ফিল্ম ডোমেন -
/medicine
- মেডিসিন ডোমেইন
একটি ডোমেনের আইডি একটি ফাইল পাথ, বা একটি ওয়েব ঠিকানার একটি পাথ মত দেখায়.
প্রতিটি প্রকারকে একটি আইডিও দেওয়া হয় এবং এর আইডি এটি যে ডোমেনের অন্তর্গত তার উপর ভিত্তি করে। উদাহরণস্বরূপ, কোম্পানির ধরনটি ব্যবসায়িক ডোমেনের অন্তর্গত, এবং এটিকে ID /business/company
দেওয়া হয়েছে। এখানে কিছু অন্যান্য উদাহরণ আছে:
-
/music/album
হল মিউজিক ডোমেনের অন্তর্গত (মিউজিক) অ্যালবামের আইডি -
/film/actor
- ফিল্ম ডোমেনে অভিনেতার ধরন -
/medicine/disease
- মেডিসিন ডোমেনে রোগের ধরন
একটি টাইপ যেমন তার ডোমেন থেকে তার আইডির শুরুতে উত্তরাধিকার সূত্রে প্রাপ্ত হয়, তেমনি একটি প্রপার্টিও তার আইডির সূচনাটি যে ধরনের অন্তর্ভুক্ত তার থেকে উত্তরাধিকার সূত্রে পায়। উদাহরণস্বরূপ, কোম্পানির প্রকারের শিল্প সম্পত্তি (কোন কোম্পানি কোন শিল্পে রয়েছে তা নির্দিষ্ট করার জন্য ব্যবহৃত) আইডি /business/company/industry
দেওয়া হয়। এখানে কিছু অন্যান্য উদাহরণ আছে:
-
/automotive/engine/horsepower
হল (অটোমোটিভ) ইঞ্জিন প্রকারের অশ্বশক্তি সম্পত্তির আইডি -
/astronomy/star/planet_s
হল স্টার টাইপের প্ল্যানেট সম্পত্তির আইডি (একটি নক্ষত্রের চারপাশে গ্রহ তালিকার জন্য ব্যবহৃত হয়) -
/language/human_language/writing_system
হল মানব ভাষার টাইপের রাইটিং সিস্টেম প্রপার্টির আইডি
এইভাবে, যদিও প্রকারগুলিকে Freebase-এ শ্রেণিবিন্যাসে সাজানো হয় না; ডোমেন, প্রকার এবং বৈশিষ্ট্যগুলিকে আইডি দেওয়া হয় যা ধারণাগতভাবে ফাইল ডিরেক্টরি-এর মতো অনুক্রমের মধ্যে সাজানো হয়।
যৌগিক মূল্য প্রকার
একটি যৌগিক মান টাইপ হল ফ্রিবেসের মধ্যে একটি প্রকার যা ডেটা উপস্থাপন করতে ব্যবহৃত হয় যেখানে প্রতিটি এন্ট্রি একাধিক ক্ষেত্র নিয়ে গঠিত। জটিল ডেটার প্রতিনিধিত্ব করতে ফ্রিবেসে যৌগিক মান প্রকার বা CVT ব্যবহার করা হয়। এটি প্রথমে একটু বিভ্রান্তিকর হতে পারে, কিন্তু CVT-গুলি Freebase স্কিমার একটি অত্যন্ত গুরুত্বপূর্ণ অংশ এবং এটি বিষয়গুলির মধ্যে জটিল সম্পর্ককে আরও সঠিকভাবে মডেল করার অনুমতি দেয়।
নিম্নলিখিত উদাহরণ সম্পর্কে চিন্তা করুন: একটি শহরের জনসংখ্যা এমন কিছু যা সময়ের সাথে পরিবর্তিত হয়। এর মানে, আপনি যখনই জনসংখ্যার জন্য ফ্রিবেসকে প্রশ্ন করেন, আপনি অন্তত একটি নির্দিষ্ট তারিখে একটি জনসংখ্যার জন্য জিজ্ঞাসা করছেন। দুটি মান জড়িত, অনেক লোক এবং তারিখ। এখানে একটি পরিস্থিতি যেখানে একটি CVT অত্যন্ত দরকারী হয়ে ওঠে। একটি ছাড়া, জনসংখ্যার ডেটা মডেল করার জন্য, আপনাকে একটি বিষয় তৈরি করতে হবে এবং "1997 সালে ভ্যাঙ্কুভারের জনসংখ্যা" এর মতো কিছু নাম দিতে হবে এবং সেখানে তথ্য জমা দিতে হবে।
একটি সিভিটি এমন একটি বিষয় হিসাবে ভাবা যেতে পারে যার জন্য আপনাকে একটি প্রদর্শন নাম তৈরি করতে হবে না। CVT-এর, সাধারণ বিষয়গুলির মতো, একটি GUID আছে যা স্বাধীনভাবে উল্লেখ করা যেতে পারে। যাইহোক, ফ্রিবেস ক্লায়েন্ট তাদের বিষয়গুলির তুলনায় অনেক আলাদাভাবে আচরণ করে। বেশিরভাগ ক্ষেত্রে, CVT-এর প্রতিটি সম্পত্তি একটি দ্ব্যর্থতামূলক সম্পত্তি হওয়া উচিত।
বিষয় MIDs
যদিও একটি বিষয় নেমস্পেস/কী আইডি দ্বারা শনাক্তযোগ্য হতে পারে বা নাও হতে পারে, এটি সর্বদা একটি MID - একটি মেশিন শনাক্তকারী দ্বারা চিহ্নিত করা যেতে পারে, যা /m/
পরে একটি বেস-32 অনন্য শনাক্তকারী থাকে৷ এমআইডিগুলি তৈরির সময় বিষয়গুলিতে বরাদ্দ করা হয়, এবং বিষয়ের জীবনকাল জুড়ে পরিচালিত হয়। যখন বিষয়গুলি একত্রিত বা বিভক্ত করা হয় তখন তারা একটি গুরুত্বপূর্ণ ভূমিকা পালন করে, বহিরাগত অ্যাপ্লিকেশনগুলিকে যৌক্তিক বিষয় ট্র্যাক করার অনুমতি দেয় যদিও প্রকৃত ফ্রিবেস পরিচয় (বিষয়টির GUID) পরিবর্তন হতে পারে। মেশিন-জেনারেটেড আইডি অন্যান্য মানব-পাঠযোগ্য ফ্রিবেস আইডি ("আইডি" বৈশিষ্ট্য দ্বারা প্রত্যাবর্তিত) থেকে আলাদা যে তারা হল:
- থাকার নিশ্চয়তা
- মেশিনে তৈরি
- অফলাইন তুলনা সমর্থন করার জন্য ডিজাইন করা হয়েছে
- মানুষের কাছে অর্থ বোঝানোর জন্য ডিজাইন করা হয়নি
- ছোট (সম্ভবত নির্দিষ্ট দৈর্ঘ্য)
- বাহ্যিক সিস্টেম এবং উপাদানগুলির মধ্যে কীগুলির দ্রুত বিনিময়ের জন্য আদর্শ (বাহ্যিক, বিনিময়)
MIDs হল ফ্রিবেসের বিষয়গুলিকে সম্বোধন করার জন্য ব্যবহার করার জন্য প্রস্তাবিত শনাক্তকারী৷
নেমস্পেস, কী এবং টপিক আইডি
ডোমেইন, টাইপ এবং প্রপার্টি আইডি-র ফাইল ডিরেক্টরি-এর মতো শ্রেণিবিন্যাস হল আরও সাধারণ ধারণার একটি অ্যাপ্লিকেশন: নেমস্পেস এবং কী । একটি নামস্থান একটি ফাইল ডিরেক্টরির মতো এবং একটি কী একটি ফাইলের নামের মতো। ঠিক যেমন একটি নির্দিষ্ট ফাইল ডিরেক্টরির মধ্যে সমস্ত ফাইলের নাম নিজেদের মধ্যে অনন্য হতে হবে, একটি নির্দিষ্ট নামস্থানের মধ্যে থাকা সমস্ত কীগুলিও নিজেদের মধ্যে অনন্য হতে হবে।
আরও নির্দিষ্ট উদাহরণ হিসাবে, /business
হল ব্যবসা ডোমেনের সাথে সম্পর্কিত নামস্থান। এটির মধ্যে, ব্যবসা-সম্পর্কিত প্রকারগুলি কী (যেমন, company
) দেওয়া হয় যা নিজেদের মধ্যে অনন্য। প্রতিটি প্রকারের আইডি নেমস্পেসের আইডিতে (যেমন, /business/company
) এর কী যুক্ত করে গঠিত হয়।
নেমস্পেসের পাশে বিভিন্ন ধরণের নামস্থান রয়েছে যা ডোমেন এবং প্রকারের সাথে সামঞ্জস্যপূর্ণ। সবচেয়ে গুরুত্বপূর্ণ এবং প্রায়শই সম্মুখীন হয় /en
নামস্থান। এটি এমন ইংরেজি নামস্থান যেখানে সর্বাধিক পরিচিত বিষয়গুলিকে মানব-পাঠযোগ্য ইংরেজি আইডি তৈরি করতে অনন্য কী দেওয়া যেতে পারে। উদাহরণ স্বরূপ, বব ডিলান এতটাই সুপরিচিত যে ফ্রিবেসে তার টপিকটি /en
নামস্থানে কী bob_dylan
দেওয়া হয়েছে এবং তাই টপিকের আইডি হল /en/bob_dylan
। এই আইডি আপনাকে সহজ URL দিয়ে ওয়েব ক্লায়েন্টে তার বিষয় অ্যাক্সেস করতে দেয়
বৈশিষ্ট্য সম্পর্কে আরো
আলোচনা করার জন্য শেষ মৌলিক ধারণাটি ফ্রিবেস বৈশিষ্ট্য এবং রিলেশনাল ডাটাবেস প্রযুক্তিতে তাদের সাদৃশ্যের মধ্যে একটি প্রধান পার্থক্য জড়িত, যথা রিলেশনাল টেবিল কলাম। প্রতিটি সারির জন্য, একটি রিলেশনাল টেবিল কলাম শুধুমাত্র একটি মান ধরে রাখতে পারে। উদাহরণস্বরূপ, "লেখক" নামে একটি কলাম সহ একটি সাধারণ "বই" রিলেশনাল টেবিল বিবেচনা করুন। "বই" সারণির প্রতিটি সারির জন্য, "লেখক" কলাম একটি "লেখক" টেবিলে শুধুমাত্র একটি বিদেশী কী ধরে রাখতে পারে। যদি একটি বইয়ের একাধিক লেখক থাকে, তাহলে এই সহজ রিলেশনাল স্কিমা ডিজাইনটি কাজ করে না, এবং লেখকদের মডেল করার জন্য আমাদের একটি নতুন টেবিল তৈরি করতে হবে। অর্থাৎ, বই এবং লেখকের মধ্যে n-to-n সম্পর্ক সংরক্ষণ করতে আমাদের একটি "বই" টেবিল, একটি "লেখক" টেবিল এবং একটি "লেখক" টেবিলের প্রয়োজন হবে। এবং আপনি একটি স্কিমা ডিজাইন থেকে অন্য স্কিমা ডিজাইনে স্যুইচ করার সাথে সাথে আপনি যেভাবে ডেটা পুনরুদ্ধার করেন তা বেশ আমূল পরিবর্তন হয়।
প্রচলিত ডাটাবেস প্রযুক্তির বিপরীতে, Freebase বহু-মূল্য বৈশিষ্ট্যকে বাস্তব-জীবনের ডেটা মডেলিং করার ক্ষেত্রে এতটাই পছন্দনীয় বলে মনে করে যে এটি ডিফল্টরূপে বহু-মূল্য বৈশিষ্ট্য সমর্থন করে। অর্থাৎ, যখন /book/written_work/author
সম্পত্তি তৈরি করা হয়েছিল, তখন ধরে নেওয়া হয়েছিল যে এটি প্রতি বইয়ের একাধিক লেখকের জন্য অনুমতি দেয় এবং আপনি একটি বহু-মূল্যের সম্পত্তি এবং একটি একক-মূল্যের সম্পত্তির জন্য ঠিক একইভাবে অনুসন্ধান করতে পারেন। এন-টু-এন সম্পর্ককে মডেল করে এমন একটি তৃতীয় টেবিলের সাথে যোগদানের প্রয়োজন হলে ভাবার দরকার নেই।
সারাংশ
- একটি টাইপ হল সম্পর্কিত বৈশিষ্ট্যগুলির একটি ধারণাগত ধারক যা সাধারণত একটি বিষয়ের একটি নির্দিষ্ট দিক বর্ণনা করার জন্য প্রয়োজন।
- একটি বিষয় এক বা একাধিক প্রকার বরাদ্দ করা যেতে পারে (ডিফল্ট প্রকার
/common/topic
) - প্রপার্টিগুলো যেমন টাইপের মধ্যে গ্রুপ করা হয়, টাইপগুলোকে ডোমেনে গ্রুপ করা হয়।
- ডোমেন, প্রকার এবং বৈশিষ্ট্য একটি নেমস্পেস/কী অনুক্রমে আইডি দেওয়া হয়।
- সাধারণ সুপরিচিত বিষয়গুলিকে
/en
নামস্থানে আইডি দেওয়া হয়, যা মানব-পাঠযোগ্য ইংরেজি স্ট্রিং। - GUIDs দ্বারা Freebase-এর মধ্যে বিষয়গুলি স্বতন্ত্রভাবে চিহ্নিত করা হয়।
- বৈশিষ্ট্যগুলি ডিফল্টরূপে বহু-মান, এবং বহু-মূল্য বৈশিষ্ট্য এবং একক-মূল্য বৈশিষ্ট্য একইভাবে জিজ্ঞাসা করা যেতে পারে।