ডেটাসেট

নাম, বিবরণ, স্রষ্টা ও বিতরণের ফর্ম্যাটের মতো সংশ্লিষ্ট তথ্য স্ট্রাকচার্ড ডেটা হিসেবে দেওয়া থাকলে, ডেটাসেট সহজে খুঁজে পাওয়া যায়। ডেটাসেট খোঁজার জন্য Google, schema.org বা অন্যান্য মেটাডেটা স্ট্যান্ডার্ড ব্যবহার করে যেটি ডেটাসেটের বিবরণ আছে এমন পৃষ্ঠায় যোগ করা যায়। এই মার্ক-আপের উদ্দেশ্য হল জীব বিজ্ঞান, সমাজ বিজ্ঞান, মেশিন লার্নিং, নাগরিক ও সরকারি ডেটা সহ অন্যান্য বিষয় সম্পর্কে ডেটাসেট খোঁজার কাজকে আরও উন্নত করা।

যেগুলিকে ডেটাসেট হিসেবে ধরা যেতে পারে সেগুলির উদাহরণ নিচে দেওয়া হল:

  • কিছু ডেটা সহ একটি সারণী বা CSV ফাইল
  • একাধিক সারণী নিয়ে সংগঠিত সংগ্রহ
  • মালিকানার অধীনে আছে এমন ফর্ম্যাটে ডেটা সহ একটি ফাইল
  • একসাথে একটি অর্থবহ ডেটাসেটকে নির্দেশ করে এমন ফাইলের একটি সংগ্রহ
  • অন্য ফর্ম্যাটে ডেটা সহ একটি স্ট্রাকচার্ড অবজেক্ট যা একটি বিশেষ টুলে প্রসেস করার জন্য আপনি লোড করতে পারেন
  • ডেটা সংগ্রহ করছে এমন ছবি
  • মেশিন লার্নিং সম্পর্কিত ফাইল, যেমন প্রশিক্ষিত প্যারামিটার বা নিউরাল নেটওয়ার্ক স্ট্রাকচারের সংজ্ঞা
  • ডেটাসেট বলে আপনার মনে হচ্ছে এমন কিছু

আমাদের ডেটাসেট খোঁজার পদ্ধতি

ডেটাসেট সহ যে ওয়েব পৃষ্ঠা schema.org ডেটাসেট মার্ক-আপ বা W3C-এর Data Catalog Vocabulary (DCAT) ফর্ম্যাট-এ উল্লেখ করা অনুরূপ স্ট্রাকচার ব্যবহার করে সেটির স্ট্রাকচার্ড ডেটা আমরা বুঝতে পারি। W3C CSVW-এর উপর নির্ভর করে এমন স্ট্রাকচার্ড ডেটাকে আমরা পরীক্ষামূলকভাবে সমর্থন করছি এবং ডেটাসেটকে মার্ক-আপ করার জন্য নতুন পেশাদার পদ্ধতির তৈরি হওয়ার সাথে সাথে আমাদের ডেটাসেট খোঁজার পদ্ধতিকে আরও উন্নত করছি। ডেটাসেট খোঁজার ব্যাপারে আমাদের পদ্ধতি সম্পর্কে আরও তথ্য পেতে সর্বজনীন ডেটাসেট খুঁজে পাওয়াকে সহজ করা দেখুন।

উদাহরণ

স্ট্রাকচার্ড ডেটা টেস্টিং টুলে JSON-LD সিন্ট্যাক্স (পছন্দের) ব্যবহার করে ডেটাসেটের একটি উদাহরণ এখানে দেওয়া হল। এটি RDFa 1.1, মাইক্রোডেটা বা W3C DCAT ক্ষেত্রেও ব্যবহার করা যাবে। নিম্নলিখিত উদাহরণটি বাস্তব জগতের একটি ডেটাসেটের বিবরণ-এর উপর নির্ভর করে তৈরি।

JSON-LD

স্ট্রাকচার্ড ডেটা টেস্টিং টুল ব্যবহার করে JSON-LD-এ ডেটাসেটের একটি উদাহরণ এখানে দেখুন।

RDFa

স্ট্রাকচার্ড ডেটা টেস্টিং টুল ব্যবহার করে RDFa ডেটাসেটের একটি উদাহরণ এখানে দেখুন।

নির্দেশিকা

সাইটকে স্ট্রাকচার্ড ডেটা নির্দেশিকা অনুসরণ করতে হবে। স্ট্রাকচার্ড ডেটা নির্দেশিকার সাথে নিম্নলিখিত সাইটম্যাপ এবং সূত্র ও উৎস সংক্রান্ত পেশাদার পদ্ধতি মেনে চললে ভাল হয়।

সাইটম্যাপ তৈরির পেশাদার পদ্ধতি

আপনার ইউআরএল খুঁজে পেতে Google-কে সাহায্য করার জন্য একটি সাইটম্যাপ ফাইল ব্যবহার করুন। আপনার সমগ্র সাইটে ডেটাসেটের বিবরণ কীভাবে দেওয়া হয়েছে তা বুঝতে সাইটম্যাপ ফাইল ও sameAs মার্ক-আপ সাহায্য করে।

আপনার কাছে ডেটাসেটের একটি ভান্ডার থাকলে, আপনার সম্ভবত দুই ধরনের পৃষ্ঠা থাকবে: প্রত্যেক ডেটাসেটের জন্য সেরা ("ল্যান্ডিং") পৃষ্ঠা এবং একাধিক ডেটাসেটের সূচি আছে এমন পৃষ্ঠা (যেমন সার্চের ফলাফল বা ডেটাসেটের কোনও সাবসেট)। আমাদের প্রস্তাব হল যে সেরা পৃষ্ঠাগুলিতে ডেটাসেট সম্পর্কে স্ট্রাকচার্ড ডেটা যোগ করুন। ডেটাসেটের একাধিক কপিতে (যেমন সার্চের ফলাফলের পৃষ্ঠায় তালিকা) স্ট্রাকচার্ড ডেটা যোগ করলে sameAs প্রপার্টি ব্যবহার করে সেরা পৃষ্ঠায় লিঙ্ক করুন।

সূত্র ও উৎস সংক্রান্ত পেশাদার পদ্ধতি

সর্বজনীন ডেটাসেট প্রায়ই আবার প্রকাশিত ও একত্রিত হয়ে থাকে এবং অন্য ডেটাসেটের উপর নির্ভর করে তৈরি হয়ে থাকে। এটি হল একটি প্রাথমিক রূপরেখা যা ডেটাসেটটি একটি কপি হলে বা অন্য ডেটাসেটের উপর নির্ভর করে তৈরি হয়ে থাকলে কীভাবে তা প্রকাশ করা হয় সেটি ব্যক্ত করে।

  • পূর্বে অন্য কোথাও প্রকাশিত হয়েছে এমন ডেটাসেট বা বিবরণ আবার ব্যবহার করা হয়ে থাকলে আসল উৎসের সবচেয়ে সেরা ইউআরএল নির্দেশ করার জন্য sameAs প্রপার্টি ব্যবহার করুন।
  • আবার প্রকাশিত ডেটাসেটে (মেটাডেটা সহ) গুরুত্বপূর্ণ পরিবর্তন করা হয়ে থাকলে, isBasedOn প্রপার্টি ব্যবহার করুন।
  • একাধিক ডেটাসেট থেকে নিয়ে বা একত্রিত করে ডেটাসেটটি তৈরি করা হলে, isBasedOn প্রপার্টি ব্যবহার করুন।
  • যেকোনও প্রাসঙ্গিক Digital Object Identifiers (DOIs)-এর সাথে identifier প্রপার্টি যোগ করুন।

উৎস, ভার্সন ও টাইম সিরিজ প্রকাশনার সাথে সংশ্লিষ্ট তারিখের বিষয়ে আমাদের প্রস্তাবনার উন্নতি করতে আপনার মতামতের উপর আমরা নির্ভর করি। কমিউনিটির আলোচনায় যোগদান করুন।

পরিচিত সমস্যা ও সতর্কতা

Google-এর স্ট্রাকচার্ড ডেটা টেস্টিং টুল বা যাচাইকরণের অন্যান্য সিস্টেম আপনাকে কিছু সমস্যা ও সতর্কতা দেখাতে পারে। fileFormat-এর (যেটি সাম্প্রতিক encodingFormat হিসেবে নামকরণ করা হয়েছে) বিষয়ে সতর্কতা উপেক্ষা করা যেতে পারে। যাচাইকরণের সিস্টেম সংস্থার জন্য contactType-এর মতো কোনও যোগাযোগের তথ্য উল্লেখ করার প্রস্তাব করতে পারে; এর জন্য উপযোগী মান হল customer service, emergency, journalist, newsroompublic engagementcsvw:Table-কে mainEntity প্রপার্টির জন্য অপ্রত্যাশিত মান বলে দেখালে আপনি তা উপেক্ষা করতে পারেন।

বিভিন্ন ধরনের স্ট্রাকচার্ড ডেটার সংজ্ঞা

বিশিষ্ট ফলাফল হিসেবে দেখানোর উপযোগী করতে আপনার কন্টেন্টে প্রয়োজনীয় প্রপার্টিগুলি থাকতে হবে। প্রস্তাবিত প্রপার্টিগুলি যোগ করে আপনার কন্টেন্ট সম্পর্কে আরও তথ্য প্রদান করতে পারেন ও একইসঙ্গে ব্যবহারকারীর অভিজ্ঞতাকে আরও উন্নত করতে পারেন।

আপনার মার্ক-আপ যাচাই করার জন্য স্ট্রাকচার্ড ডেটা টেস্টিং টুল ব্যবহার করতে পারেন।

এর উদ্দেশ্য হল একটি ডেটাসেটের সম্পর্কে বিবরণ দেওয়া (এটির মেটাডেটা) ও এটির কন্টেন্টের প্রতিনিধিত্ব করা। যেমন, ডেটাসেটটি কী বিষয়ে, কোন ভেরিয়েবেল এটি পরিমাপ করে, কে এটি তৈরি করেছেন ইত্যাদি ডেটাসেট মেটাডেটাতে থাকে। কিন্তু কোনও ভেরিয়েবেলের নির্দিষ্ট মান এতে থাকে না।

ডেটাসেট

Dataset-এর সম্পূর্ণ সংজ্ঞা schema.org/Dataset-এ দেওয়া আছে।

ডেটাসেটের প্রকাশনার বিষয়ে অতিরিক্ত তথ্য আপনি বর্ণনা করতে পারেন, যেমন লাইসেন্স, প্রকাশনার তারিখ, DOI বা অন্য ভান্ডারে থাকা ডেটাসেটের সেরা ভার্সনকে নির্দেশ করছে এমন sameAs। উৎস ও লাইসেন্সের তথ্য প্রদান করছে এমন ডেটাসেটে identifier, licensesameAs যোগ করুন।

প্রয়োজনীয় প্রপার্টি
description Text

ডেটাসেটের সংক্ষিপ্ত বিবরণ।

name Text

ডেটাসেটকে সঠিকভাবে বর্ণনা করে এমন একটি নাম। যেমন, "উত্তর-পূর্ব ভারতে বৃষ্টিপাতের হার"।

প্রস্তাবিত প্রপার্টি
citation Text অথবা CreativeWork

ডেটাসেটের বিবরণ দেয় এমন একটি প্রকাশনার উদ্ধৃতি। যেমন, "যদু মিত্র 'আমি কীভাবে একটি অনন্য ডেটাসেট তৈরি করলাম', আধুনিক ডেটা সায়েন্স, ১৯৯৬"।

identifier URL, Text অথবা PropertyValue

DOI-এর মতো ডেটাসেটের জন্য একটি শনাক্তকারী।

keywords Text

ডেটাসেটকে সংক্ষেপে বিবৃত করছে এমন কীওয়ার্ড।

license URL, Text

যে লাইসেন্সের মাধ্যমে ডেটাসেটটি বিতরণ করা হচ্ছে।

sameAs URL

একই ডেটাসেট সম্পর্কে আরও তথ্য প্রদান করে এমন অন্য ভান্ডারে অবস্থিত একটি পৃষ্ঠার লিঙ্ক।

spatialCoverage Text, Place

যে স্থান থেকে ডেটাসেটের ডেটা সংগ্রহ করা হয়েছে সেটি লিখতে পারেন। ডেটাসেটে স্থানের কোনও মাত্রা থাকলেই শুধুমাত্র এই প্রপার্টি যোগ করবেন। যেমন, নির্দিষ্ট যে স্থান বা বৃহত্তর এলাকা থেকে সব ডেটা সংগ্রহ করা হয়েছে তার অক্ষাংশ ও দ্রাঘিমাংশ।

স্থান

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

স্থানাঙ্ক

বিভিন্ন এলাকার আকারের বিবরণ দিতে GeoShape ব্যবহার করুন। যেমন, এলাকার আকার নির্দিষ্ট করতে স্থানাঙ্কের উল্লেখ।

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

লোকেশনের নাম

"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

ডেটাসেটের ডেটা একটি নির্দিষ্ট সময়ের ব্যবধান সম্পর্কে বলে। ডেটাসেটে সময়ের মাত্রা থাকলেই শুধুমাত্র এই প্রপার্টি যোগ করবেন। সময়ের ব্যবধান ও নির্দিষ্ট সময়কে বোঝাতে Schema.org ISO 8601 স্ট্যান্ডার্ড ব্যবহার করে। ডেটাসেটের ব্যবধানের উপর নির্ভর করে আপনি অন্য রকমভাবে তারিখের বিবরণ দিতে পারেন। দুটি দশমিক (..) দিয়ে আপনি শেষ জানা যায় না এমন সময়কাল নির্দেশ করতে পারেন।

একটি তারিখ

"temporalCoverage" : "2008"

সময়কাল

"temporalCoverage" : "1950-01-01/2013-12-18"

শেষ জানা যায় না এমন সময়কাল

"temporalCoverage" : "2013-12-19/.."
variableMeasured Text, PropertyValue

যে ভেরিয়েবেল এই ডেটাসেটটি পরিমাপ করে। যেমন, তাপমাত্রা ও চাপ।

version Text, Number

ডেটাসেটের ভার্সন নম্বর।

url URL

ডেটাসেটের বিবরণ দিচ্ছে এমন পৃষ্ঠার লোকেশন।

DataCatalog

DataCatalog-এর সম্পূর্ণ সংজ্ঞা schema.org/DataCatalog-এ দেওয়া আছে।

ডেটাসেট অনেক সময় এমন ভান্ডারে প্রকাশ করা হয় যেখানে অন্যান্য ডেটাসেটও আছে। একই ডেটাসেট সেই ধরনের একাধিক ভান্ডারের অন্তর্ভুক্ত হতে পারে। এই ডেটাসেট আছে এমন একটি ডেটা ক্যাটালগকে আপনি সরাসরি নির্দেশ করতে পারেন।

প্রস্তাবিত প্রপার্টি
includedInDataCatalog DataCatalog

যে ক্যাটালগে এই ডেটাসেট অন্তর্ভুক্ত আছে।

DataDownload

DataDownload-এর সম্পূর্ণ সংজ্ঞা schema.org/DataDownload-এ দেওয়া আছে। ডাউনলোড করার সুবিধা আছে এমন ডেটাসেটের ক্ষেত্রে ডেটাসেট প্রপার্টির সাথে নিম্নলিখিত প্রপার্টিগুলি যোগ করুন।

যেহেতু ইউআরএল অধিকাংশ সময় ডেটাসেটের বিবরণ আছে এমন একটি ল্যান্ডিং পৃষ্ঠায় নিয়ে যায়, তাই ডেটাসেটটি কীভাবে পাওয়া যাবে তার একটি বিবরণ distribution প্রপার্টি থেকে পাওয়া যায়। distribution প্রপার্টি কোথায় এবং কী ফর্ম্যাটে ডেটা পাওয়া যাবে তার বিবরণ দেয়। এই প্রপার্টির একাধিক মান থাকতে পারে: যেমন, যখন একটি ইউআরএলে CSV ভার্সন ও আরেকটিতে Excel ভার্সন আছে।

প্রয়োজনীয় প্রপার্টি
distribution.contentUrl URL

যে লিঙ্ক থেকে ডাউনলোড করা যাবে।

প্রপার্টি
distribution DataDownload

যে লোকেশন থেকে ডেটাসেট ডাউনলোড করা যাবে এবং যে ফাইল ফর্ম্যাট হিসেবে তা ডাউনলোড হবে তার বিবরণ।

distribution.fileFormat Text

বিতরণের জন্য ফাইল ফর্ম্যাট।

সারণীবদ্ধ ডেটাসেট

সারণীবদ্ধ ডেটাসেট সারি ও কলামে সাজানো থাকে। যে পৃষ্ঠাগুলি সারণীবদ্ধ ডেটাসেট এম্বেড করে, সেগুলির জন্য আপনি উপরে উল্লিখিত পদ্ধতি ছাড়াও উপযুক্ত মার্ক-আপ তৈরি করতে পারেন। আমরা বর্তমানে CSVW-এর ("CSV on the Web", W3C দেখুন) একটি প্রকার বুঝতে পারি যদি তা HTML পৃষ্ঠায় ব্যবহারকারীর কথা ভেবে তৈরি সারণীবদ্ধ কন্টেন্টের সাথে প্রদান করা থাকে।

CSVW JSON-LD ফর্ম্যাটে এনকোড করা একটি ছোট সারণীর উদাহরণ নিচে দেওয়া হল। স্ট্রাকচার্ড ডেটা টেস্টিং টুলে কিছু পরিচিত সমস্যা আছে।

সহায়তা ও টুল

Send feedback about...

সার্চ
সার্চ