ডেটাসেট

নাম, বিবরণ, স্রষ্টা ও বিতরণের ফর্ম্যাটের মতো সংশ্লিষ্ট তথ্য স্ট্রাকচার্ড ডেটা হিসেবে দেওয়া থাকলে, ডেটাসেট সহজে খুঁজে পাওয়া যায়। ডেটাসেট খোঁজার জন্য Google, schema.org বা অন্যান্য মেটাডেটা স্ট্যান্ডার্ড ব্যবহার করে। ডেটাসেটের বিবরণ আছে এমন পৃষ্ঠায় সেটি যোগ করা যায়। এই মার্ক-আপের উদ্দেশ্য হল জীব বিজ্ঞান, সমাজ বিজ্ঞান, মেশিন লার্নিং, নাগরিক ও সরকারি ডেটা সহ অন্যান্য বিষয় সম্পর্কে ডেটাসেট খোঁজার কাজকে আরও উন্নত করা।

যেগুলিকে ডেটাসেট হিসেবে ধরা যেতে পারে সেগুলির উদাহরণ নিচে দেওয়া হল:

  • কিছু ডেটা সহ একটি সারণী বা CSV ফাইল
  • একাধিক সারণী নিয়ে তৈরি একটি সংগ্রহ
  • মালিকানাধীন আছে এমন ফর্ম্যাটে ডেটা সহ একটি ফাইল
  • একসাথে একটি অর্থবহ ডেটাসেটকে নির্দেশ করে এমন একাধিক ফাইলের একটি সংগ্রহ
  • অন্য ফর্ম্যাটে ডেটা সহ একটি স্ট্রাকচার্ড অবজেক্ট যা একটি বিশেষ টুলে প্রসেস করার জন্য আপনি লোড করতে পারেন
  • ডেটা সংগ্রহ করছে এমন ছবি
  • মেশিন লার্নিং সম্পর্কিত ফাইল, যেমন প্রশিক্ষিত প্যারামিটার বা নিউরাল নেটওয়ার্ক স্ট্রাকচারের সংজ্ঞা
  • ডেটাসেট বলে আপনার মনে হচ্ছে এমন কিছু

আমাদের ডেটাসেট খোঁজার পদ্ধতি

ডেটাসেট সহ যে ওয়েব পৃষ্ঠা schema.org ডেটাসেট মার্ক-আপ বা W3C-এর Data Catalog Vocabulary (DCAT) ফর্ম্যাট-এ উল্লেখ করা অনুরূপ স্ট্রাকচার ব্যবহার করে, সেটির স্ট্রাকচার্ড ডেটা আমরা বুঝতে পারি। W3C CSVW-এর উপর নির্ভর করে এমন স্ট্রাকচার্ড ডেটাকে আমরা পরীক্ষামূলকভাবে ব্যবহার করছি এবং ডেটাসেটকে মার্ক-আপ করার জন্য নতুন পেশাদার পদ্ধতির তৈরি হওয়ার সাথে সাথে আমাদের ডেটাসেট খোঁজার পদ্ধতিকে আরও উন্নত করছি। ডেটাসেট খোঁজার ব্যাপারে আমাদের পদ্ধতি সম্পর্কে আরও তথ্য পেতে সর্বজনীন ডেটাসেট খুঁজে পাওয়াকে সহজ করা দেখুন।

উদাহরণ

স্ট্রাকচার্ড ডেটা টেস্টিং টুলে JSON-LD সিন্ট্যাক্স (পছন্দের) ব্যবহার করে ডেটাসেটের একটি উদাহরণ এখানে দেওয়া হল। এটি RDFa 1.1, মাইক্রোডেটা বা W3C DCAT ক্ষেত্রেও ব্যবহার করা যাবে। নিম্নলিখিত উদাহরণটি বাস্তব জগতের একটি ডেটাসেটের বিবরণ-এর উপর নির্ভর করে তৈরি।

JSON-LD

স্ট্রাকচার্ড ডেটা টেস্টিং টুল ব্যবহার করে JSON-LD কোডে লেখা ডেটাসেটের একটি উদাহরণ নিচে দেওয়া হল।

RDFa

স্ট্রাকচার্ড ডেটা টেস্টিং টুল ব্যবহার করে RDFa কোডে লেখা ডেটাসেটের একটি উদাহরণ নিচে দেওয়া হল।

নির্দেশিকা

সাইটকে স্ট্রাকচার্ড ডেটা সংক্রান্ত নির্দেশিকা অনুসরণ করতে হবে। স্ট্রাকচার্ড ডেটা সংক্রান্ত নির্দেশিকা ছাড়াও নিম্নলিখিত সাইটম্যাপ এবং সূত্র ও উৎস সংক্রান্ত পেশাদার পদ্ধতি মেনে চললে ভাল হয়।

সাইটম্যাপ তৈরি করার পেশাদার পদ্ধতি

আপনার ইউআরএল খুঁজে পেতে Google-কে সাহায্য করার জন্য একটি সাইটম্যাপ ফাইল ব্যবহার করুন। আপনার সমগ্র সাইটে ডেটাসেটের বিবরণ কীভাবে দেওয়া হয়েছে তা বুঝতে সাইটম্যাপ ফাইল ও sameAs মার্ক-আপ সাহায্য করে।

আপনার কাছে ডেটাসেটের একটি রিপোজিটরি থাকলে, আপনার সম্ভবত দুই ধরনের পৃষ্ঠা থাকবে: প্রত্যেক ডেটাসেটের জন্য সেরা ("ল্যান্ডিং") পৃষ্ঠা এবং একাধিক ডেটাসেটের সূচি আছে এমন পৃষ্ঠা (যেমন সার্চ ফলাফল বা ডেটাসেটের কোনও সাবসেট)। সেরা পৃষ্ঠাগুলিতে ডেটাসেট সম্পর্কে স্ট্রাকচার্ড ডেটা যোগ করলে ভাল হয়। ডেটাসেটের একাধিক কপিতে (যেমন সার্চ ফলাফলের পৃষ্ঠায় তালিকা) স্ট্রাকচার্ড ডেটা যোগ করলে sameAs প্রপার্টি ব্যবহার করে সেরা পৃষ্ঠায় লিঙ্ক করুন।

সূত্র ও উৎস সংক্রান্ত পেশাদার পদ্ধতি

সর্বজনীন ডেটাসেট প্রায়ই আবার প্রকাশিত ও একত্রিত হয়ে থাকে এবং অন্য ডেটাসেটের উপর নির্ভর করে তৈরি হয়ে থাকে। ডেটাসেটটি একটি কপি হলে বা অন্য ডেটাসেটের উপর নির্ভর করে তৈরি করা হয়ে থাকলে, কীভাবে সেটি প্রকাশ করতে হবে তা এই প্রাথমিক আউটলাইন থেকে জানতে পারবেন।

  • পূর্বে অন্য কোথাও প্রকাশিত হয়েছে এমন ডেটাসেট বা বিবরণ আবার ব্যবহার করা হয়ে থাকলে আসল উৎসের সবচেয়ে সেরা ইউআরএল নির্দেশ করার জন্য sameAs প্রপার্টি ব্যবহার করুন।
  • আবার প্রকাশিত ডেটাসেটে (মেটাডেটা সহ) গুরুত্বপূর্ণ পরিবর্তন করা হলে, isBasedOn প্রপার্টি ব্যবহার করুন।
  • একাধিক ডেটাসেট থেকে নিয়ে অথবা একত্রিত করে ডেটাসেটটি তৈরি করা হলে, isBasedOn প্রপার্টি ব্যবহার করুন।
  • যেকোনও প্রাসঙ্গিক Digital Object Identifiers (DOIs)-এর সাথে identifier প্রপার্টি যোগ করুন।

উৎস, ভার্সন ও টাইম সিরিজ প্রকাশনার সাথে সংশ্লিষ্ট তারিখের বিষয়ে আমাদের সাজেশনের উন্নতি করতে আপনার মতামতের উপর আমরা নির্ভর করি। কমিউনিটির আলোচনাতে যোগদান করুন।

টেক্সটের প্রপার্টির বিষয়ে সাজেশন

টেক্সট ফিল্ডগুলিতে ৫০০০ অক্ষরের চেয়ে কম লিখলে ভাল হয়। Google ডেটাসেট সার্চ যেকোনও টেক্সটের শুধু প্রথম ৫০০০ অক্ষর ব্যবহার করে। নাম বা শীর্ষক সাধারণত কয়েকটি শব্দ বা একটি ছোট বাক্যের মাধ্যমে লেখা হয়।

পরিচিত সমস্যা ও সতর্কতা

Google-এর স্ট্রাকচার্ড ডেটা টেস্টিং টুল বা যাচাইকরণের অন্যান্য সিস্টেম আপনাকে কিছু সমস্যা ও সতর্কতা দেখাতে পারে। fileFormat-এর (যেটি সাম্প্রতিক encodingFormat হিসেবে নামকরণ করা হয়েছে) বিষয়ে সতর্কতা উপেক্ষা করা যেতে পারে। যাচাইকরণের সিস্টেম, সংস্থাকে contactType-এর মতো কোনও যোগাযোগের তথ্য উল্লেখ করতে সাজেস্ট করতে পারে; এর জন্য customer service, emergency, journalist, newsroompublic engagement মানগুলি উপযোগী। csvw:Table-কে mainEntity প্রপার্টির জন্য অপ্রত্যাশিত মান বলে দেখালে আপনি তা উপেক্ষা করতে পারেন।

বিভিন্ন ধরনের স্ট্রাকচার্ড ডেটার সংজ্ঞা

আপনার কন্টেন্টকে বিশিষ্ট ফলাফল হিসেবে দেখানোর উপযুক্ত করে তুলতে প্রয়োজনীয় প্রপার্টিগুলি আপনাকে যোগ করতেই হবে। ব্যবহারকারীকে উন্নত অভিজ্ঞতা প্রদান করতে, আপনার কন্টেন্ট সম্পর্কে আরও তথ্য দেওয়ার জন্য সাজেস্ট করা প্রপার্টিও যোগ করতে পারেন।

আপনার মার্ক-আপ যাচাই করার জন্য স্ট্রাকচার্ড ডেটা টেস্টিং টুল ব্যবহার করতে পারেন।

একটি ডেটাসেটের সম্পর্কে বিবরণ দেওয়া (সেটির মেটাডেটা) ও সেটির কন্টেন্ট সম্পর্কে জানানোই হল প্রধান উদ্দেশ্য। যেমন, ডেটাসেটটি কী বিষয়ে, কোন ভেরিয়েবল এটি পরিমাপ করে, কে এটি তৈরি করেছেন ইত্যাদি ডেটাসেট মেটাডেটাতে থাকে। কিন্তু কোনও ভেরিয়েবলের নির্দিষ্ট মান এতে থাকে না।

Dataset

Dataset-এর সম্পূর্ণ সংজ্ঞা schema.org/Dataset-এ দেওয়া আছে।

ডেটাসেটের প্রকাশনার বিষয়ে অতিরিক্ত তথ্য আপনি বর্ণনা করতে পারেন, যেমন লাইসেন্স, প্রকাশনার তারিখ, DOI বা sameAs, যেটি অন্য রিপোজিটরিতে থাকা ডেটাসেটের সেরা ভার্সনকে নির্দেশ করে। উৎস ও লাইসেন্সের তথ্য প্রদান করছে এমন ডেটাসেটে identifier, licensesameAs যোগ করুন।

প্রয়োজনীয় প্রপার্টি
description Text

ডেটাসেটের সংক্ষিপ্ত বিবরণ।

name Text

ডেটাসেট সম্পর্কে সঠিকভাবে জানায় এমন একটি নাম। যেমন, "উত্তর-পূর্ব ভারতে বৃষ্টিপাতের হার"।

সাজেস্ট করা প্রপার্টি
citation Text অথবা CreativeWork

ডেটাসেটের বিবরণ দেয় এমন একটি প্রকাশনার উদ্ধৃতি। যেমন, "যদু মিত্র 'আমি কীভাবে একটি অনন্য ডেটাসেট তৈরি করলাম', আধুনিক ডেটা সায়েন্স, ১৯৯৬"।

identifier URL, Text অথবা PropertyValue

DOI-এর মতো ডেটাসেটের জন্য একটি শনাক্তকারী।

keywords Text

ডেটাসেটকে সংক্ষেপে বিবৃত করছে এমন কীওয়ার্ড।

license URL, Text

যে লাইসেন্সের মাধ্যমে ডেটাসেটটি বিতরণ করা হচ্ছে।

sameAs URL

একই ডেটাসেট সম্পর্কে আরও তথ্য প্রদান করে এমন অন্য রিপোজিটরিতে অবস্থিত একটি পৃষ্ঠার লিঙ্ক।

spatialCoverage Text, Place

যে স্থান থেকে ডেটাসেটের ডেটা সংগ্রহ করা হয়েছে সেটি লিখতে পারেন। ডেটাসেটে স্থানের কোনও মাত্রা থাকলেই শুধুমাত্র এই প্রপার্টি যোগ করবেন। যেমন, নির্দিষ্ট যে স্থান বা বৃহত্তর এলাকা থেকে সব ডেটা সংগ্রহ করা হয়েছে সেটির অক্ষাংশ ও দ্রাঘিমাংশ।

পয়েন্ট

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

স্থানাঙ্ক

বিভিন্ন এলাকার আকারের বিবরণ দিতে GeoShape ব্যবহার করুন। যেমন, এলাকার আকার নির্দিষ্ট করার জন্য স্থানাঙ্কের উল্লেখ করতে নিম্নলিখিত কোড লিখতে পারেন।

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

লোকেশনের নাম

"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

ডেটাসেটের ডেটা একটি নির্দিষ্ট সময়ের ব্যবধান সম্পর্কে জানায়। ডেটাসেটে সময়ের মাত্রা থাকলেই শুধুমাত্র এই প্রপার্টি যোগ করবেন। সময়ের ব্যবধান ও নির্দিষ্ট সময়কে বোঝাতে Schema.org, ISO 8601 স্ট্যান্ডার্ড ব্যবহার করে। ডেটাসেটের ব্যবধানের উপর নির্ভর করে আপনি অন্যরকমভাবে তারিখের বিবরণ দিতে পারেন। দুটি দশমিক (..) দিয়ে আপনি শেষ হওয়ার সময় জানা যায় না এমন সময়কাল নির্দেশ করতে পারেন।

একটি তারিখ

"temporalCoverage" : "2008"

সময়কাল

"temporalCoverage" : "1950-01-01/2013-12-18"

শেষ হওয়ার সময় জানা যায় না এমন সময়কাল

"temporalCoverage" : "2013-12-19/.."
variableMeasured Text, PropertyValue

যে ভেরিয়েবল এই ডেটাসেটটি পরিমাপ করে। যেমন, তাপমাত্রা বা চাপ।

version Text, Number

ডেটাসেটের ভার্সন নম্বর।

url URL

ডেটাসেটের বিবরণ দিচ্ছে এমন পৃষ্ঠার লোকেশন।

DataCatalog

DataCatalog-এর সম্পূর্ণ সংজ্ঞা schema.org/DataCatalog-এ দেওয়া আছে।

ডেটাসেট অনেক সময় এমন রিপোজিটরিতে প্রকাশ করা হয় যেখানে অন্যান্য ডেটাসেটও আছে। একই ডেটাসেট সেই ধরনের একাধিক রিপোজিটরির অন্তর্ভুক্ত হতে পারে। এই ডেটাসেট আছে এমন একটি ডেটা ক্যাটালগকে আপনি সরাসরি নির্দেশ করতে পারেন।

সাজেস্ট করা প্রপার্টি
includedInDataCatalog DataCatalog

যে ক্যাটালগে এই ডেটাসেট অন্তর্ভুক্ত আছে।

DataDownload

DataDownload-এর সম্পূর্ণ সংজ্ঞা schema.org/DataDownload-এ দেওয়া আছে। ডাউনলোড করার সুবিধা আছে এমন ডেটাসেটের ক্ষেত্রে ডেটাসেট প্রপার্টির সাথে নিম্নলিখিত প্রপার্টিগুলি যোগ করুন।

যেহেতু ইউআরএল অধিকাংশ সময় ডেটাসেটের বিবরণ আছে এমন একটি ল্যান্ডিং পৃষ্ঠায় নিয়ে যায়, তাই ডেটাসেটটি কীভাবে পাওয়া যাবে তার একটি বিবরণ distribution প্রপার্টি থেকে জানা যায়। distribution প্রপার্টি কোথায় এবং কী ফর্ম্যাটে ডেটা পাওয়া যাবে তার বিবরণ দেয়। এই প্রপার্টির একাধিক মান থাকতে পারে: যেমন, একটি ইউআরএলে CSV ভার্সন ও আরেকটিতে Excel ভার্সন থাকতে পারে।

প্রয়োজনীয় প্রপার্টি
distribution.contentUrl URL

যে লিঙ্ক থেকে ডাউনলোড করা যাবে।

প্রপার্টি
distribution DataDownload

যে লোকেশন থেকে ডেটাসেট ডাউনলোড করা যাবে এবং যে ফাইল ফর্ম্যাট হিসেবে সেটি ডাউনলোড হবে তার বিবরণ।

distribution.fileFormat Text

বিতরণের জন্য ফাইল ফর্ম্যাট।

সারণীবদ্ধ ডেটাসেট

সারণীবদ্ধ ডেটাসেট সারি ও কলামে সাজানো থাকে। যে পৃষ্ঠাগুলি সারণীবদ্ধ ডেটাসেট এম্বেড করে, সেগুলির জন্য আপনি উপরে উল্লিখিত পদ্ধতি ছাড়াও উপযুক্ত মার্ক-আপ তৈরি করতে পারেন। HTML পৃষ্ঠায় ব্যবহারকারীর কথা ভেবে তৈরি সারণীবদ্ধ কন্টেন্টের সাথে প্রদান করা CSVW-এর ("CSV on the Web", W3C দেখুন) একটি ধরন আমরা বর্তমানে বুঝতে পারি।

CSVW JSON-LD ফর্ম্যাটে এনকোড করা একটি ছোট সারণীর উদাহরণ নিচে দেওয়া হল। স্ট্রাকচার্ড ডেটা টেস্টিং টুলে কিছু পরিচিত সমস্যা আছে।

সহায়তা ও টুল

Send feedback about...

সার্চ
সার্চ