প্রতিনিধিত্ব

একটি মেশিন লার্নিং মডেল সরাসরি ইনপুট উদাহরণ দেখতে, শুনতে বা বুঝতে পারে না। পরিবর্তে, ডেটার মূল গুণাবলীর মধ্যে একটি দরকারী সুবিধার পয়েন্ট সহ মডেল প্রদান করার জন্য আপনাকে অবশ্যই ডেটার একটি উপস্থাপনা তৈরি করতে হবে। অর্থাৎ, একটি মডেলকে প্রশিক্ষিত করার জন্য, আপনাকে অবশ্যই এমন বৈশিষ্ট্যগুলির সেট বেছে নিতে হবে যা ডেটাকে সর্বোত্তমভাবে উপস্থাপন করে।

প্রতিনিধিত্ব

ধারণাটি হল বাম দিকের ভেক্টরের প্রতিটি অংশকে এক বা একাধিক ক্ষেত্রে ডানদিকের বৈশিষ্ট্য ভেক্টরে ম্যাপ করা।

ফিচার ইঞ্জিনিয়ারিং নামক একটি প্রক্রিয়ার মাধ্যমে ফিচার ভেক্টরে কাঁচা ডেটা ম্যাপ করা হয়।
একটি বৈশিষ্ট্যের একটি উদাহরণ যা সরাসরি কাঁচা ডেটা থেকে অনুলিপি করা যেতে পারে
একটি স্ট্রিং বৈশিষ্ট্যের একটি উদাহরণ (রাস্তার নাম) যা সরাসরি কাঁচা ডেটা থেকে কপি করা যায় না
একটি স্ট্রিং মান ম্যাপিং (
  • অভিধান প্রতিটি রাস্তার নাম {0, ...,V-1}- এ একটি int-এ ম্যাপ করে
  • এখন উপরের এক-হট ভেক্টরকে < i > হিসাবে উপস্থাপন করুন

বৈশিষ্ট্যের মানগুলি ডেটাসেটে অল্প মুষ্টিমেয় সময়ের চেয়ে শূন্য নয় এমন মানের সাথে উপস্থিত হওয়া উচিত।

my_device_id:8SK982ZZ1242Z

device_model:galaxy_s6

বৈশিষ্ট্যগুলির একটি পরিষ্কার, সুস্পষ্ট অর্থ থাকা উচিত।

user_age:23

user_age:123456789

বৈশিষ্ট্য "জাদু" মান গ্রহণ করা উচিত নয়

(পরিবর্তে একটি অতিরিক্ত বুলিয়ান বৈশিষ্ট্য ব্যবহার করুন যেমন watch_time_is_defined!)

watch_time: -1.0

watch_time: 1.023

watch_time_is_defined: 1.0

একটি বৈশিষ্ট্যের সংজ্ঞা সময়ের সাথে পরিবর্তন করা উচিত নয়।

(অন্যান্য এমএল সিস্টেমের উপর নির্ভর করে সাবধান!)

city_id:"br/sao_paulo"

inferred_city_cluster_id:219

বিতরণে চরম বহিঃপ্রকাশ থাকা উচিত নয়

আদর্শভাবে সমস্ত বৈশিষ্ট্য একই পরিসরে রূপান্তরিত হয়, যেমন (-1, 1) বা (0, 5)।

Outliers সঙ্গে বিতরণ এবং একটি ক্যাপ সঙ্গে একটি বিতরণ
অবস্থানের উপর ভিত্তি করে একটি উপযুক্ত বক্ররেখা সহ একটি বন্টন দেখানো গ্রাফ
অবস্থানের উপর ভিত্তি করে একটি উপযুক্ত বক্ররেখা সহ একটি বন্টন দেখানো গ্রাফ
  • একাধিক বুলিয়ান বিন তৈরি করুন, প্রতিটি ম্যাপিং একটি নতুন অনন্য বৈশিষ্ট্যে
  • মডেলকে প্রতিটি বিনের জন্য আলাদা মান ফিট করার অনুমতি দেয়

আপনার ডেটা জানুন

  • ভিজ্যুয়ালাইজ করুন : প্লট হিস্টোগ্রাম, সর্বাধিক থেকে কম সাধারণ র‌্যাঙ্ক।
  • ডিবাগ : নকল উদাহরণ? অনুপস্থিত মানের? বহিরাগত? ডেটা ড্যাশবোর্ডের সাথে একমত? প্রশিক্ষণ এবং বৈধতা তথ্য অনুরূপ?
  • মনিটর : ফিচার কোয়ান্টাইল, সময়ের সাথে উদাহরণের সংখ্যা?