การทำงานกับข้อมูลเชิงหมวดหมู่

ข้อมูลเชิงหมวดหมู่มีค่าที่เป็นไปได้ซึ่งอยู่ในชุดที่เฉพาะเจาะจง เช่น

  • สัตว์หลายสายพันธุ์ในอุทยานแห่งชาติ
  • ชื่อถนนในเมืองหนึ่งๆ
  • อีเมลเป็นจดหมายขยะหรือไม่
  • ทาสีภายนอกบ้าน
  • ตัวเลขที่จัดกลุ่ม ซึ่งอธิบายไว้ในโมดูลการทํางานกับข้อมูลตัวเลข

ตัวเลขอาจเป็นข้อมูลเชิงหมวดหมู่ได้เช่นกัน

ข้อมูลตัวเลขจริง จะเพิ่มขึ้นอย่างมีนัยสำคัญ ตัวอย่างเช่น ลองพิจารณาโมเดลที่คาดการณ์มูลค่าของบ้านตามพื้นที่ โปรดทราบว่าโดยทั่วไป โมเดลที่มีประโยชน์ในการประเมินราคาบ้านจะอาศัย ฟีเจอร์หลายร้อยรายการ หรือถ้าอย่างอื่นทั้งหมดเหมือนกัน บ้านที่มีสี่เหลี่ยมขนาด 200 ช่อง เมตรควรมีค่ามากกว่าบ้านที่เหมือนกันขนาด 100 ตารางเท่าๆ กันโดยประมาณ เมตร

บ่อยครั้ง คุณควรแสดงฟีเจอร์ที่มีค่าจำนวนเต็มเป็นข้อมูลเชิงหมวดหมู่แทนข้อมูลตัวเลข ตัวอย่างเช่น ลองพิจารณาที่อยู่ทางไปรษณีย์ โค้ดที่ค่าเป็นจำนวนเต็ม หากคุณเป็นตัวแทน แสดงเป็นตัวเลขมากกว่าเชิงหมวดหมู่ คุณจะถามโมเดลว่า เพื่อหาความสัมพันธ์ที่เป็นตัวเลข ระหว่างรหัสไปรษณีย์ต่างๆ กล่าวคือ คุณกําลังบอกให้โมเดลพิจารณารหัสไปรษณีย์ 20004 เป็นสัญญาณที่มีขนาดใหญ่เป็น 2 เท่า (หรือครึ่งหนึ่ง) ของรหัสไปรษณีย์ 10002 การนำเสนอรหัสไปรษณีย์เป็นข้อมูลเชิงหมวดหมู่ช่วยให้โมเดลสามารถถ่วงน้ำหนักรหัสไปรษณีย์แต่ละรหัสแยกกันได้

การเข้ารหัส

การเข้ารหัสหมายถึงการเปลี่ยนรูปแบบข้อมูลเชิงหมวดหมู่หรือข้อมูลอื่นๆ เป็นเวกเตอร์เชิงตัวเลขที่โมเดลสามารถฝึกได้ การแปลงนี้จําเป็นเนื่องจากโมเดลจะฝึกได้เฉพาะกับค่าจุดลอยตัวเท่านั้น โมเดลจะฝึกกับสตริงไม่ได้ เช่น "dog" หรือ "maple" โมดูลนี้จะอธิบายวิธีการเข้ารหัสต่างๆ สําหรับข้อมูลเชิงหมวดหมู่