เปลี่ยนรูปแบบข้อมูล: ทดสอบความเข้าใจ

สําหรับคําถามต่อไปนี้ ให้คลิกลูกศรที่ต้องการเพื่อตรวจคําตอบ

คุณกําลังประมวลผลข้อมูลล่วงหน้าสําหรับโมเดลการเกิดปัญหาซ้ํา การแปลงแบบใดที่จําเป็น เลือกได้หลายคำตอบ
การแปลงฟีเจอร์ทั้งหมดที่ไม่ใช่ตัวเลขให้เป็นตัวเลข
ถูกต้อง นี่เป็นการเปลี่ยนแปลงที่จําเป็น คุณต้องแปลงสตริง ให้เป็นตัวแทนตัวเลขบางราย เนื่องจากคุณใช้การคูณเมทริกซ์ในสตริงไม่ได้
ทําให้ข้อมูลตัวเลขเป็นมาตรฐาน
การปรับข้อมูลตัวเลขให้เป็นค่าปกติก็ช่วยได้ แต่ก็ถือว่าเป็นการเปลี่ยนรูปแบบที่มีคุณภาพ

 

ลองดูแผนภูมิด้านล่าง ข้อใดคือเทคนิคการเปลี่ยนรูปแบบข้อมูลที่น่าจะให้ประสิทธิภาพดีที่สุดในตอนเริ่มต้น สมมติว่าเป้าหมายของคุณคือหาความสัมพันธ์แบบเชิงเส้นระหว่าง RoomPerPerson และราคาบ้าน
ค่าคะแนน Z เป็นตัวเลือกที่ดีหากค่าที่ผิดปกติไม่ใช่ค่าสุดโต่ง อย่างไรก็ตาม ค่าที่ผิดปกตินั้นอยู่ในสถานะที่ต่างออกไป
เสียงขาดๆ หายๆ
คลิปนี้เป็นตัวเลือกที่ดี เนื่องจากชุดข้อมูลมีค่าที่ผิดปกติอย่างมาก คุณควรแก้ไขค่าที่ผิดปกติสุดโต่งก่อนใช้การปรับมาตรฐานอื่นๆ
การปรับขนาดบันทึก
การปรับขนาดบันทึกเป็นตัวเลือกที่ดีหากข้อมูลของคุณได้รับการยืนยันการกระจายตัวของกฎหมายพลังงาน อย่างไรก็ตาม ข้อมูลนี้เป็นไปตามการกระจายปกติแทนการเผยแพร่กฎหมายว่าด้วยเรื่องพลังงาน
ที่เก็บข้อมูล (การเชื่อมโยง) ที่มีขอบเขตควอนไทล์
ที่เก็บข้อมูลแบบควอร์ไทล์อาจเป็นวิธีที่ดีสําหรับข้อมูลที่บิดเบือน แต่ในกรณีนี้ ความเอียงเอียงนี้มีสาเหตุจากค่าที่ผิดปกติสุดๆ เล็กน้อย และคุณต้องการให้โมเดลเรียนรู้ความสัมพันธ์แบบเชิงเส้นด้วย ดังนั้นคุณควรเก็บตัวเลข RoomPerPerson ไว้แทนการแปลงเป็นหมวดหมู่ ซึ่งเป็นสิ่งที่เก็บข้อมูลได้ ให้ลองใช้เทคนิคการปรับให้สอดคล้องตามมาตรฐานแทน

แผนภูมิแสดงความถี่สัมพัทธ์ของ RoomsPerPerson ที่แตกต่างกัน โดยที่ RoomsPerPerson คือจํานวนห้องในที่พักหารด้วยจํานวนคนในที่พักนั้นๆ  ข้อมูลส่วนมากจะกระจายอยู่ระหว่าง 0 ถึง 5 ที่มีจุดย่อยตั้งแต่ 5 ถึง 55

 

ลองดูแผนภูมิด้านล่าง ข้อใดคือเทคนิคการเปลี่ยนรูปแบบข้อมูลที่น่าจะให้ประสิทธิภาพดีที่สุดในตอนเริ่มต้น
ค่าคะแนน Z เป็นตัวเลือกที่ดีหากค่าที่ผิดปกติไม่ได้รุนแรงจนคุณต้องตัดคลิป ไม่เป็นเช่นนั้น ข้อมูลที่บิดเบี้ยวควรเป็นคําแนะนํา
เสียงขาดๆ หายๆ
การตัดคลิปเป็นตัวเลือกที่ดีเมื่อมีค่าที่ผิดปกติอย่างมาก อย่างไรก็ตาม แผนภูมินี้แสดงการกระจายของกฎหมายที่มีอํานาจอยู่ และมีเทคนิคการทําให้เป็นมาตรฐานที่ดีกว่าเมื่อแก้ไขปัญหาดังกล่าว
การปรับขนาดบันทึก
การปรับขนาดบันทึกเป็นตัวเลือกที่ดี เนื่องจากข้อมูลสอดคล้องกับการกระจายข้อมูลกฎหมายพลังงาน
ที่เก็บข้อมูล (การเชื่อมโยง) ที่มีขอบเขตควอนไทล์
การเก็บข้อมูลแบบควอไทล์อาจเป็นวิธีที่ดีสําหรับข้อมูลที่บิดเบี้ยว แต่คุณกําลังมองหาโมเดลเพื่อเรียนรู้ความสัมพันธ์แบบเชิงเส้น ดังนั้น คุณจึงควรเก็บตัวเลขข้อมูลไว้และหลีกเลี่ยงการวางไว้ในที่เก็บข้อมูล ลองใช้เทคนิคการปรับให้สอดคล้องตามมาตรฐานแทน

กราฟแท่งซึ่งแท่งไฮไลต์อยู่ที่ระดับล่างสุด แถบที่ 1
มีขนาดเท่ากับ 1,200 แถบที่ 2 มีขนาดเท่ากับ 460 ส่วนแถบที่ 3 มีขนาด
300 ในแถบที่ 15 ขนาดของโฆษณาลดลงเหลือประมาณ 30 หางยาวมากจนถึง 90 บาร์อีกข้างของขนาดหางยาวไม่เคยเกิน 10 แท่ง

 

ลองดูแผนภูมิด้านล่าง โมเดลเชิงเส้นจะคาดการณ์ที่ดีเกี่ยวกับความสัมพันธ์ระหว่างอัตราส่วนการบีบอัดกับเมืองหรือ AMP ได้หรือไม่ หากไม่ใช่ คุณจะเปลี่ยนรูปแบบข้อมูลเพื่อฝึกโมเดลให้ดีขึ้นได้อย่างไร
ควร โมเดลมีแนวโน้มที่จะพบความสัมพันธ์เชิงเส้นและคาดการณ์ได้อย่างแม่นยํา
แม้ว่าโมเดลจะค้นหาความสัมพันธ์แบบเชิงเส้น แต่โมเดลจะไม่สร้างการคาดการณ์ที่มีความแม่นยํามากนัก ลองฝึกชุดข้อมูลนี้ในแบบฝึกหัดการประมาณข้อมูลเพื่อให้เข้าใจเหตุผลได้ดียิ่งขึ้น
ไม่ โมเดลอาจมีความถูกต้องมากกว่าหลังจากปรับขยายแล้ว
คุณใช้การปรับขนาดเชิงเส้นได้ แต่ความชันของความสัมพันธ์ระหว่างอัตราส่วนการบีบอัดและ MPN เมืองอาจดูเหมือนกัน สิ่งที่จะช่วยให้มากขึ้นคือการเห็นทางลาดชัน 2 จุด ได้แก่ จุดหนึ่งสําหรับคลัสเตอร์ของจุดในอัตราส่วนการบีบอัดที่ต่ํากว่า และอีกหนึ่งจุดสําหรับความสูงที่สูงกว่า
ไม่ ดูเหมือนจะมีพฤติกรรม 2 อย่างที่แตกต่างกัน การตั้งค่าเกณฑ์ไว้ตรงกลางและใช้ฟีเจอร์ที่ฝากไว้อาจช่วยให้คุณเข้าใจสิ่งที่เกิดขึ้นในพื้นที่ทั้งสองได้ดีขึ้น
ถูกต้อง คุณควรมีความชัดเจนเกี่ยวกับสาเหตุและวิธีกําหนดขอบเขต ในแบบฝึกหัดการประมาณข้อมูล คุณจะได้ดูข้อมูลเพิ่มเติมเกี่ยวกับวิธีที่วิธีการนี้ช่วยสร้างรูปแบบที่ดีขึ้นได้

แผนภูมิกระจายที่แสดงความหนาแน่นของทางหลวงต่ออัตราส่วนการบีบอัด ข้อมูลมี 2 ส่วนที่แตกต่างกันอย่างชัดเจน กลุ่มหนึ่งๆ มีขนาดใหญ่กว่าอีกกลุ่มมาก โดยจะปรากฏที่ด้านตรงข้ามของแกนอัตราส่วนการบีบอัด ช่วงที่มีขนาดใหญ่ขึ้นครอบคลุม
ช่วงอัตราการบีบอัด 7-12 ส่วนตื้นที่เล็กกว่าครอบคลุมช่วงอัตราการบีบอัด 21-23 โดยทั่วไปแล้ว ทางหลวงที่มี MPG จะต่ํากว่าก้อนเล็กๆ เล็กน้อย แต่ก็ไม่มากขึ้น

 

ทีมเพียร์กําลังบอกคุณเกี่ยวกับความคืบหน้าที่พวกเขาทําในโปรเจ็กต์ ML พวกเขาคํานวณคําศัพท์และฝึกโมเดลแบบออฟไลน์ อย่างไรก็ตาม แบรนด์ดังกล่าวต้องการหลีกเลี่ยงปัญหาอัปเดตไม่ได้ จึงกําลังฝึกโมเดลอื่นทางออนไลน์ สิ่งที่จะเกิดขึ้นต่อไป
โมเดลนั้นจะได้รับการอัปเดตอยู่เสมอเมื่อมีข้อมูลใหม่ ส่วนทีมอื่นๆ จะต้องตรวจสอบข้อมูลอินพุตอย่างต่อเนื่อง
แม้ว่าข้อดีของการฝึกแบบไดนามิกจะไม่มีผลบังคับใช้ แต่การหลีกเลี่ยงคําศัพท์ที่ไม่มีการอัปเดตถือเป็นประโยชน์หลักของการฝึกทํางาน แต่การใช้คําศัพท์กับโมเดลที่ฝึกแบบออฟไลน์จะทําให้เกิดปัญหา
โดยคุณอาจพบว่าดัชนีที่ใช้นั้นไม่ตรงกับคําศัพท์นั้นๆ
ถูกต้อง เตือนเพื่อนร่วมงานให้ทราบถึงการฝึก/การฝึกอบรมหรือทําให้ ML แนะนําให้เรียนหลักสูตรของ Google ว่าด้วยเรื่องการเตรียมความพร้อมข้อมูลและวิศวกรรมฟีเจอร์สําหรับ ML เพื่อดูข้อมูลเพิ่มเติม