ทรัพยากร Dependency ของข้อมูล

ข้อมูลสําคัญต่อนักพัฒนาซอฟต์แวร์ ML อย่างโค้ดกับโปรแกรมเมอร์แบบดั้งเดิม บทเรียนนี้จะมุ่งเน้นประเภทของคําถามที่คุณควรถามเกี่ยวกับข้อมูลของคุณ

ทรัพยากร Dependency ของข้อมูล

  • ข้อมูล (ฟีเจอร์) อินพุตจะกําหนดลักษณะการทํางานของระบบ ML
    • เราเขียนการทดสอบหน่วยสําหรับไลบรารีซอฟต์แวร์ แล้วข้อมูลล่ะ
  • ต้องระมัดระวังเมื่อเลือกสัญญาณอินพุต
    • และอาจจะใส่ใจมากกว่าการตัดสินใจว่าจะใช้ไลบรารีซอฟต์แวร์ใด
  • ความเสถียร
    • จะเกิดอะไรขึ้นเมื่อสัญญาณไม่พร้อมใช้งาน รู้หรือไม่
  • ความเสถียร
    • จะเกิดอะไรขึ้นเมื่อสัญญาณไม่พร้อมใช้งาน รู้หรือไม่
  • การกำหนดเวอร์ชัน
    • ระบบที่คํานวณสัญญาณนี้มีการเปลี่ยนแปลงหรือไม่ ความถี่ จะเกิดอะไรขึ้น
  • ความเสถียร
    • จะเกิดอะไรขึ้นเมื่อสัญญาณไม่พร้อมใช้งาน รู้หรือไม่
  • การกำหนดเวอร์ชัน
    • ระบบที่คํานวณสัญญาณนี้มีการเปลี่ยนแปลงหรือไม่ ความถี่ จะเกิดอะไรขึ้น
  • ความจําเป็น
    • ประโยชน์ของสัญญาณอธิบายต้นทุนที่รวม
  • ความสัมพันธ์
    • สัญญาณอินพุตต่างๆ ต่างก็เชื่อมโยงกันเข้าด้วยกัน เราจึงต้องการกลยุทธ์เพิ่มเติมเพื่อสร้างความตื่นเต้น
  • ความสัมพันธ์
    • สัญญาณอินพุตต่างๆ ต่างก็เชื่อมโยงกันเข้าด้วยกัน เราจึงต้องการกลยุทธ์เพิ่มเติมเพื่อสร้างความตื่นเต้น
  • รายงานความคิดเห็น
    • สัญญาณอินพุตรายการใดที่อาจได้รับผลกระทบจากเอาต์พุตโมเดลของฉัน

สรุปการบรรยายผ่านวิดีโอ

พฤติกรรมของระบบ ML จะขึ้นอยู่กับพฤติกรรมและคุณภาพของฟีเจอร์อินพุต เนื่องจากข้อมูลอินพุตสําหรับฟีเจอร์เหล่านั้น การเปลี่ยนแปลงรูปแบบของคุณด้วย บางครั้งการเปลี่ยนแปลงนั้นเป็นที่ต้องการ แต่บางครั้งก็ไม่ต้องการ

ในการพัฒนาซอฟต์แวร์แบบดั้งเดิม คุณมุ่งเน้นที่โค้ดมากกว่าข้อมูล ในการพัฒนาแมชชีนเลิร์นนิง แม้ว่าการเขียนโค้ดจะยังเป็นส่วนหนึ่งของงาน แต่ก็ต้องขยายพื้นที่เพื่อรวมข้อมูลไว้ด้วย เช่น ในโปรเจ็กต์พัฒนาซอฟต์แวร์แบบดั้งเดิม คุณควรเขียนการทดสอบหน่วยเพื่อตรวจสอบโค้ด ในโปรเจ็กต์ ML คุณต้องทดสอบ ยืนยัน และตรวจสอบข้อมูลอินพุตอย่างต่อเนื่อง

เช่น คุณควรตรวจสอบโมเดลอย่างต่อเนื่องเพื่อนําฟีเจอร์ที่ไม่ได้ใช้ (หรือใช้งานน้อย) ออก ลองนึกถึงบางฟีเจอร์ที่มีส่วนช่วยในการสร้างรูปแบบน้อยมากหรือไม่มีเลย หากข้อมูลอินพุตสําหรับฟีเจอร์มีการเปลี่ยนแปลงอย่างฉับพลัน ลักษณะการทํางานของโมเดลอาจเปลี่ยนแปลงไปอย่างไม่พึงประสงค์

ความเสถียร

คําถามที่พบบ่อยเกี่ยวกับความน่าเชื่อถือของข้อมูลอินพุตมีดังนี้

  • สัญญาณจะพร้อมใช้งานตลอดเวลาหรือมาจากแหล่งที่ไม่น่าเชื่อถือ เช่น
    • สัญญาณมาจากเซิร์ฟเวอร์ที่ขัดข้องเมื่อมีภาระงานสูงหรือไม่
    • สัญญาณมาจากมนุษย์ที่ลาพักร้อนทุกเดือนสิงหาคมไหม

การกำหนดเวอร์ชัน

สิ่งที่ควรทราบเกี่ยวกับการกําหนดเวอร์ชันมีดังนี้

  • ระบบที่คํานวณข้อมูลนี้มีการเปลี่ยนแปลงหรือไม่ หากเป็นเช่นนั้น
    • ความถี่
    • คุณจะทราบได้อย่างไรว่าระบบมีการเปลี่ยนแปลง

บางครั้งข้อมูลอาจมาจากกระบวนการต้นทาง หากกระบวนการนั้นเปลี่ยนแปลงกะทันหัน โมเดลของคุณอาจเกิดปัญหา

พิจารณาสร้างสําเนาข้อมูลของคุณเองที่ได้รับจากกระบวนการต้นทาง จากนั้น ให้ส่งต่อข้อมูลเวอร์ชันถัดไปเท่านั้นเมื่อคุณมั่นใจว่าทําเช่นนั้นได้อย่างปลอดภัย

ความจําเป็น

คําถามต่อไปนี้อาจเตือนคุณเกี่ยวกับการทําให้เป็นมาตรฐาน

  • ประโยชน์ของฟีเจอร์นี้อธิบายต้นทุนของการรวมฟีเจอร์ไหม

การอยากเพิ่มฟีเจอร์ลงในโมเดลอยู่เสมอทําให้อยากดูต่อ เช่น สมมติว่ามีฟีเจอร์ใหม่ที่เพิ่มรูปแบบที่ทําให้โมเดลแม่นยํามากขึ้นเล็กน้อย ยิ่งไปกว่านั้น ความแม่นยําของเสียงดีกว่าความแม่นยําน้อยกว่า แต่ตอนนี้คุณเพิ่งเพิ่มภาระให้กับการบํารุงรักษา ฟีเจอร์เพิ่มเติมนี้อาจมีประสิทธิภาพลดลง จึงต้องตรวจสอบก่อน คิดให้รอบคอบก่อนที่จะเพิ่มฟีเจอร์ที่นําไปสู่ชัยชนะระยะสั้นเล็กน้อย

ความสัมพันธ์

บางฟีเจอร์มีความสัมพันธ์ (เชิงบวกหรือเชิงลบ) กับฟีเจอร์อื่นๆ ถามตัวคุณเองด้วยคําถามต่อไปนี้

  • ฟีเจอร์ทั้งหมดเชื่อมโยงกันหรือไม่ที่คุณต้องใช้กลยุทธ์เพิ่มเติมเพื่อสร้างความตื่นเต้น

รายงานความคิดเห็น

บางครั้งโมเดลอาจส่งผลต่อข้อมูลการฝึกของตนเอง เช่น ผลลัพธ์ที่ได้จากบางรุ่น จะป้อนฟีเจอร์ในโมเดลเดียวกันโดยตรงหรือโดยอ้อม

บางครั้งรูปแบบอาจส่งผลต่ออีกรูปแบบหนึ่ง เช่น ลองพิจารณาโมเดล 2 แบบสําหรับการคาดการณ์ราคาหุ้น ดังนี้

  • โมเดล A ซึ่งเป็นโมเดลการคาดการณ์ที่ไม่ถูกต้อง
  • รุ่น ข.

เนื่องจากโมเดล A มีข้อบกพร่อง จึงตัดสินใจซื้อหุ้นในหุ้น X โดยไม่ได้ตั้งใจ การซื้อเหล่านั้นจะทําให้ราคาหุ้น X เพิ่มขึ้น โมเดล B ใช้ราคาหุ้น X เป็นฟีเจอร์อินพุต ดังนั้นโมเดล B อาจได้ข้อสรุปที่เป็นเท็จบางอย่างเกี่ยวกับมูลค่าของหุ้น X อย่างชัดเจน โมเดล B จึงซื้อหรือขายหุ้น X ตามพฤติกรรมข้อบกพร่องของโมเดล A พฤติกรรมของโมเดล B อาจส่งผลต่อโมเดล A ซึ่งอาจทําให้เกิดความคลั่งไคล้ดอกทิวลิปหรือสไลด์ในหุ้นของบริษัท X