อัตราการเรียนรู้

ภาคผนวกนี้มีรายละเอียดเพิ่มเติมเล็กน้อยเกี่ยวกับอัตราการเรียนรู้

กำหนดการลดอัตราการเรียนรู้

ตระกูลกำหนดการลดอัตราการเรียนรู้ที่ดีที่สุดยังคงเป็นปัญหาที่ยังไม่มีคำตอบ และยังไม่ชัดเจนว่าจะออกแบบชุดการทดลองที่เข้มงวดเพื่อ ตอบคำถามนี้ได้อย่างมั่นใจได้อย่างไร แม้ว่าเราจะไม่ทราบตารางเวลาที่ดีที่สุดสำหรับครอบครัว แต่เรามั่นใจในสิ่งต่อไปนี้

  • การมีตารางเวลา (ที่ไม่คงที่) เป็นสิ่งสำคัญ
  • การปรับกำหนดเวลานั้นเป็นสิ่งสำคัญ

อัตราการเรียนรู้ที่แตกต่างกันจะทำงานได้ดีที่สุดในเวลาที่ต่างกันระหว่าง กระบวนการเพิ่มประสิทธิภาพ การมีกำหนดการบางอย่างจะช่วยให้โมเดลมีแนวโน้มที่จะมีอัตราการเรียนรู้ที่ดีมากขึ้น

การลดอัตราการเรียนรู้เริ่มต้นที่ดีที่สุด

เราขอแนะนำให้ใช้ตระกูลการลดอัตราการเรียนรู้ต่อไปนี้เป็นค่าเริ่มต้น

  • การลดเชิงเส้น
  • การลดลงแบบโคไซน์

ตารางเวลาอื่นๆ อีกมากมายก็อาจจะดีเช่นกัน

เหตุใดงานวิจัยบางฉบับจึงมีกำหนดการอัตราการเรียนรู้ที่ซับซ้อน

เอกสารทางวิชาการหลายฉบับใช้กำหนดการลดอัตราการเรียนรู้ (LR) แบบเป็นช่วงๆ ที่ซับซ้อน ผู้อ่านมักสงสัยว่าผู้เขียนมีตารางเวลาที่ซับซ้อนเช่นนี้ได้อย่างไร ตารางการลด LR ที่ซับซ้อนหลายรายการ เป็นผลมาจากการปรับตารางเวลาให้เป็นฟังก์ชันของประสิทธิภาพชุดข้อมูลการตรวจสอบ ในลักษณะเฉพาะกิจ โดยการ

  1. เริ่มการฝึกครั้งเดียวด้วยการลด LR แบบง่ายๆ (หรืออัตราการเรียนรู้คงที่)
  2. ฝึกต่อไปจนกว่าประสิทธิภาพจะดูเหมือนหยุดนิ่ง หากเกิดกรณีนี้ ให้หยุดการฝึกชั่วคราว จากนั้นให้ฝึกต่อโดยอาจใช้กำหนดการลด LR ที่ชันขึ้น (หรืออัตราการเรียนรู้คงที่ที่เล็กลง) จากจุดนี้ ทำกระบวนการนี้ซ้ำ (จนกว่าจะถึงกำหนดเวลาการประชุมหรือการเปิดตัว)

โดยทั่วไปแล้ว การคัดลอกตารางเวลาที่ได้มาโดยไม่พิจารณาอย่างรอบคอบไม่ใช่ความคิดที่ดี เนื่องจากตารางเวลาที่เฉพาะเจาะจงที่ดีที่สุดนั้นขึ้นอยู่กับตัวเลือกไฮเปอร์พารามิเตอร์อื่นๆ อีกมากมาย เราขอแนะนำให้คัดลอกอัลกอริทึมที่สร้างตารางเวลา แม้ว่าในกรณีที่การตัดสินของมนุษย์โดยพลการเป็นผู้สร้างตารางเวลา การดำเนินการนี้มักจะเป็นไปได้ยาก คุณสามารถใช้กำหนดเวลาประเภทนี้ที่ไวต่อข้อผิดพลาดในการตรวจสอบได้หากสามารถทำให้เป็นอัตโนมัติได้อย่างเต็มรูปแบบ แต่กำหนดเวลาแบบ Human-in-the-loop ที่เป็นฟังก์ชันของข้อผิดพลาดในการตรวจสอบนั้นไม่เสถียรและทำซ้ำได้ยาก เราจึงแนะนำให้หลีกเลี่ยง ก่อนเผยแพร่ผลลัพธ์ที่ใช้กำหนดการดังกล่าว โปรดพยายามทำให้ สามารถทำซ้ำได้อย่างสมบูรณ์

ควรปรับแต่งไฮเปอร์พารามิเตอร์ของ Adam อย่างไร

ไฮเปอร์พารามิเตอร์ทั้งหมดใน Adam ไม่ได้มีความสำคัญเท่ากัน กฎคร่าวๆ ต่อไปนี้สอดคล้องกับ "งบประมาณ" ที่แตกต่างกันสำหรับจำนวน การทดสอบในการศึกษา

  • หากมีการทดลองน้อยกว่า 10 ครั้งในการศึกษา ให้ปรับเฉพาะอัตราการเรียนรู้ (ฐาน)
  • หากมีการทดลอง 10-25 ครั้งในการศึกษา ให้ปรับอัตราการเรียนรู้และ beta_1
  • หากมีการทดลองมากกว่า 25 ครั้ง ให้ปรับอัตราการเรียนรู้ beta_1 และ epsilon
  • หากมีการทดลองมากกว่า 25 ครั้งอย่างมาก ให้ปรับ beta_2 เพิ่มเติม

เนื่องจากเป็นการยากที่จะระบุกฎทั่วไปเกี่ยวกับพื้นที่ค้นหาและ จำนวนจุดที่คุณควรสุ่มตัวอย่างจากพื้นที่ค้นหา ให้พิจารณากฎ ทั่วไปที่ระบุไว้ในส่วนนี้เป็นหลักเกณฑ์คร่าวๆ"