ภาคผนวกนี้มีรายละเอียดเพิ่มเติมเล็กน้อยเกี่ยวกับอัตราการเรียนรู้
กำหนดการลดอัตราการเรียนรู้
ตระกูลกำหนดการลดอัตราการเรียนรู้ที่ดีที่สุดยังคงเป็นปัญหาที่ยังไม่มีคำตอบ และยังไม่ชัดเจนว่าจะออกแบบชุดการทดลองที่เข้มงวดเพื่อ ตอบคำถามนี้ได้อย่างมั่นใจได้อย่างไร แม้ว่าเราจะไม่ทราบตารางเวลาที่ดีที่สุดสำหรับครอบครัว แต่เรามั่นใจในสิ่งต่อไปนี้
- การมีตารางเวลา (ที่ไม่คงที่) เป็นสิ่งสำคัญ
- การปรับกำหนดเวลานั้นเป็นสิ่งสำคัญ
อัตราการเรียนรู้ที่แตกต่างกันจะทำงานได้ดีที่สุดในเวลาที่ต่างกันระหว่าง กระบวนการเพิ่มประสิทธิภาพ การมีกำหนดการบางอย่างจะช่วยให้โมเดลมีแนวโน้มที่จะมีอัตราการเรียนรู้ที่ดีมากขึ้น
การลดอัตราการเรียนรู้เริ่มต้นที่ดีที่สุด
เราขอแนะนำให้ใช้ตระกูลการลดอัตราการเรียนรู้ต่อไปนี้เป็นค่าเริ่มต้น
- การลดเชิงเส้น
- การลดลงแบบโคไซน์
ตารางเวลาอื่นๆ อีกมากมายก็อาจจะดีเช่นกัน
เหตุใดงานวิจัยบางฉบับจึงมีกำหนดการอัตราการเรียนรู้ที่ซับซ้อน
เอกสารทางวิชาการหลายฉบับใช้กำหนดการลดอัตราการเรียนรู้ (LR) แบบเป็นช่วงๆ ที่ซับซ้อน ผู้อ่านมักสงสัยว่าผู้เขียนมีตารางเวลาที่ซับซ้อนเช่นนี้ได้อย่างไร ตารางการลด LR ที่ซับซ้อนหลายรายการ เป็นผลมาจากการปรับตารางเวลาให้เป็นฟังก์ชันของประสิทธิภาพชุดข้อมูลการตรวจสอบ ในลักษณะเฉพาะกิจ โดยการ
- เริ่มการฝึกครั้งเดียวด้วยการลด LR แบบง่ายๆ (หรืออัตราการเรียนรู้คงที่)
- ฝึกต่อไปจนกว่าประสิทธิภาพจะดูเหมือนหยุดนิ่ง หากเกิดกรณีนี้ ให้หยุดการฝึกชั่วคราว จากนั้นให้ฝึกต่อโดยอาจใช้กำหนดการลด LR ที่ชันขึ้น (หรืออัตราการเรียนรู้คงที่ที่เล็กลง) จากจุดนี้ ทำกระบวนการนี้ซ้ำ (จนกว่าจะถึงกำหนดเวลาการประชุมหรือการเปิดตัว)
โดยทั่วไปแล้ว การคัดลอกตารางเวลาที่ได้มาโดยไม่พิจารณาอย่างรอบคอบไม่ใช่ความคิดที่ดี เนื่องจากตารางเวลาที่เฉพาะเจาะจงที่ดีที่สุดนั้นขึ้นอยู่กับตัวเลือกไฮเปอร์พารามิเตอร์อื่นๆ อีกมากมาย เราขอแนะนำให้คัดลอกอัลกอริทึมที่สร้างตารางเวลา แม้ว่าในกรณีที่การตัดสินของมนุษย์โดยพลการเป็นผู้สร้างตารางเวลา การดำเนินการนี้มักจะเป็นไปได้ยาก คุณสามารถใช้กำหนดเวลาประเภทนี้ที่ไวต่อข้อผิดพลาดในการตรวจสอบได้หากสามารถทำให้เป็นอัตโนมัติได้อย่างเต็มรูปแบบ แต่กำหนดเวลาแบบ Human-in-the-loop ที่เป็นฟังก์ชันของข้อผิดพลาดในการตรวจสอบนั้นไม่เสถียรและทำซ้ำได้ยาก เราจึงแนะนำให้หลีกเลี่ยง ก่อนเผยแพร่ผลลัพธ์ที่ใช้กำหนดการดังกล่าว โปรดพยายามทำให้ สามารถทำซ้ำได้อย่างสมบูรณ์
ควรปรับแต่งไฮเปอร์พารามิเตอร์ของ Adam อย่างไร
ไฮเปอร์พารามิเตอร์ทั้งหมดใน Adam ไม่ได้มีความสำคัญเท่ากัน กฎคร่าวๆ ต่อไปนี้สอดคล้องกับ "งบประมาณ" ที่แตกต่างกันสำหรับจำนวน การทดสอบในการศึกษา
- หากมีการทดลองน้อยกว่า 10 ครั้งในการศึกษา ให้ปรับเฉพาะอัตราการเรียนรู้ (ฐาน)
- หากมีการทดลอง 10-25 ครั้งในการศึกษา ให้ปรับอัตราการเรียนรู้และ
beta_1
- หากมีการทดลองมากกว่า 25 ครั้ง ให้ปรับอัตราการเรียนรู้
beta_1
และepsilon
- หากมีการทดลองมากกว่า 25 ครั้งอย่างมาก ให้ปรับ
beta_2
เพิ่มเติม
เนื่องจากเป็นการยากที่จะระบุกฎทั่วไปเกี่ยวกับพื้นที่ค้นหาและ จำนวนจุดที่คุณควรสุ่มตัวอย่างจากพื้นที่ค้นหา ให้พิจารณากฎ ทั่วไปที่ระบุไว้ในส่วนนี้เป็นหลักเกณฑ์คร่าวๆ"