หน้านี้มีคำศัพท์ในอภิธานศัพท์ของการประเมินภาษา ดูคำศัพท์ทั้งหมดในอภิธานศัพท์ คลิกที่นี่
A
โปรดทราบ
กลไกที่ใช้ในโครงข่ายระบบประสาทเทียมที่ระบุความสำคัญของคำบางคำหรือบางส่วนของคำ Attention บีบอัดจำนวนข้อมูลที่โมเดลต้องใช้ในการคาดการณ์โทเค็น/คำถัดไป กลไกการดึงดูดความสนใจโดยทั่วไปอาจประกอบด้วยผลรวมถ่วงน้ำหนักของอินพุตชุดหนึ่ง ซึ่งน้ำหนักของอินพุตแต่ละรายการจะคำนวณโดยส่วนอื่นของโครงข่ายประสาท
ดูเพิ่มเติมเกี่ยวกับการจดจ่อด้วยตนเองและการดูแลตนเองแบบหลายหัว ซึ่งเป็นองค์ประกอบสำคัญของตัวเปลี่ยนรูปแบบ
โปรแกรมเปลี่ยนไฟล์อัตโนมัติ
ระบบที่เรียนรู้เพื่อดึงข้อมูลที่สำคัญที่สุดออกจากอินพุต โปรแกรมเปลี่ยนไฟล์อัตโนมัติเป็นการรวมโปรแกรมเปลี่ยนไฟล์และโปรแกรมถอดรหัส โปรแกรมเปลี่ยนไฟล์อัตโนมัติมีกระบวนการสองขั้นตอนต่อไปนี้
- โปรแกรมเปลี่ยนไฟล์จะแมปอินพุตกับรูปแบบ (ปกติ) แบบสูญเสียบางส่วน (แบบปานกลาง) แบบสูญเสียบางส่วน
- เครื่องมือถอดรหัสจะสร้างอินพุตต้นฉบับเวอร์ชันแบบสูญเสียบางส่วนโดยการแมปรูปแบบที่มีมิติต่ำกว่ากับรูปแบบอินพุตที่มีมิติสูงกว่าเดิม
โปรแกรมเปลี่ยนไฟล์อัตโนมัติจะได้รับการฝึกจากต้นทางถึงปลายทางโดยให้เครื่องมือถอดรหัสพยายามสร้างอินพุตดั้งเดิมจากรูปแบบระดับกลางของโปรแกรมเปลี่ยนไฟล์ให้ใกล้เคียงที่สุด เนื่องจากรูปแบบระดับกลางมีขนาดเล็กกว่า (ขนาดต่ำกว่า) รูปแบบเดิม ตัวเข้ารหัสอัตโนมัติจึงถูกบังคับให้เรียนรู้ว่าข้อมูลใดในอินพุตที่เป็นสิ่งจำเป็น และเอาต์พุตที่ได้จะไม่เหมือนกับอินพุตที่มีอย่างสมบูรณ์
เช่น
- หากข้อมูลอินพุตเป็นกราฟิก สำเนาที่ไม่ใช่แบบตรงกันทุกประการจะคล้ายกับกราฟิกต้นฉบับ แต่อาจมีการแก้ไขบ้าง ข้อความที่เหมือนกันทุกประการอาจทำให้มีการตัดเสียงรบกวนออกจากกราฟิกต้นฉบับหรือเติมเต็มพิกเซลที่ขาดหายไปบางส่วน
- หากข้อมูลอินพุตเป็นข้อความ โปรแกรมเปลี่ยนไฟล์อัตโนมัติจะสร้างข้อความใหม่ที่เลียนแบบ (แต่ไม่เหมือนกับ) ข้อความต้นฉบับ
ดูเครื่องมือเข้ารหัสอัตโนมัติรูปแบบต่างๆ
โมเดลแบบถดถอยอัตโนมัติ
modelที่อนุมานการคาดการณ์โดยอิงตามการคาดการณ์ก่อนหน้านี้ของตนเอง ตัวอย่างเช่น โมเดลภาษาแบบถดถอยอัตโนมัติจะคาดการณ์โทเค็นถัดไปโดยอิงตามโทเค็นที่คาดการณ์ไว้ก่อนหน้านี้ โมเดลภาษาขนาดใหญ่ทั้งหมดที่ใช้ Transformer จะทำงานแบบถดถอยโดยอัตโนมัติ
ในทางตรงกันข้าม โมเดลรูปภาพแบบใช้ GAN มักจะไม่ใช้แบบถดถอยอัตโนมัติเนื่องจากโมเดลจะสร้างรูปภาพในการส่งไปข้างหน้าเพียงครั้งเดียวและไม่ทำซ้ำทีละขั้น อย่างไรก็ตาม โมเดลการสร้างรูปภาพบางรูปแบบจะถดถอยอัตโนมัติเนื่องจากโมเดลจะสร้างรูปภาพในขั้นตอน
B
ถุงคำ
การนำเสนอคำในวลีหรือข้อความ โดยไม่คำนึงถึงลำดับ ตัวอย่างเช่น ถุงคำแสดงถึง วลี 3 วลีต่อไปนี้ที่เหมือนกัน
- สุนัขกระโดด
- กระโดดหมา
- หมากระโดด
แต่ละคำจะจับคู่กับดัชนีในเวกเตอร์แบบกระจัดกระจาย โดยที่เวกเตอร์มีดัชนีสำหรับทุกคำในคำศัพท์ ตัวอย่างเช่น วลี สุนัขกระโดดจะแมปลงในเวกเตอร์ฟีเจอร์ที่มีค่าที่ไม่ใช่ 0 ที่ดัชนีทั้ง 3 รายการที่มีคำว่า the, dog และ jumps ค่าที่ไม่ใช่ 0 อาจเป็นค่าใดก็ได้ต่อไปนี้
- A 1 เพื่อบ่งบอกว่ามีคำ
- จำนวนครั้งที่คำๆ หนึ่งปรากฏในกระเป๋า เช่น หากวลีคือ the maroon dog is a dog with maroon fur ทั้ง maroon และ dog ทั้งคู่ก็จะได้เป็น 2 ขณะที่คำอื่นๆ จะหมายถึง 1
- ค่าอื่นๆ เช่น ลอการิทึมของจำนวนครั้งที่คำปรากฏในกระเป๋า
BERT (โปรแกรมเปลี่ยนไฟล์แบบ 2 ทิศทาง การรับรองจาก Transformers)
สถาปัตยกรรมโมเดลสำหรับการเป็นตัวแทนข้อความ โมเดล BERT ที่ได้รับการฝึกแล้วสามารถทำหน้าที่เป็นส่วนหนึ่งของโมเดลขนาดใหญ่สำหรับการจำแนกข้อความหรืองาน ML อื่นๆ
BERT มีคุณสมบัติดังต่อไปนี้
- ใช้สถาปัตยกรรม Transformer ดังนั้นจึงอาศัยการจดจ่อด้วยตนเอง
- ใช้ส่วนโปรแกรมเปลี่ยนไฟล์ของหม้อแปลง งานของโปรแกรมเปลี่ยนไฟล์คือการสร้างการนำเสนอข้อความที่ดี ไม่ใช่การทำงานเฉพาะบางอย่าง เช่น การจำแนกประเภท
- เป็นแบบ2 ทิศทาง
- ใช้การมาสก์สำหรับการฝึกที่ไม่มีการควบคุมดูแล
ตัวแปรของ BERT ได้แก่
ดูภาพรวมของ BERT ได้ที่ Open Sourcing BERT: การฝึกอบรมล่วงหน้าที่ทันสมัยสำหรับการประมวลผลภาษาธรรมชาติ
แบบ 2 ทิศทาง
คำที่ใช้อธิบายระบบที่ประเมินข้อความที่ทั้งอยู่ข้างหน้าและติดตามส่วนเป้าหมายของข้อความ ในทางตรงกันข้าม ระบบแบบทิศทางเดียวจะประเมินเฉพาะข้อความที่อยู่ข้างหน้าข้อความส่วนเป้าหมายเท่านั้น
ตัวอย่างเช่น ลองพิจารณาโมเดลภาษาที่มีการมาสก์ที่จะต้องกำหนดความน่าจะเป็นสำหรับคำหรือกลุ่มคำที่แสดงถึงการขีดเส้นใต้ในคำถามต่อไปนี้
_____ ที่อยู่กับคุณคืออะไร
โมเดลภาษาแบบทิศทางเดียวจะต้องกำหนดความน่าจะเป็นในบริบทที่ระบุโดยคําว่า "อะไร" "คือ" และ "the" เท่านั้น ในทางกลับกัน โมเดลภาษาแบบ 2 ทิศทางอาจได้รับบริบทจาก "with" และ "you" ซึ่งอาจช่วยให้โมเดลสร้างการคาดการณ์ได้ดีขึ้น
โมเดลภาษาแบบ 2 ทิศทาง
รูปแบบภาษาซึ่งกำหนดความน่าจะเป็นที่โทเค็นที่ระบุจะปรากฏในตำแหน่งหนึ่งๆ ในข้อความที่ตัดตอนมาของข้อความที่ตัดตอนมาตามข้อความก่อนหน้าและข้อความต่อไปนี้
Bigram
N-gram ที่ N=2
BLEU (ระหว่างการศึกษาวิจัยสองภาษา)
คะแนนระหว่าง 0.0 ถึง 1.0 เป็นคะแนนซึ่งแสดงถึงคุณภาพของคำแปลระหว่างภาษามนุษย์ 2 ภาษา (เช่น ภาษาอังกฤษเป็นภาษารัสเซีย) คะแนน BLEU 1.0 หมายถึงคำแปลสมบูรณ์แบบ คะแนน BLEU ที่ 0.0 หมายความว่าคำแปลแย่มาก
C
โมเดลภาษาทั่วไป
คำพ้องความหมายสำหรับรูปแบบภาษาที่มีทิศทางเดียว
ดูโมเดลภาษาแบบ 2 ทิศทางเพื่อตัดกันวิธีการกำหนดทิศทางต่างๆ ในการประมาณภาษา
การกระตุ้นให้แนวคิดของห่วงโซ่ความคิด
เทคนิคแบบพรอมต์วิศวกรรมที่สนับสนุนโมเดลภาษาขนาดใหญ่ (LLM) ในการอธิบายเหตุผลทีละขั้นตอน ตัวอย่างเช่น ลองพิจารณาข้อความต่อไปนี้ โดยเน้นที่ประโยคที่ 2
คนขับรถยนต์สามารถขับได้ถึงกี่แรงในระยะทาง 0 ถึง 60 ไมล์ต่อชั่วโมงใน 7 วินาที แสดงการคำนวณที่เกี่ยวข้องทั้งหมดในคำตอบ
การตอบสนองของ LLM น่าจะเป็นดังนี้
- แสดงลำดับสูตรฟิสิกส์ โดยใส่ค่า 0, 60 และ 7 ไว้ในตำแหน่งที่เหมาะสม
- อธิบายว่าเหตุใดตัวแปรเหล่านั้นจึงเลือกสูตรเหล่านั้น และความหมายของตัวแปรต่างๆ
การนำเสนอแนวคิดห่วงโซ่ความคิดจะบังคับให้ LLM ทำการคำนวณทั้งหมด ซึ่งอาจนำไปสู่คำตอบที่ถูกต้องยิ่งขึ้น นอกจากนี้ การแสดงข้อความแจ้งเกี่ยวกับห่วงโซ่ความคิดจะช่วยให้ผู้ใช้ตรวจสอบขั้นตอนของ LLM เพื่อพิจารณาว่าคำตอบเหมาะสมหรือไม่
การแยกวิเคราะห์เขตเลือกตั้ง
การแบ่งประโยคออกเป็นโครงสร้างไวยากรณ์ขนาดเล็กลง ("ส่วนประกอบ") ส่วนหลังของระบบ ML เช่น โมเดลการทำความเข้าใจภาษาธรรมชาติ จะแยกวิเคราะห์ส่วนประกอบได้ง่ายกว่าประโยคดั้งเดิม ตัวอย่างเช่น ลองพิจารณาประโยคต่อไปนี้
เพื่อนผมรับเลี้ยงแมว 2 ตัว
โปรแกรมแยกวิเคราะห์เขตเลือกตั้งสามารถแบ่งประโยคนี้เป็น 2 ร่าง ดังนี้
- เพื่อนของฉันเป็นคำนาม
- adopted one cats (แมว 2 ตัว) เป็นวลีกริยา
ส่วนประกอบเหล่านี้สามารถแบ่งย่อยไปยังประชาชนที่มีขนาดเล็กกว่าได้ เช่น วลีกริยา
รับเลี้ยงแมว 2 ตัว
สามารถแบ่งย่อยได้อีกดังนี้
- adopted คือคำกริยา
- two cats เป็นคำนามอีกวลีหนึ่ง
Crash Blossom
ประโยคหรือวลีที่มีความหมายกำกวม ดอกซากุระบานก่อให้เกิดปัญหาสำคัญในความเข้าใจภาษาธรรมชาติ ตัวอย่างเช่น บรรทัดแรก Red Tape ยกแท่งทรงสูง เป็นลายดอกซากุระบาน เนื่องจากโมเดล NLU สามารถตีความบรรทัดแรกได้ตรงตัวหรือเหมือนจริง
D
เครื่องมือถอดรหัส
โดยทั่วไป ระบบ ML ที่แปลงจากการนำเสนอภายใน แบบการประมวลผล หนาแน่น หรือแบบภายในเป็นการนำเสนอแบบไม่สมบูรณ์หรือแบบภายนอก
ตัวถอดรหัสมักเป็นส่วนประกอบของโมเดลขนาดใหญ่ ซึ่งมักจะจับคู่กับโปรแกรมเปลี่ยนไฟล์
ในงานที่มีลำดับต่อเนื่อง เครื่องมือถอดรหัสจะเริ่มต้นจากสถานะภายในที่โปรแกรมเปลี่ยนไฟล์สร้างขึ้นเพื่อคาดการณ์ลำดับถัดไป
ดูคำจำกัดความของตัวถอดรหัสภายในสถาปัตยกรรม Transformer ได้ที่ Transformer
การตัดเสียงรบกวน
แนวทางทั่วไปสำหรับการเรียนรู้แบบควบคุมดูแลด้วยตนเอง ซึ่งมีลักษณะดังต่อไปนี้
การลดเสียงรบกวนช่วยให้เรียนรู้จากตัวอย่างที่ไม่มีป้ายกำกับได้ ชุดข้อมูลเดิมจะทําหน้าที่เป็นเป้าหมายหรือป้ายกํากับ และข้อมูลที่มีเสียงดังเป็นอินพุต
โมเดลภาษาที่มีการมาสก์บางรูปแบบใช้การตัดเสียงรบกวนดังต่อไปนี้
- ระบบจะเพิ่มเสียงรบกวนลงในประโยคที่ไม่มีป้ายกำกับอย่างไม่เป็นจริงโดยการมาสก์โทเค็นบางส่วน
- โมเดลจะพยายามคาดการณ์โทเค็นดั้งเดิม
ข้อความแจ้งโดยตรง
คำพ้องความหมายสำหรับ ข้อความแจ้งการตั้งค่าอุปกรณ์พร้อมใช้แบบรวมกลุ่ม
E
แก้ไขระยะทาง
การวัดความคล้ายคลึงกันของสตริงข้อความสองสตริง ในแมชชีนเลิร์นนิง การแก้ไขระยะทางจะมีประโยชน์เนื่องจากคำนวณได้ง่ายและประมวลผลได้ง่าย และยังเป็นวิธีที่มีประสิทธิภาพในการเปรียบเทียบสตริง 2 สตริงที่ทราบกันว่าคล้ายกันหรือหาสตริงที่คล้ายกับสตริงที่ระบุ
ระยะการแก้ไขมีคำจำกัดความอยู่มากมาย แต่ละคำจะใช้การดำเนินการสตริงต่างกัน ตัวอย่างเช่น ระยะ Levenshtein จะพิจารณาการดำเนินการลบ แทรก และแทนที่น้อยที่สุด
เช่น ระยะห่างของ Levenshtein ระหว่างคำว่า "หัวใจ" และ "ลูกดอก" เท่ากับ 3 เนื่องจากการแก้ไข 3 รายการต่อไปนี้เป็นการเปลี่ยนแปลงที่น้อยที่สุดที่จะทำให้คำหนึ่งกลายเป็นอีกคำหนึ่ง
- หัวใจ → รัก (แทนที่ "h" ด้วย "d")
- deart → dart (ลบ "e")
- ลูกศร → ลูกดอก (แทรก "s")
เลเยอร์ที่ฝัง
เลเยอร์ที่ซ่อนอยู่พิเศษที่ฝึกบนฟีเจอร์เชิงหมวดหมู่มิติสูงเพื่อค่อยๆ เรียนรู้เวกเตอร์ที่ฝังอยู่ที่มีขนาดต่ำกว่า เลเยอร์ที่ฝังอยู่ทำให้โครงข่ายประสาทฝึกได้อย่างมีประสิทธิภาพมากกว่าการฝึกเฉพาะฟีเจอร์เชิงหมวดหมู่ในมิติระดับสูง
ตัวอย่างเช่น ปัจจุบัน Earth รองรับต้นไม้ประมาณ 73,000 ชนิด สมมติว่าสปีชีส์ของต้นไม้เป็นฟีเจอร์ในโมเดลของคุณ เลเยอร์อินพุตของโมเดลจึงมีเวกเตอร์ครั้งเดียว องค์ประกอบยาว 73,000 รายการ
ตัวอย่างเช่น baobab
อาจแสดงขึ้นประมาณนี้
อาร์เรย์ 73,000 องค์ประกอบยาวมาก หากไม่เพิ่มเลเยอร์ที่ฝังลงในโมเดล การฝึกจะใช้เวลานานมากเนื่องจากมีการคูณ 0 ถึง 72,999 ตัว คุณอาจเลือกเลเยอร์การฝังให้ประกอบด้วย ขนาด 12 ขนาด เลเยอร์ที่ฝังจะค่อยๆ เรียนรู้ เวกเตอร์การฝังใหม่สำหรับต้นไม้แต่ละชนิด
ในบางสถานการณ์ การแฮชเป็นทางเลือกที่สมเหตุสมผลแทนการฝังเลเยอร์
พื้นที่ทำงานที่ฝัง
พื้นที่ของเวกเตอร์ d มิติที่คุณลักษณะมาจากพื้นที่เวกเตอร์มิติสูงจะถูกจับคู่ด้วย ตามหลักการแล้ว พื้นที่ที่ฝังมีโครงสร้างที่ให้ผลทางคณิตศาสตร์ที่มีความหมาย ตัวอย่างเช่น ในพื้นที่การฝังที่ดีที่สุด การเพิ่มและการลบการฝังสามารถแก้โจทย์ในการเปรียบเทียบคำได้
ผลิตภัณฑ์จุดของการฝัง 2 จุดเป็นการวัดความคล้ายคลึงกัน
การฝังเวกเตอร์
หรืออาจกล่าวให้กว้างๆ ก็คืออาร์เรย์ของจำนวนจุดลอยตัวที่ดึงมาจากเลเยอร์ที่ซ่อนไว้ซึ่งอธิบายอินพุตไปยังเลเยอร์ที่ซ่อนอยู่นั้น เวกเตอร์ที่ฝังอยู่บ่อยๆ คืออาร์เรย์ของจำนวนจุดลอยตัวที่ฝึกในเลเยอร์ที่ฝัง ตัวอย่างเช่น สมมติว่าเลเยอร์ที่ฝังต้องเรียนรู้ เวกเตอร์การฝังสำหรับต้นไม้แต่ละชนิด 73,000 ชนิดบนโลก อาร์เรย์ต่อไปนี้อาจเป็นเวกเตอร์ที่ฝังของต้นเบาบับ
เวกเตอร์ที่ฝังอยู่ไม่ใช่ชุดตัวเลขแบบสุ่ม เลเยอร์ที่ฝังจะกำหนดค่าเหล่านี้ผ่านการฝึก ซึ่งคล้ายกับการที่โครงข่ายระบบประสาทเรียนรู้การถ่วงน้ำหนักอื่นๆ ระหว่างการฝึก แต่ละองค์ประกอบของอาร์เรย์คือการให้คะแนนตามลักษณะเฉพาะของสายพันธุ์ต้นไม้ องค์ประกอบใดแสดงลักษณะเฉพาะของต้นไม้ชนิดใด มนุษย์ระบุได้ยากมาก
ส่วนที่เห็นได้ชัดทางคณิตศาสตร์ของเวกเตอร์ที่ฝังอยู่ก็คือรายการที่คล้ายกัน จะมีชุดจำนวนจุดลอยตัวที่คล้ายกัน เช่น ต้นไม้สายพันธุ์ที่คล้ายกันจะมีชุดตัวเลขลอยตัวที่คล้ายกันมากกว่าต้นไม้สายพันธุ์ที่ต่างกัน เรดวูดและสนซีคัวยาเป็นพันธุ์ไม้ที่เกี่ยวข้องกัน ดังนั้นจะมีชุดตัวเลขที่ชี้ให้เห็นซึ่งต่างจากต้นเรดวูดและต้นมะพร้าว ตัวเลขในเวกเตอร์การฝังจะเปลี่ยนไปทุกครั้งที่คุณฝึกโมเดลอีกครั้ง แม้ว่าคุณจะฝึกโมเดลอีกครั้งด้วยอินพุตที่เหมือนกันก็ตาม
โปรแกรมเปลี่ยนไฟล์
โดยทั่วไป ระบบ ML ที่แปลงจากการนำเสนอแบบดิบ แบบกระจัดกระจาย หรือการนำเสนอภายนอก เป็นการนำเสนอแบบดำเนินการภายใน หนาแน่นกว่า หรือเป็นการนําเสนอภายในมากกว่า
โปรแกรมเปลี่ยนไฟล์มักเป็นส่วนประกอบของโมเดลที่ใหญ่กว่า ซึ่งมักจะจับคู่กับเครื่องมือถอดรหัส Transformers บางรุ่นจะจับคู่โปรแกรมเปลี่ยนไฟล์กับตัวถอดรหัส ในขณะที่ Transformer อื่นๆ จะใช้เพียงโปรแกรมเปลี่ยนไฟล์หรือใช้เพียงตัวถอดรหัส
บางระบบใช้เอาต์พุตของโปรแกรมเปลี่ยนไฟล์เป็นอินพุตไปยังเครือข่ายการแยกประเภทหรือเครือข่ายการถดถอย
ในงานที่มีลำดับต่อเนื่อง โปรแกรมเปลี่ยนไฟล์จะจับลำดับอินพุตและแสดงผลสถานะภายใน (เวกเตอร์) จากนั้นเครื่องมือถอดรหัสจะใช้สถานะภายในดังกล่าวเพื่อคาดการณ์ลำดับถัดไป
โปรดดูคำจำกัดความของโปรแกรมเปลี่ยนไฟล์ในสถาปัตยกรรมของ Transformer
F
การแสดงข้อความแจ้งเพียงไม่กี่ช็อต
ข้อความแจ้งที่มีตัวอย่าง ("น้อย") มากกว่า 1 รายการที่แสดงให้เห็นว่ารูปแบบภาษาขนาดใหญ่ควรตอบสนองอย่างไร เช่น ข้อความแจ้งที่ยาวกว่าต่อไปนี้มี 2 ตัวอย่างที่แสดงวิธีตอบคำถามของโมเดลภาษาขนาดใหญ่
ส่วนต่างๆ ของข้อความแจ้ง | Notes |
---|---|
สกุลเงินอย่างเป็นทางการของประเทศที่ระบุคืออะไร | คำถามที่ต้องการให้ LLM ตอบ |
ฝรั่งเศส: EUR | เช่น |
สหราชอาณาจักร: GBP | อีกตัวอย่างหนึ่ง |
อินเดีย: | ข้อความค้นหาจริง |
โดยทั่วไปข้อความแจ้งเพียงไม่กี่รูปแบบจะให้ผลลัพธ์ที่น่าพอใจมากกว่าข้อความแจ้งแบบช็อตเดียวและข้อความแจ้งแบบช็อตเดียว อย่างไรก็ตาม การแสดงข้อความแจ้งเพียงไม่กี่ช็อต ต้องใช้ข้อความแจ้งที่ยาวกว่านี้
ข้อความแจ้งข้อผิดพลาดแบบระยะเดียวเป็นการเรียนรู้แบบค่อยเป็นค่อยไป ซึ่งนำไปใช้กับการเรียนรู้ตามข้อความแจ้ง
ฟิดเดิล
ไลบรารีการกำหนดค่าแบบ Python เป็นหลักซึ่งตั้งค่าของฟังก์ชันและคลาสโดยไม่ต้องมีโค้ดหรือโครงสร้างพื้นฐานแบบล่วงล้ำ ในกรณีของ Pax และโค้ดเบส ML อื่นๆ ฟังก์ชันและคลาสเหล่านี้หมายถึง models และ training ไฮเปอร์พารามิเตอร์
Fiddle สันนิษฐานว่าโดยทั่วไปฐานของโค้ดแมชชีนเลิร์นนิงจะแบ่งออกเป็นดังนี้
- โค้ดไลบรารี ซึ่งระบุเลเยอร์และตัวเพิ่มประสิทธิภาพ
- โค้ด "Glue" ของชุดข้อมูล ซึ่งเรียกไลบรารีและเชื่อมต่อสายทุกอย่างเข้าด้วยกัน
Fiddle จับโครงสร้างการเรียกของโค้ดกาวในรูปแบบที่ยังไม่ประเมินผลและเปลี่ยนแปลงได้
การปรับแต่ง
บัตรผ่านการฝึกอบรมแบบที่ 2 ที่เจาะจงงานซึ่งทำงานในโมเดลที่ฝึกไว้แล้วเพื่อปรับแต่งพารามิเตอร์สำหรับกรณีการใช้งานที่เฉพาะเจาะจง ตัวอย่างเช่น ลำดับการฝึกแบบเต็มสำหรับโมเดลภาษาขนาดใหญ่บางรายการมีดังนี้
- การฝึกล่วงหน้า: ฝึกโมเดลภาษาขนาดใหญ่ในชุดข้อมูลทั่วไปขนาดใหญ่ เช่น หน้า Wikipedia ภาษาอังกฤษทั้งหมด
- การปรับแต่ง: ฝึกโมเดลที่ฝึกไว้ล่วงหน้าให้ทำงานที่เฉพาะเจาะจง เช่น การตอบสนองต่อคำค้นหาทางการแพทย์ การปรับแต่งมักประกอบด้วยตัวอย่างหลายร้อยหรือหลายพันรายการที่มุ่งเน้นงานนั้นๆ
อีกตัวอย่างหนึ่ง ลำดับการฝึกทั้งหมดสำหรับโมเดลรูปภาพขนาดใหญ่มีดังนี้
- การฝึกล่วงหน้า: ฝึกโมเดลรูปภาพขนาดใหญ่ในชุดข้อมูลรูปภาพทั่วไปขนาดใหญ่ เช่น รูปภาพทั้งหมดในคอมมอน Wikimedia
- การปรับแต่ง: ฝึกโมเดลที่ฝึกล่วงหน้าให้ทำงานที่เฉพาะเจาะจง เช่น การสร้างรูปภาพของวาฬเพชฌฆาต
การปรับแต่งอาจผสมผสานกลยุทธ์ต่อไปนี้เข้าด้วยกัน
- การแก้ไขพารามิเตอร์ที่มีอยู่ของโมเดลที่ฝึกล่วงหน้าทั้งหมด บางครั้งจะเรียกกรณีเช่นนี้ว่าการปรับแต่งเต็มรูปแบบ
- แก้ไขพารามิเตอร์ที่มีอยู่ของโมเดลที่ฝึกล่วงหน้าบางส่วนเท่านั้น (โดยทั่วไปคือเลเยอร์ที่ใกล้กับเลเยอร์เอาต์พุตมากที่สุด) ขณะเดียวกันก็คงพารามิเตอร์อื่นๆ ที่มีอยู่ไว้ตามเดิม (โดยปกติจะเป็นเลเยอร์ที่อยู่ใกล้เลเยอร์อินพุตมากที่สุด) ดูการปรับแต่งแบบใช้พารามิเตอร์
- การเพิ่มเลเยอร์ โดยปกติจะอยู่ทับเลเยอร์ที่มีอยู่ซึ่งใกล้กับเลเยอร์เอาต์พุตมากที่สุด
การปรับแต่งเป็นการเรียนรู้จากการโอนรูปแบบหนึ่ง ดังนั้น การปรับแต่งอาจใช้ฟังก์ชันการสูญเสียหรือประเภทโมเดลที่แตกต่างจากที่ใช้ฝึกโมเดลก่อนการฝึก ตัวอย่างเช่น คุณสามารถปรับแต่งโมเดลรูปภาพขนาดใหญ่ที่ฝึกไว้แล้วเพื่อสร้างโมเดลการถดถอยที่แสดงจำนวนนกในอิมเมจอินพุต
เปรียบเทียบความเหมือนและความต่างของการปรับแต่งกับคำศัพท์ต่อไปนี้
เมล็ดแฟล็กซ์
ไลบรารีแบบโอเพนซอร์สที่มีประสิทธิภาพสูงสำหรับการเรียนรู้เชิงลึกซึ่งสร้างต่อยอด JAX Flax มีฟังก์ชันสำหรับการฝึก โครงข่ายระบบประสาทเทียม รวมถึงวิธีประเมินประสิทธิภาพ
ยาง Flaxformer
ห้องสมุดTransformer แบบโอเพนซอร์สที่สร้างมาจาก Flax ซึ่งออกแบบมาสำหรับการประมวลผลภาษาธรรมชาติและการวิจัยหลายรูปแบบเป็นหลัก
G
Generative AI
สาขาการเปลี่ยนแปลงที่กำลังเป็นรูปธรรมซึ่งไม่มีคำจำกัดความอย่างเป็นทางการ อย่างไรก็ตาม ผู้เชี่ยวชาญส่วนใหญ่เห็นด้วยว่าโมเดล Generative AI สามารถสร้าง ("สร้าง") เนื้อหาที่มีลักษณะดังต่อไปนี้ได้
- ซับซ้อน
- สอดคล้องกัน
- เดิม
ตัวอย่างเช่น โมเดล Generative AI สามารถสร้างเรียงความหรือรูปภาพที่ซับซ้อนได้
เทคโนโลยีรุ่นก่อนๆ เช่น LSTM และ RNN สามารถสร้างเนื้อหาต้นฉบับที่สอดคล้องได้เช่นกัน ผู้เชี่ยวชาญบางคนมองว่าเทคโนโลยีรุ่นก่อนเหล่านี้คือ Generative AI ขณะที่คนอื่นๆ รู้สึกว่า Generative AI ที่แท้จริงต้องใช้เอาต์พุตที่ซับซ้อนกว่าเทคโนโลยีใหม่ๆ ที่เทคโนโลยียุคก่อนทำได้
คอนทราสต์กับ ML แบบคาดคะเน
GPT (Transformer ก่อนการฝึกที่สร้างขึ้น)
กลุ่มโมเดลภาษาขนาดใหญ่ที่อิงตามTransformer ซึ่งพัฒนาโดย OpenAI
ตัวแปรของ GPT ใช้ได้กับวิธีการหลายรูปแบบ ดังนี้
- การสร้างรูปภาพ (เช่น ImageGPT)
- การสร้างข้อความสู่รูปภาพ (เช่น DALL-E)
ฮิต
อาการประสาทหลอน
การสร้างเอาต์พุตที่ดูเหมือนเป็นไปได้แต่ไม่ถูกต้องตามข้อเท็จจริงโดยโมเดล generative AI ที่อ้างว่ามีการยืนยันเกี่ยวกับชีวิตจริง ตัวอย่างเช่น โมเดล Generative AI ที่อ้างว่าบารัก โอบามาเสียชีวิตเมื่อปี 1865 เป็นภาพหลอน
I
การเรียนรู้ในบริบท
คำพ้องความหมายของ few-shot prompting
L
LaMDA (โมเดลภาษาสำหรับแอปพลิเคชันด้านการสนทนา)
โมเดลภาษาขนาดใหญ่ที่อิงตาม Transformer ซึ่งได้รับการพัฒนาโดย Google ซึ่งได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลการสนทนาขนาดใหญ่ที่สร้างการตอบกลับการสนทนาที่สมจริงได้
LaMDA: เทคโนโลยีการสนทนาใหม่ ของเราช่วยให้เห็นภาพรวม
โมเดลภาษา
modelที่ประมาณความน่าจะเป็นของmodelหรือลำดับของโทเค็นที่เกิดขึ้นในลำดับที่ยาวกว่าของโทเค็น
โมเดลภาษาขนาดใหญ่
คำที่ไม่เป็นทางการที่ไม่มีคำจำกัดความที่แน่นอนซึ่งมักจะหมายถึงโมเดลภาษาที่มีพารามิเตอร์จำนวนมาก โมเดลภาษาขนาดใหญ่บางโมเดลมีพารามิเตอร์มากกว่า 1 แสนล้านตัว
M
โมเดลภาษาที่มีการมาสก์
โมเดลภาษาที่คาดการณ์ความน่าจะเป็นของโทเค็นผู้สมัครที่จะเติมในช่องว่างตามลำดับ ตัวอย่างเช่น โมเดลภาษามาสก์สามารถคำนวณความน่าจะเป็นสำหรับคำที่รอเลือกที่จะใช้แทนที่การขีดเส้นใต้ในประโยคต่อไปนี้
____ ในหมวกกลับมาแล้ว
โดยทั่วไปการอ่านเขียนจะใช้สตริง "MASK" แทนขีดเส้นใต้ เช่น
คำว่า "MASK" ในหมวกกลับมาแล้ว
โมเดลภาษาหน้ากากสมัยใหม่ส่วนใหญ่เป็นแบบแบบ 2 ทิศทาง
การเรียนรู้เมตา
ชุดย่อยของแมชชีนเลิร์นนิงที่ค้นพบหรือปรับปรุงอัลกอริทึมการเรียนรู้ ระบบการเรียนรู้เมตายังสามารถมุ่งฝึกโมเดลให้เรียนรู้งานใหม่ได้อย่างรวดเร็วจากข้อมูลปริมาณน้อยหรือจากประสบการณ์ที่ได้รับในงานก่อนหน้า โดยทั่วไปอัลกอริทึมการเรียนรู้เมตาจะพยายามดำเนินการดังต่อไปนี้
- ปรับปรุง/เรียนรู้ฟีเจอร์ที่ออกแบบเอง (เช่น เครื่องมือเริ่มต้นหรือเครื่องมือเพิ่มประสิทธิภาพ)
- ประหยัดอินเทอร์เน็ตและประมวลผลได้มากขึ้น
- ปรับปรุงข้อมูลทั่วไป
การเรียนรู้เมตาเกี่ยวข้องกับการเรียนรู้แบบยิงครั้งเดียว
รูปแบบ
หมวดหมู่ข้อมูลระดับสูง ตัวอย่างเช่น ตัวเลข ข้อความ รูปภาพ วิดีโอ และเสียงก็มีห้าวิธีที่แตกต่างกัน
โมเดลแบบทํางานพร้อมกัน
วิธีปรับขนาดการฝึกหรือการอนุมานที่นำชิ้นส่วนต่างๆ ของmodelหนึ่งมาไว้ในmodelที่แตกต่างกัน การทำโมเดลให้พร้อมกันได้ จะทำให้โมเดลที่ใหญ่เกินไปอยู่ในอุปกรณ์เครื่องเดียวได้
หากต้องการใช้โมเดลคู่ขนาน ระบบมักจะทําสิ่งต่อไปนี้
- ชาร์ด (แบ่ง) โมเดลออกเป็นส่วนย่อยๆ
- กระจายการฝึกส่วนเล็กๆ เหล่านั้นไปยังโปรเซสเซอร์หลายตัว โปรเซสเซอร์แต่ละตัวจะฝึกส่วนของตัวเองในโมเดล
- รวมผลลัพธ์เพื่อสร้างรูปแบบเดียว
การทำงานพร้อมกันของโมเดลทำให้การฝึกช้าลง
โปรดดูข้อมูลพร้อมกันด้วย
การควบคุมด้วยตนเองแบบหลายหัว
ส่วนขยายของการจัดการตนเองที่ใช้กลไกการจัดการตนเองหลายครั้งสำหรับแต่ละตำแหน่งในลำดับอินพุต
Transformers นำเสนอการช่วยตัวเองแบบหลายศีรษะ
รูปแบบแบบหลายโมดัล
โมเดลที่มีอินพุตและ/หรือเอาต์พุตมีรูปแบบมากกว่า 1 รูปแบบ ตัวอย่างเช่น ลองพิจารณาโมเดลที่ใช้ทั้งรูปภาพและคำอธิบายภาพ (2 วิธี) เป็นฟีเจอร์ แล้วแสดงคะแนนที่แสดงว่าคำบรรยายภาพเหมาะกับรูปภาพมากน้อยเพียงใด ดังนั้นอินพุตของโมเดลนี้จะเป็นแบบหลายโมดัลและเอาต์พุตเป็นแบบเดียว
N
ความเข้าใจภาษาธรรมชาติ
การพิจารณาความตั้งใจของผู้ใช้จากสิ่งที่ผู้ใช้พิมพ์หรือพูด ตัวอย่างเช่น เครื่องมือค้นหาจะใช้ความเข้าใจภาษาที่เป็นธรรมชาติเพื่อระบุสิ่งที่ผู้ใช้กำลังค้นหาตามสิ่งที่ผู้ใช้พิมพ์หรือพูด
N กรัม
ลำดับคำตามลำดับ N คำ ตัวอย่างเช่น แย่จริงคือ 2 กรัม เนื่องจากคำสั่งซื้อมีความเกี่ยวข้อง จริงๆ แล้วมี 2 กรัมต่างจากบ้าจริงๆ
N | ชื่อสำหรับ N-gram ประเภทนี้ | ตัวอย่าง |
---|---|---|
2 | Bigram หรือ 2-gram | ไปไหน ไปกินข้าวเที่ยง กินข้าวเย็น |
3 | ไตรแกรมหรือ 3 กรัม | กินมากเกินไป หนูตาบอด 3 ตัว ตัวกระดิ่ง |
4 | 4 กรัม | เดินในสวนสาธารณะ ฝุ่นฟุ้งไปตามสายลม เด็กหนุ่มกินถั่วเลนทิล |
โมเดลความเข้าใจภาษาที่เป็นธรรมชาติหลายโมเดลจะอาศัย N-gram ในการคาดคะเนคำถัดไปที่ผู้ใช้จะพิมพ์หรือพูด ตัวอย่างเช่น สมมติว่าผู้ใช้พิมพ์มู่ลี่ 3 จุด โมเดล NLU ที่อิงตาม Trigrams มีแนวโน้มที่จะคาดการณ์ว่าผู้ใช้จะพิมพ์ เมาส์ เป็นลำดับถัดไป
คอนทราสต์ N กรัมกับถุงคำ ซึ่งเป็นชุดคำที่ไม่เรียงลำดับ
NLU
เป็นตัวย่อของการทำความเข้าใจภาษาที่เป็นธรรมชาติ
O
ข้อความแจ้งแบบครั้งเดียว
ข้อความแจ้งที่มีตัวอย่างที่แสดงให้เห็นว่ารูปแบบภาษาขนาดใหญ่ควรตอบสนองอย่างไร เช่น คำสั่งต่อไปนี้มีตัวอย่างหนึ่งที่แสดงโมเดลภาษาขนาดใหญ่ว่าควรตอบคำถามอย่างไร
ส่วนต่างๆ ของข้อความแจ้ง | Notes |
---|---|
สกุลเงินอย่างเป็นทางการของประเทศที่ระบุคืออะไร | คำถามที่ต้องการให้ LLM ตอบ |
ฝรั่งเศส: EUR | เช่น |
อินเดีย: | ข้อความค้นหาจริง |
เปรียบเทียบหาความเหมือนและความแตกต่างของข้อความแจ้งแบบช็อตเดียวกับคำศัพท์ต่อไปนี้
คะแนน
การปรับแต่งประสิทธิภาพพารามิเตอร์
ชุดเทคนิคในการปรับแต่งโมเดลภาษา (PLM) ก่อนการฝึกขนาดใหญ่อย่างมีประสิทธิภาพมากกว่าการปรับแต่งเต็มรูปแบบ โดยปกติแล้ว การปรับแต่งแบบใช้พารามิเตอร์จะปรับแต่งพารามิเตอร์ได้น้อยกว่าการปรับแต่งแบบเต็มรูปแบบมาก แต่มักจะสร้างโมเดลภาษาขนาดใหญ่ซึ่งทำงานได้ดี (หรือเกือบเท่ากัน) เช่นเดียวกับโมเดลภาษาขนาดใหญ่ที่สร้างขึ้นจากการปรับแต่งทั้งหมด
เปรียบเทียบและปรับคอนทราสต์อย่างมีประสิทธิภาพของพารามิเตอร์กับ
การปรับแต่งอย่างมีประสิทธิภาพพารามิเตอร์เรียกอีกอย่างว่าการปรับแต่งแบบเพิ่มประสิทธิภาพพารามิเตอร์
การใช้ท่อ
รูปแบบขนานของโมเดลที่การประมวลผลของโมเดลจะแบ่งเป็นขั้นตอนต่อเนื่องกัน และแต่ละขั้นจะดำเนินการในอุปกรณ์ที่แตกต่างกัน ในขณะที่ขั้นตอนหนึ่งกำลังประมวลผลกลุ่ม 1 กลุ่ม ระยะก่อนหน้าจะทำงานในกลุ่มถัดไปได้
โปรดดูการฝึกอบรมแบบทีละขั้น
ระบบ PLM
ตัวย่อของโมเดลภาษาก่อนฝึกแล้ว
การเข้ารหัสตำแหน่ง
เทคนิคในการเพิ่มข้อมูลเกี่ยวกับตำแหน่งของโทเค็นในลำดับไปยังการฝังของโทเค็น โมเดล Transformer ใช้การเข้ารหัสตำแหน่งเพื่อให้เข้าใจความสัมพันธ์ระหว่างส่วนต่างๆ ของลำดับได้ดีขึ้น
การใช้การเข้ารหัสตำแหน่งโดยทั่วไปจะใช้ฟังก์ชันไซนัสออยด์ (โดยเฉพาะอย่างยิ่ง ความถี่และแอมพลิจูดของฟังก์ชันไซนัสซอยด์จะกำหนดโดยตำแหน่งของโทเค็นในลำดับ) เทคนิคนี้จะช่วยให้โมเดล Transformer เรียนรู้การเข้าร่วมส่วนต่างๆ ของลำดับตามตำแหน่ง
โมเดลก่อนการฝึก
โมเดลหรือคอมโพเนนต์ของโมเดล (เช่น เวกเตอร์การฝัง) ที่ได้รับการฝึกแล้ว บางครั้งคุณจะฟีดเวกเตอร์การฝังก่อนการฝึกลงในโครงข่ายระบบประสาทเทียม แต่บางครั้งโมเดลของคุณจะฝึกตัวเวกเตอร์การฝังเองแทนที่จะฝึกการฝังที่ฝึกล่วงหน้า
คำว่าโมเดลภาษาก่อนการฝึกหมายถึงโมเดลภาษาขนาดใหญ่ที่ผ่านการการฝึกล่วงหน้า
ก่อนการฝึกอบรม
การฝึกเริ่มต้นของโมเดลบนชุดข้อมูลขนาดใหญ่ โมเดลที่ฝึกไว้แล้วล่วงหน้าบางโมเดลเป็นขนาดใหญ่ที่งุ่มง่ามและมักต้องปรับแต่งผ่านการฝึกเพิ่มเติม เช่น ผู้เชี่ยวชาญ ML อาจฝึกโมเดลภาษาขนาดใหญ่ล่วงหน้าบนชุดข้อมูลข้อความขนาดใหญ่ เช่น ทุกหน้าภาษาอังกฤษใน Wikipedia หลังจากการฝึกล่วงหน้าแล้ว โมเดลผลลัพธ์อาจได้รับการปรับปรุงให้ดีขึ้นโดยใช้เทคนิคต่อไปนี้
ข้อความแจ้ง
ข้อความที่ป้อนเป็นอินพุตไปยังโมเดลภาษาขนาดใหญ่ เพื่อกำหนดเงื่อนไขให้โมเดลทำงานในลักษณะใดลักษณะหนึ่ง ข้อความแจ้งอาจสั้นแค่วลีหรือยาว (เช่น ข้อความทั้งหมดในนิยาย) ข้อความแจ้งจะแบ่งออกเป็นหลายหมวดหมู่ รวมถึงหมวดหมู่ที่แสดงในตารางต่อไปนี้
หมวดหมู่ของข้อความแจ้ง | ตัวอย่าง | Notes |
---|---|---|
คำถาม | พิราบบินได้เร็วแค่ไหน | |
โรงเรียนฝึกอบรม | เขียนบทกวีตลกๆ เกี่ยวกับการหากำไร | ข้อความแจ้งที่ขอให้โมเดลภาษาขนาดใหญ่ทำบางอย่าง |
ตัวอย่าง | แปลโค้ด Markdown เป็น HTML เช่น
Markdown: * รายการย่อย HTML: <ul> <li>รายการย่อย</li> </ul> |
ประโยคแรกในข้อความแจ้งตัวอย่างนี้คือคำสั่ง ส่วนที่เหลือของข้อความแจ้งคือตัวอย่าง |
บทบาท | อธิบายเหตุผลที่มีการใช้การไล่ระดับสีในการฝึกแมชชีนเลิร์นนิงไปยังปริญญาเอกสาขาฟิสิกส์ | ส่วนแรกของประโยคคือคำสั่ง วลี "ถึงปริญญาเอกสาขาฟิสิกส์" คือส่วนบทบาท |
ป้อนข้อมูลบางส่วนเพื่อให้โมเดลเสร็จสมบูรณ์ | นายกรัฐมนตรีของสหราชอาณาจักรอาศัยอยู่ใน | ข้อความแจ้งการป้อนข้อมูลบางส่วนอาจสิ้นสุดอย่างกะทันหัน (ดังตัวอย่างนี้) หรือลงท้ายด้วยขีดล่างก็ได้ |
โมเดล generative AI จะตอบสนองต่อพรอมต์ได้ด้วยข้อความ, โค้ด, รูปภาพ, การฝัง, วิดีโอ และอื่นๆ เกือบทุกอย่าง
การเรียนรู้จากทันท่วงที
ความสามารถในบางรุ่นที่ช่วยให้ผู้ใช้ปรับพฤติกรรมเพื่อตอบสนองต่อการป้อนข้อความที่กำหนดเอง (ข้อความแจ้ง) ในรูปแบบการเรียนรู้ตามข้อความแจ้งทั่วไป โมเดลภาษาขนาดใหญ่จะตอบสนองต่อพรอมต์ด้วยการสร้างข้อความ ตัวอย่างเช่น สมมติว่าผู้ใช้ป้อนข้อความแจ้งต่อไปนี้
สรุปกฎการเคลื่อนที่ข้อที่ 3 ของนิวตัน
โมเดลที่สามารถเรียนรู้จากข้อความแจ้งไม่ได้มีการฝึกให้ตอบสนองต่อข้อความแจ้งก่อนหน้านี้โดยเฉพาะ แต่โมเดลจะ "รู้" ข้อเท็จจริงมากมายเกี่ยวกับฟิสิกส์ เกี่ยวกับกฎภาษาทั่วไป และข้อมูลเกี่ยวกับสิ่งที่เป็นคำตอบ ที่เป็นประโยชน์โดยทั่วไป ความรู้ดังกล่าวเพียงพอที่จะให้คำตอบที่เป็นประโยชน์ (หวังว่าจะ) ได้ การให้ความคิดเห็นเพิ่มเติมแก่มนุษย์ ("คำตอบนั้นซับซ้อนเกินไป" หรือ "ปฏิกิริยาอะไร") จะช่วยให้ระบบการเรียนรู้แบบแจ้งทันทีบางระบบค่อยๆ ปรับปรุงคำตอบที่เป็นประโยชน์ได้
การออกแบบข้อความแจ้ง
คำพ้องความหมายสำหรับ prompt Engineering
Prompt Engineering
ศิลปะในการสร้างข้อความแจ้งที่กระตุ้นให้เกิดคำตอบที่ต้องการจากโมเดลภาษาขนาดใหญ่ มนุษย์ดำเนินการ ทางวิศวกรรมระบบทันที การเขียนพรอมต์ที่มีโครงสร้างดีเป็นส่วนสำคัญในการรับประกันคำตอบที่เป็นประโยชน์จากโมเดลภาษาขนาดใหญ่ การดำเนินการด้านวิศวกรรมทันทีมี ปัจจัยหลายอย่าง เช่น
- ชุดข้อมูลที่ใช้ในการฝึกล่วงหน้าและปรับแต่งโมเดลภาษาขนาดใหญ่
- อุณหภูมิและพารามิเตอร์การถอดรหัสอื่นๆ ที่โมเดลใช้ในการสร้างคำตอบ
ดูรายละเอียดเพิ่มเติมเกี่ยวกับการเขียนข้อความแจ้งที่มีประโยชน์ได้ที่ข้อมูลเบื้องต้นเกี่ยวกับการออกแบบข้อความแจ้ง
การออกแบบ Prompt คือคำพ้องความหมายของ Prompt Engineering
แจ้งให้ปรับแต่ง
กลไกการปรับแต่งพารามิเตอร์อย่างมีประสิทธิภาพที่เรียนรู้ "คำนำหน้า" ซึ่งระบบนำหน้าข้อความแจ้งจริง
การปรับแต่งข้อความแจ้งรูปแบบหนึ่ง บางครั้งเรียกว่าการปรับแต่งคำนำหน้าคือการเพิ่มคำนำหน้าทุกเลเยอร์ ในทางตรงกันข้าม การปรับแต่งข้อความแจ้งส่วนใหญ่ จะเพิ่มคำนำหน้าลงในเลเยอร์อินพุตเท่านั้น
R
การแจ้งบทบาท
ส่วนที่ไม่บังคับของข้อความแจ้งที่ระบุกลุ่มเป้าหมายสำหรับการตอบสนองของโมเดล generative AI หากไม่มีข้อความแจ้งบทบาท โมเดลภาษาขนาดใหญ่จะให้คำตอบที่อาจมีประโยชน์หรือไม่มีประโยชน์สำหรับผู้ที่ถามคำถาม เมื่อมีพรอมต์บทบาท โมเดลภาษาขนาดใหญ่จะสามารถตอบคำถามที่เหมาะสมและมีประโยชน์มากขึ้นสำหรับกลุ่มเป้าหมายที่เจาะจง เช่น ส่วนข้อความแจ้งบทบาทของข้อความแจ้งต่อไปนี้จะเป็นตัวหนา
- สรุปบทความนี้สำหรับปริญญาเอกสาขาเศรษฐศาสตร์
- อธิบายวิธีการทำงานของกระแสน้ำสำหรับเด็ก 10 ปี
- อธิบายวิกฤตทางการเงินปี 2008 พูดเหมือนพูดกับเด็กเล็ก หรือเจ้าโกลเด้นรีทรีฟเวอร์
S
self-ation (หรือเรียกว่า self-ation Layer)
เลเยอร์โครงข่ายระบบประสาทเทียมที่เปลี่ยนลำดับการฝัง (เช่น การฝังโทเค็น) เป็นการฝังอีกลำดับหนึ่ง การฝังแต่ละรายการในลำดับเอาต์พุตสร้างขึ้นโดยการผสานรวมข้อมูลจากองค์ประกอบของลำดับอินพุตผ่านกลไกความสนใจ
ส่วนการจดจ่อกับตัวเองในการจดจ่อกับตัวเองหมายถึงลำดับที่พูดถึงตัวเอง ไม่ใช่บริบทอื่นๆ บางอย่าง การจดจ่อตัวเองเป็นหนึ่งในองค์ประกอบหลักของ Transformers และใช้คำศัพท์ในการค้นหาพจนานุกรม เช่น "query" "key" และ "value"
เลเยอร์การจดจ่อด้วยตนเองจะเริ่มด้วยลำดับการนำเสนออินพุต 1 รายการต่อ 1 คำ อินพุตที่แทนคำหนึ่งๆ อาจเป็นการฝังที่ไม่ซับซ้อน สำหรับแต่ละคำในลำดับอินพุต เครือข่ายจะให้คะแนนความเกี่ยวข้องของคำนั้นกับทุกองค์ประกอบในลำดับทั้งหมดของคำ คะแนนความเกี่ยวข้องจะกำหนดว่าคำแทนคำดังกล่าวเป็นตัวแทนของคำอื่นๆ มากเพียงใด
ตัวอย่างเช่น ลองพิจารณาประโยคต่อไปนี้
สัตว์ไม่ได้ข้ามถนนเพราะเหนื่อยเกินไป
ภาพประกอบต่อไปนี้ (จาก Transformer: A Novel Neural Network Architecture for Language Understanding) แสดงรูปแบบความสนใจของเลเยอร์ "ความสนใจด้วยตนเอง" สำหรับคำสรรพนาม it โดยสีเข้มของแต่ละบรรทัดเพื่อระบุว่าแต่ละคำมีส่วนในการสื่อข้อความมากน้อยเพียงใด
ชั้น "จดจ่อกับตัวเอง" จะไฮไลต์คำที่เกี่ยวข้องกับ "it" ในกรณีนี้ ชั้นความสนใจเรียนรู้ที่จะไฮไลต์คำที่อาจพูดถึงเพื่อกำหนดน้ำหนักสูงสุดให้กับสัตว์
สำหรับลำดับของ n โทเค็น การจัดการด้วยตัวเองจะเปลี่ยนลำดับของการฝัง n ครั้งต่อๆ ไป 1 ครั้งในแต่ละตำแหน่งในลำดับ
โปรดดูการให้ความสนใจและการให้ความสนใจตัวเองแบบหลายศีรษะ
การวิเคราะห์ความเห็น
ใช้อัลกอริทึมทางสถิติหรือแมชชีนเลิร์นนิงเพื่อกำหนดทัศนคติโดยรวมของกลุ่ม ทั้งในแง่บวกหรือแง่ลบต่อบริการ ผลิตภัณฑ์ องค์กร หรือหัวข้อหนึ่งๆ ตัวอย่างเช่น การใช้ความเข้าใจภาษาธรรมชาติช่วยให้อัลกอริทึมวิเคราะห์ความเห็นที่มีต่อผลตอบกลับที่เป็นข้อความจากหลักสูตรของมหาวิทยาลัยเพื่อระบุระดับการศึกษาที่โดยทั่วไปนักเรียนจะชอบหรือไม่ชอบในหลักสูตรนั้นๆ
งานตามลำดับ
งานที่แปลงลำดับอินพุตของโทเค็นเป็นลำดับเอาต์พุตของโทเค็น เช่น งานที่มีลำดับเรียงตามลำดับที่ได้รับความนิยมมี 2 ประเภท ได้แก่
- นักแปล
- ตัวอย่างลำดับอินพุต: "ฉันรักเธอ"
- ตัวอย่างลำดับเอาต์พุต: "Je t'aime"
- การตอบคำถาม
- ตัวอย่างลำดับอินพุต: "ฉันต้องมีรถที่นิวยอร์กซิตี้ไหม"
- ตัวอย่างลำดับเอาต์พุต: "ไม่ โปรดเก็บรถไว้ที่บ้าน"
ฟีเจอร์แบบกระจัดกระจาย
ฟีเจอร์ที่มีค่าเป็น 0 หรือว่างเปล่าเป็นหลัก เช่น ฟีเจอร์ที่มีค่า 1 ค่าเดียวแต่มีค่าเป็น 0 ล้านค่าจะมีจำนวนน้อย แต่ในทางตรงกันข้าม ฟีเจอร์แบบหนาแน่นจะมีค่าที่โดยส่วนใหญ่แล้วไม่เท่ากับ 0 หรือว่างเปล่า
ในแมชชีนเลิร์นนิง จำนวนฟีเจอร์ที่ไม่น่าประหลาดใจคือฟีเจอร์ที่มีน้อย ฟีเจอร์ตามหมวดหมู่มักเป็นฟีเจอร์ที่มีน้อย เช่น จากต้นไม้ 300 ชนิดที่เป็นไปได้ในป่า ตัวอย่างหนึ่งอาจระบุเพียงต้นเมเปิลก็ได้ หรือวิดีโอที่เป็นไปได้นับล้านในคลังวิดีโอ ตัวอย่างเดียวอาจหมายถึง "คาซาบลังกา"
ในโมเดล โดยปกติแล้วคุณจะแสดงฟีเจอร์แบบเบาบางโดยใช้การเข้ารหัสแบบ One-Hot หากการเข้ารหัสแบบคลิกเดียวมีขนาดใหญ่ คุณอาจวางเลเยอร์การฝังไว้ที่ด้านบนของการเข้ารหัสแบบ One-Hot เพื่อเพิ่มประสิทธิภาพ
การเป็นตัวแทนบางส่วน
การจัดเก็บเฉพาะตำแหน่งขององค์ประกอบที่ไม่ใช่ 0 ในฟีเจอร์แบบกระจัดกระจาย
ตัวอย่างเช่น สมมติว่าฟีเจอร์เชิงหมวดหมู่ชื่อ species
ระบุพันธุ์ไม้ 36 ชนิดในป่าแห่งใดแห่งหนึ่ง สมมติต่อไปว่าตัวอย่างแต่ละรายการระบุสายพันธุ์เพียงสายพันธุ์เดียว
คุณสามารถใช้เวกเตอร์หนึ่งที่น่าสนใจเพื่อแสดงถึงสปีชีส์ของต้นไม้ในแต่ละตัวอย่าง
เวกเตอร์ 1 รายการจะมี 1
เดี่ยว (เพื่อแทนต้นไม้สายพันธุ์ที่เฉพาะเจาะจงในตัวอย่างนั้น) และ 35 0
(เพื่อแสดงถึงประเภทต้นไม้ 35 ชนิดที่ไม่ใช่ในตัวอย่างนั้น) ดังนั้น การแสดงค่าเดี่ยวของ maple
อาจมีลักษณะดังนี้
หรือการแสดงข้อมูลแบบกระจัดกระจายอาจเพียงแค่ระบุตำแหน่งของสิ่งมีชีวิตชนิดใดชนิดหนึ่ง หาก maple
อยู่ที่ตำแหน่ง 24 การแสดงที่เบาบางของ maple
จะเป็นเพียง
24
โปรดสังเกตว่าการแสดงแบบกระทัดรัดจะกะทัดรัดมากกว่าการนำเสนอแบบแสดงครั้งเดียวมาก
การฝึกอบรมแบบทีละขั้น
กลยุทธ์การฝึกโมเดลตามลำดับที่แยกจากกัน เป้าหมายอาจเป็นการเร่งกระบวนการฝึกหรือเพื่อให้ได้คุณภาพของโมเดลที่ดีขึ้น
ภาพประกอบของแนวทางการกองซ้อนแบบโปรเกรสซีฟแสดงอยู่ที่ด้านล่าง
- ขั้นที่ 1 มีเลเยอร์ซ่อน 3 เลเยอร์ ขั้นที่ 2 มีเลเยอร์ที่ซ่อนไว้ 6 เลเยอร์ และขั้นที่ 3 มีเลเยอร์ที่ซ่อนไว้ 12 เลเยอร์
- ขั้นที่ 2 จะเริ่มการฝึกด้วยน้ำหนักที่เรียนรู้จากระยะที่ 1 ที่ซ่อนอยู่ทั้ง 3 ชั้น ขั้นที่ 3 เริ่มต้นการฝึกด้วยน้ำหนักที่เรียนรู้จากขั้นที่ 2 ที่ซ่อนอยู่ 6 ชั้น
ดูไปป์ไลน์
T
T5
โมเดลการเรียนรู้ของการโอนจากการแปลงข้อความเป็นข้อความ ซึ่งเปิดตัวโดย Google AI ในปี 2020 T5 คือโมเดลโปรแกรมเปลี่ยนไฟล์ตัวถอดรหัสตามสถาปัตยกรรม Transformer โดยได้รับการฝึกจากชุดข้อมูลที่มีขนาดใหญ่มาก โดยมีประสิทธิภาพสูงสำหรับงานด้านการประมวลผลภาษาธรรมชาติต่างๆ เช่น การสร้างข้อความ การแปลภาษา และการตอบคำถามในลักษณะการสนทนา
T5 ได้ชื่อมาจาก T ทั้ง 5 ตัวใน "Text-to-Text Transfer Transformer"
T5X
เฟรมเวิร์กแมชชีนเลิร์นนิงแบบโอเพนซอร์สที่ออกแบบมาเพื่อสร้างและฝึกโมเดลการประมวลผลภาษาธรรมชาติ (NLP) ขนาดใหญ่ T5 ใช้งานบนฐานของโค้ด T5X (ซึ่งสร้างขึ้นบน JAX และ Flax)
อุณหภูมิ
hyperparameter ที่ควบคุมระดับความสุ่มของเอาต์พุตของโมเดล อุณหภูมิที่สูงขึ้นจะส่งผลให้มีเอาต์พุตแบบสุ่มมากขึ้น ส่วนอุณหภูมิที่ต่ำลงจะทำให้เอาต์พุตแบบสุ่มน้อยลง
การเลือกอุณหภูมิที่ดีที่สุดขึ้นอยู่กับแอปพลิเคชันเฉพาะและคุณสมบัติที่ต้องการของเอาต์พุตโมเดล เช่น คุณอาจเพิ่มอุณหภูมิเมื่อสร้างแอปพลิเคชันที่สร้างเอาต์พุตครีเอทีฟโฆษณา ในทางกลับกัน คุณอาจลดอุณหภูมิลงเมื่อสร้างโมเดลที่แยกประเภทรูปภาพหรือข้อความเพื่อปรับปรุงความแม่นยำและความสอดคล้องของโมเดล
อุณหภูมิมักจะใช้กับ softmax
ช่วงข้อความ
ช่วงดัชนีอาร์เรย์ที่เชื่อมโยงกับส่วนย่อยที่เฉพาะเจาะจงของสตริงข้อความ
ตัวอย่างเช่น คำว่า good
ในสตริง Python s="Be good now"
จะใช้ช่วงของข้อความตั้งแต่ 3 ถึง 6
โทเค็น
ในโมเดลภาษา หน่วยขนาดเล็กที่โมเดลกำลังฝึกและทำการคาดการณ์ โทเค็นมีลักษณะอย่างใดอย่างหนึ่งต่อไปนี้
- คำ ตัวอย่างเช่น วลี "สุนัขอย่างแมว" ประกอบด้วยโทเค็น 3 คำ ได้แก่ "สุนัข" "ชอบ" และ "แมว"
- ตัวละคร เช่น วลี "ปลาจักรยาน" ประกอบด้วยโทเค็นอักขระ 9 ตัว (โปรดทราบว่าพื้นที่ว่างจะนับเป็นโทเค็น)
- คำย่อยที่คำเดียวอาจเป็นโทเค็นเดียวหรือหลายโทเค็นก็ได้ คำย่อยประกอบด้วยคําราก คํานําหน้า หรือคําต่อท้าย ตัวอย่างเช่น โมเดลภาษาที่ใช้คำย่อยเป็นโทเค็นอาจมองคำว่า "สุนัข" เป็นโทเค็น 2 ตัว (คำราก "สุนัข" และคำต่อท้ายพหูพจน์ "s") โมเดลภาษาเดียวกันนั้นอาจมองคำเดียวว่า "taller" เป็น 2 คำย่อย (คำราก "tall" และคำต่อท้าย "er")
ในโดเมนนอกโมเดลภาษา โทเค็นอาจเป็นตัวแทนของหน่วยอะตอมประเภทอื่นๆ เช่น ในคอมพิวเตอร์วิทัศน์ โทเค็นอาจเป็นชุดย่อยของรูปภาพ
หม้อแปลง
สถาปัตยกรรมโครงข่ายระบบประสาทเทียมที่พัฒนาที่ Google ซึ่งอาศัยกลไกการจดจ่อด้วยตนเองเพื่อเปลี่ยนลำดับของการฝังอินพุตเป็นลำดับการฝังเอาต์พุตโดยไม่ต้องใช้คอนโวลูชันหรือโครงข่ายประสาทแบบเกิดซ้ำ Transformer อาจดูเหมือนเป็นเลเยอร์ซ้อนกันของชั้นสนใจตัวเอง
หม้อแปลงสามารถแสดงสิ่งต่อไปนี้
- โปรแกรมเปลี่ยนไฟล์
- เครื่องมือถอดรหัส
- ทั้งโปรแกรมเปลี่ยนไฟล์และตัวถอดรหัส
โปรแกรมเปลี่ยนไฟล์จะเปลี่ยนลำดับการฝังเป็นลำดับใหม่ที่มีความยาวเท่าเดิม โปรแกรมเปลี่ยนไฟล์จะมีเลเยอร์ที่เหมือนกัน N เลเยอร์ โดยแต่ละเลเยอร์จะมีเลเยอร์ย่อย 2 เลเยอร์ เลเยอร์ย่อย 2 ชั้นนี้จะใช้ที่แต่ละตำแหน่งของลำดับการฝังอินพุต ซึ่งจะเปลี่ยนองค์ประกอบแต่ละรายการของลำดับเป็นการฝังใหม่ ชั้นย่อยของโปรแกรมเปลี่ยนไฟล์แรกจะรวบรวมข้อมูลจากลำดับอินพุตต่างๆ ชั้นย่อยของโปรแกรมเปลี่ยนไฟล์ที่สองจะเปลี่ยนข้อมูลแบบรวมเป็นการฝังเอาต์พุต
เครื่องมือถอดรหัสจะเปลี่ยนลำดับของการฝังอินพุตเป็นลำดับการฝังเอาต์พุต โดยอาจมีความยาวต่างกันไป เครื่องมือถอดรหัสยังมีเลเยอร์ที่เหมือนกัน N เลเยอร์ที่มีเลเยอร์ย่อย 3 เลเยอร์ ซึ่งมี 2 เลเยอร์คล้ายกับเลเยอร์ย่อยของโปรแกรมเปลี่ยนไฟล์ ชั้นย่อยถอดรหัสที่ 3 จะใช้เอาต์พุตของโปรแกรมเปลี่ยนไฟล์และใช้กลไกการจัดการตนเองในการรวบรวมข้อมูล
บล็อกโพสต์ Transformer: A Novel Neural Network Architecture for Language Understanding แนะนำให้รู้จัก Transformers ไว้เป็นอย่างดี
Trigram
N-gram ที่มี N=3
U
แบบทางเดียว
ระบบที่ประเมินเฉพาะข้อความที่อยู่ข้างหน้าข้อความส่วนเป้าหมายเท่านั้น ในทางตรงกันข้าม ระบบแบบ 2 ทิศทางจะประเมินทั้งข้อความที่อยู่ข้างหน้าและตามด้วยส่วนเป้าหมายของข้อความ ดูรายละเอียดเพิ่มเติมได้ที่แบบแบบ 2 ทิศทาง
รูปแบบภาษาแบบทิศทางเดียว
รูปแบบภาษาที่อิงความน่าจะเป็นจากโทเค็นที่ปรากฏก่อนไม่ใช่หลังโทเค็นเป้าหมายเท่านั้น คอนทราสต์กับรูปแบบภาษาแบบ 2 ทิศทาง
V
เครื่องเข้ารหัสอัตโนมัติรูปแบบต่างๆ (VAE)
ประเภทของ autoencoder ที่ใช้ประโยชน์จากความคลาดเคลื่อนระหว่างอินพุตและเอาต์พุตเพื่อสร้างอินพุตเวอร์ชันที่มีการปรับเปลี่ยน โปรแกรมเปลี่ยนไฟล์อัตโนมัติรูปแบบต่างๆ มีประโยชน์สำหรับ generative AI
VAE จะอิงตามการอนุมานตัวแปร ซึ่งเป็นเทคนิคในการประมาณพารามิเตอร์ของรูปแบบความน่าจะเป็น
W
การฝังคำ
แสดงแต่ละคำในชุดคำภายในเวกเตอร์การฝัง ซึ่งก็คือการแสดงแต่ละคำเป็นเวกเตอร์ของค่าจุดลอยตัวระหว่าง 0.0 ถึง 1.0 คำที่มีความหมายคล้ายคลึงกัน จะมีการนำเสนอที่คล้ายกันมากกว่าคำที่มีความหมายต่างกัน เช่น แครอท คึ่นช่าย และแตงกวาจะมีการนำเสนอที่ค่อนข้างคล้ายกัน ซึ่งแตกต่างอย่างมากจากการนำเสนอเครื่องบิน แว่นกันแดด และยาสีฟัน
Z
ข้อความแจ้ง Zero-shot
ข้อความแจ้งที่ไม่แสดงตัวอย่างวิธีที่คุณต้องการให้รูปแบบภาษาขนาดใหญ่ตอบสนอง เช่น
ส่วนต่างๆ ของข้อความแจ้ง | Notes |
---|---|
สกุลเงินอย่างเป็นทางการของประเทศที่ระบุคืออะไร | คำถามที่ต้องการให้ LLM ตอบ |
อินเดีย: | ข้อความค้นหาจริง |
โมเดลภาษาขนาดใหญ่อาจตอบกลับด้วยสิ่งต่อไปนี้
- รูปี
- INR
- ₹
- รูปีอินเดีย
- รูปี
- รูปีอินเดีย
ถูกทุกข้อ แต่คุณอาจต้องการรูปแบบที่เจาะจง
เปรียบเทียบความเหมือนและความต่างของการแสดงข้อความแจ้งแบบภาพศูนย์กับข้อความต่อไปนี้