หน้านี้มีคําศัพท์ในอภิธานศัพท์การประเมินภาษา สําหรับอภิธานศัพท์ทั้งหมด คลิกที่นี่
ก
โปรดทราบ
กลไกที่ใช้ในเครือข่ายระบบประสาทซึ่งแสดงถึงความสําคัญของคําบางคําหรือบางส่วนของคํา ความสนใจจะบีบอัดจํานวนข้อมูลที่โมเดลต้องการเพื่อคาดการณ์โทเค็น/คําถัดไป กลไกความสนใจทั่วไปอาจประกอบด้วยผลรวมถ่วงน้ําหนักในชุดอินพุต โดยน้ําหนักสําหรับอินพุตแต่ละรายการจะคํานวณด้วยส่วนอื่นๆ ของเครือข่ายระบบประสาท
และดูการดูแลตัวเองและการดูแลตนเองแบบหลายศีรษะ ซึ่งเป็นองค์ประกอบสําคัญของหม้อแปลง
ตัวเข้ารหัสอัตโนมัติ
ระบบที่เรียนรู้การดึงข้อมูลที่สําคัญที่สุดจากอินพุต โปรแกรมเปลี่ยนไฟล์อัตโนมัติเป็นการรวมโปรแกรมเปลี่ยนไฟล์และเครื่องมือถอดรหัสเข้าด้วยกัน ตัวเข้ารหัสอัตโนมัติจะใช้กระบวนการ 2 ขั้นตอนดังต่อไปนี้
- โปรแกรมเปลี่ยนไฟล์จะจับคู่อินพุตกับรูปแบบ (ระดับกลาง) แบบไม่สูญเสียข้อมูล (ระหว่างกลาง)
- เครื่องมือถอดรหัสจะสร้างเวอร์ชันดั้งเดิมของอินพุตต้นฉบับโดยการแมปรูปแบบมิติข้อมูลต่ํากว่ากับอินพุตอินพุตที่มีมิติข้อมูลสูงกว่า
ตัวเข้ารหัสอัตโนมัติจะได้รับการฝึกจากต้นทางถึงปลายทางโดยการถอดรหัสจะถอดรหัสอินพุตเดิมจากรูปแบบกลางของโปรแกรมเปลี่ยนไฟล์ให้ใกล้เคียงที่สุด เนื่องจากรูปแบบขั้นกลางมีขนาดเล็กกว่า (มิติที่ต่ํากว่า) กว่ารูปแบบดั้งเดิม เครื่องมือเข้ารหัสอัตโนมัติจึงถูกบังคับให้เรียนรู้ว่าข้อมูลใดเป็นอินพุตที่จําเป็น และเอาต์พุตจะไม่เหมือนกับอินพุตทุกประการ
เช่น
- หากข้อมูลที่ป้อนเป็นกราฟิก สําเนาที่ไม่เหมือนกันทุกประการ จะเหมือนกับกราฟิกต้นฉบับ แต่ค่อนข้างได้รับการแก้ไข เช่น สําเนาที่ไม่เหมือนกันอาจนํานอยส์ออกจากกราฟิกต้นฉบับหรือเติมพิกเซลที่หายไปบางส่วน
- หากข้อมูลที่ป้อนเป็นข้อความ โปรแกรมเข้ารหัสอัตโนมัติจะสร้างข้อความใหม่ที่เลียนแบบ (แต่เหมือนกับ) ข้อความต้นฉบับ
ดูตัวเข้ารหัสอัตโนมัติแบบหลายตัวแปร
โมเดลการถดถอยอัตโนมัติ
โมเดลที่อนุมานการคาดการณ์โดยอิงจากการคาดการณ์ก่อนหน้า ตัวอย่างเช่น โมเดลการเกิดปัญหาซ้ําอัตโนมัติจะคาดการณ์โทเค็นถัดไปโดยอิงตามโทเค็นที่คาดคะเนไว้ก่อนหน้านี้ โมเดลภาษาขนาดใหญ่ที่ใช้ Transformer ทั้งหมดจะทํางานโดยอัตโนมัติ
ในทางตรงกันข้าม โมเดลรูปภาพแบบ GAN มักจะไม่ถดถอยโดยอัตโนมัติ เนื่องจากสร้างรูปภาพในการส่งต่อครั้งเดียวและไม่ทําซ้ําหลายครั้ง อย่างไรก็ตาม โมเดลการสร้างรูปภาพบางโมเดลจะถดถอยโดยอัตโนมัติเนื่องจากโมเดลจะสร้างรูปภาพในขั้นตอน
ข
ถุงคําศัพท์
การแทนคําในวลีหรือวลี โดยไม่คํานึงถึงลําดับของคํา ตัวอย่างเช่น กลุ่มคําจะแสดงวลี 3 วลีต่อไปนี้ที่เหมือนกัน
- หมากระโดด
- กระโดดสุนัขตัวนั้น
- สุนัขกระโดด
คําแต่ละคําจะจับคู่กับดัชนีในเวกเตอร์บางส่วน ซึ่งเวกเตอร์จะมีดัชนีสําหรับทุกคําในคําศัพท์ เช่น วลี dogsjump จะกลายเป็นเวกเตอร์เวกเตอร์ที่มีค่าไม่เท่ากับ 0 ที่ดัชนี 3 ดัชนีซึ่งตรงกับคําว่า the, dog และ jumps ค่าที่ไม่ใช่ 0 อาจเป็นค่าใดก็ได้ต่อไปนี้
- เลข 1 จะใช้ระบุคํา
- จํานวนครั้งที่คําปรากฏในกระเป๋า เช่น หากวลีคือสุนัขสีน้ําตาลแดงเป็นสุนัขขนฟู ทั้งสีน้ําตาลแดงและสุนัขจะแทนค่าเป็น 2 ขณะที่คําอื่นๆ จะแทนเป็น 1
- ค่าอื่นๆ เช่น ลอการิทึมของจํานวนครั้งที่คําปรากฏในกระเป๋า
BERT (โปรแกรมเปลี่ยนไฟล์แบบ 2 ทิศทาง จาก Transformers)
สถาปัตยกรรมโมเดลสําหรับการนําเสนอของข้อความ โมเดล BERT ที่ฝึกแล้วจะทํางานเป็นส่วนหนึ่งของโมเดลขนาดใหญ่ขึ้นสําหรับการจัดประเภทข้อความหรืองาน ML อื่นๆ ได้
BERT มีลักษณะต่อไปนี้
- ใช้สถาปัตยกรรม Transformer จึงต้องอาศัยความสนใจของตนเอง
- ใช้ส่วนโปรแกรมเปลี่ยนไฟล์ของหม้อแปลง งานของโปรแกรมเปลี่ยนไฟล์คือสร้างการนําเสนอข้อความที่ดี แทนที่จะทํางานเฉพาะอย่างการจัดประเภท
- เป็นแบบสองทิศทาง
- ใช้การมาสก์สําหรับการฝึกที่ไม่มีการควบคุมดูแล
ตัวแปรของ BERT ได้แก่
ดูโอเพ่นซอร์สของ BERT: การฝึกอบรมศิลปะขั้นสูงสําหรับการประมวลผลภาษาธรรมชาติสําหรับภาพรวมของ BERT
Bigram
N-gram ซึ่ง N=2
แบบ 2 ทิศทาง
คําที่ใช้อธิบายระบบซึ่งประเมินข้อความที่ทั้งอยู่ก่อนและตามส่วนเป้าหมายของข้อความ ในทางตรงกันข้าม ระบบแบบทิศทางเดียวจะประเมินเฉพาะข้อความที่มาก่อนส่วนของข้อความเป้าหมาย
ตัวอย่างเช่น ลองใช้โมเดลภาษาที่มาสก์ ซึ่งต้องกําหนดความน่าจะเป็นของคํานั้นๆ หรือคําที่เป็นตัวแทนการขีดเส้นใต้ในคําถามต่อไปนี้
_____ กับคุณคืออะไร
โมเดลของภาษาใดภาษาหนึ่งจะต้องมีพื้นฐานความน่าจะเป็นของตัวเองเฉพาะในบริบทของคําว่า "What", "is" และ "the" เท่านั้น ในทางกลับกัน โมเดลภาษา 2 ทิศทางอาจได้รับบริบทจาก "with" และ "you" ซึ่งอาจช่วยให้โมเดลสร้างการคาดการณ์ที่ดีขึ้นได้
โมเดลภาษาแบบ 2 ทิศทาง
โมเดลภาษาที่กําหนดความน่าจะเป็นที่โทเค็นที่ระบุจะปรากฏในตําแหน่งที่กําหนดในข้อความที่ตัดตอนมาตามข้อความก่อนหน้าและกําลังติดตาม
BLEU (การประเมินการประเมินผลสองภาษา)
มีคะแนนระหว่าง 0.0 ถึง 1.0 ซึ่งแสดงคุณภาพของการแปลระหว่างภาษามนุษย์ 2 ภาษา (เช่น ระหว่างภาษาอังกฤษและรัสเซีย) คะแนน BLEU 1.0 แสดงว่าเป็นคําแปลที่สมบูรณ์แบบ คะแนน BLEU 0.0 หมายถึงคําแปลยอดเยี่ยม
ค
รูปแบบเชิงเหตุผล
คําพ้องความหมายสําหรับรูปแบบภาษาสากล
ดูโมเดลภาษาแบบ 2 ทิศทาง เพื่อสร้างคอนทราสต์ในแนวทางต่างๆ ในการประมาณภาษา
กระตุ้นความคิด
เทคนิควิศวกรรมข้อความแจ้งที่สนับสนุนโมเดลภาษาขนาดใหญ่ (LLM) ให้อธิบายเหตุผลไปทีละขั้นตอน ตัวอย่างเช่น พิจารณาข้อความต่อไปนี้โดยให้ความสนใจเป็นพิเศษกับประโยคที่ 2
รถยนต์ 1 คันจะได้รับประสบการณ์ขับกี่ g ภายใน 7 วินาทีต่อชั่วโมงจาก 0 เป็น 60 ไมล์ต่อชั่วโมง ในคําตอบ ให้แสดงการคํานวณที่เกี่ยวข้องทั้งหมด
การตอบสนองของ LLM มีความเป็นไปได้ดังนี้
- แสดงลําดับของสูตรฟิสิกส์ โดยการบวกค่า 0, 60 และ 7 ในตําแหน่งที่เหมาะสม
- อธิบายว่าเหตุใดจึงเลือกสูตรเหล่านั้นและความหมายของตัวแปรต่างๆ
การกระตุ้นความคิดอย่างมีประสิทธิภาพจะบังคับให้ LLM ทําการคํานวณทั้งหมด ซึ่งอาจนําไปสู่คําตอบที่ถูกต้องมากขึ้น นอกจากนี้ การคิดเชิงห่วงโซ่ ความคิดจะเปิดโอกาสให้ผู้ใช้ตรวจสอบขั้นตอนของ LLM เพื่อตัดสินว่าคําตอบใดมีความเหมาะสม
การแยกวิเคราะห์เขตเลือกตั้ง
การแบ่งประโยคออกเป็นโครงสร้างไวยากรณ์ขนาดเล็ก ("องค์ประกอบ") ส่วนถัดไปของระบบ ML เช่น โมเดลการทําความเข้าใจภาษาธรรมชาติ จะแยกวิเคราะห์องค์ประกอบต่างๆ ได้ง่ายกว่าประโยคเดิม ตัวอย่างเช่น ลองพิจารณาประโยคต่อไปนี้
เพื่อนรับเลี้ยงแมว 2 ตัว
โปรแกรมแยกวิเคราะห์เขตเลือกตั้งนี้สามารถแบ่งประโยคออกเป็นสองส่วนดังนี้:
- เพื่อนของฉันเป็นคํานาม
- ใช้แมว 2 ตัวเป็นวลีคํากริยา
เขตเลือกตั้งเหล่านี้สามารถแบ่งย่อยออกเป็นองค์ประกอบย่อยๆ ได้ ตัวอย่างเช่น วลีที่มีคํากริยา
รับเลี้ยงแมว 2 ตัว
สามารถแยกย่อยเพิ่มเติมเป็น:
- นํามาใช้งานเป็นคํากริยา
- แมวสองตัว เป็นคํานามอีกคําหนึ่ง
ดอกไม้ตก
ประโยคหรือประโยคที่มีความหมายกํากวม ดอกไม้บานสะเทือนใจนําเสนอปัญหาร้ายแรงในการทําความเข้าใจภาษาธรรมชาติ ตัวอย่างเช่น บรรทัดแรก Red Tape Holds Up Skyscraper เป็นดอกไม้บานเนื่องจากโมเดล NLU สามารถตีความบรรทัดแรกได้ในทันทีหรือโดยการไ่ม่
ง
เครื่องมือถอดรหัส
โดยทั่วไป ระบบ ML ใดๆ ที่แปลงจากตัวแทนที่ผ่านการประมวลผล หนาแน่น หรือภายในเป็นข้อมูลดิบ ข้อมูลน้อย หรือเป็นการนําเสนอภายนอก
เครื่องมือถอดรหัสมักเป็นส่วนประกอบของโมเดลที่ใหญ่กว่า ซึ่งมักจะจับคู่กับโปรแกรมเปลี่ยนไฟล์
ในงานลําดับผลลัพธ์ตามลําดับ เครื่องมือถอดรหัสจะเริ่มต้นด้วยสถานะภายในที่โปรแกรมเปลี่ยนไฟล์สร้างขึ้นเพื่อคาดคะเนลําดับถัดไป
โปรดดู Transformer สําหรับคําจํากัดความของเครื่องมือถอดรหัสในสถาปัตยกรรมของ Transformer
กําลังลดเสียง
วิธีทั่วไปในการเรียนรู้ด้วยตนเองมีดังนี้
การลดเสียงรบกวนช่วยให้เรียนรู้จากตัวอย่างที่ไม่มีป้ายกํากับ ชุดข้อมูลเดิมทําหน้าที่เป็นเป้าหมายหรือป้ายกํากับ และข้อมูลเสียงรบกวนเป็นอินพุต
โมเดลภาษาที่มาสก์บางรายการจะใช้การลดเสียง ดังนี้
- ระบบจะเพิ่มเสียงรบกวนในประโยคที่ไม่มีป้ายกํากับด้วยวิธีปลอมโดยการมาสก์โทเค็นบางส่วน
- โมเดลจะพยายามคาดการณ์โทเค็นเดิม
ข้อความแจ้งโดยตรง
คําพ้องความหมายสําหรับข้อความเตือนแบบ 0 ภาพ
จ
แก้ไขระยะทาง
การวัดความคล้ายคลึงกันของสตริงข้อความ 2 สตริง ในแมชชีนเลิร์นนิง ระยะทางการแก้ไขมีประโยชน์เพราะสามารถคํานวณได้ง่ายและสะดวก แถมยังเป็นวิธีที่มีประสิทธิภาพในการเปรียบเทียบสตริง 2 สตริงที่เป็นที่คล้ายกันหรือหาสตริงที่คล้ายกับสตริงที่กําหนด
ระยะทางการแก้ไขมีอยู่หลายคําจํากัดความ แต่ละสตริงใช้การดําเนินการของสตริงที่ต่างกัน เช่น ระยะทางเลเวนทรี จะพิจารณาถึงการลบ แทรก และการแทนที่น้อยที่สุด
ตัวอย่างเช่น ระยะทาง Levenshtein ระหว่างคําว่า "หัวใจ" และ "ลูกดอก" เท่ากับ 3 เนื่องจากการแก้ไข 3 รายการต่อไปนี้เป็นการเปลี่ยนแปลงที่น้อยที่สุดในการเปลี่ยนคําหนึ่งเป็นอีกคํา
- หัวใจ → ลดระดับ (แทน "h" ด้วย "d")
- deart → ลูกดอก (ลบ "e")
- ลูกดอก → ลูกดอก (แทรก "s")
การฝังเลเยอร์
เลเยอร์ที่ซ่อนอยู่แบบพิเศษที่ฝึกบนฟีเจอร์เชิงหมวดหมู่แบบมิติสูงเพื่อค่อยๆ เรียนรู้เวกเตอร์ที่ฝังมิติข้อมูล เลเยอร์การฝังช่วยให้เครือข่ายระบบประสาทฝึกได้มีประสิทธิภาพมากกว่าการฝึกเฉพาะในคุณลักษณะเชิงหมวดหมู่เชิงมิติสูง
ตัวอย่างเช่น ปัจจุบัน Earth สนับสนุนต้นไม้ประมาณ 73,000 สายพันธุ์ สมมติว่าโครงสร้างต้นไม้เป็นฟีเจอร์ในโมเดลของคุณ ดังนั้นเลเยอร์อินพุตของโมเดลมีเวกเตอร์แบบหนึ่งร้อนยาว 73,000 องค์ประกอบ
ตัวอย่างเช่น baobab
อาจจะเป็นในลักษณะนี้:
อาร์เรย์ที่มี 73,000 องค์ประกอบมีความยาวมาก หากไม่เพิ่มเลเยอร์ที่ฝังลงในโมเดล การฝึกจะใช้เวลานานมากเนื่องจากคูณเลขศูนย์ 72,999 ตัว บางทีคุณอาจเลือกเลเยอร์แบบฝัง ให้มีมิติข้อมูล 12 รายการ ดังนั้น เลเยอร์การฝังจะค่อยๆ เรียนรู้ เวกเตอร์การฝังใหม่สําหรับต้นไม้แต่ละชนิด
ในบางสถานการณ์ การแฮชเป็นทางเลือกที่สมเหตุสมผลในเลเยอร์แบบฝัง
การฝัง Space
ระบบจะแมปพื้นที่เวกเตอร์ขนาด d มิติจากพื้นที่เวกเตอร์ที่มีมิติสูงกว่า ตามหลักการแล้ว ช่องว่างที่ฝังมีโครงสร้างที่ให้ผลทางคณิตศาสตร์ที่สําคัญ เช่น ในพื้นที่ฝังอุดมคติที่เหมาะสม การบวกและลบการฝังจะช่วยแก้ปัญหางานเปรียบเทียบได้
ผลิตภัณฑ์จุดของการฝัง 2 รายการเป็นเครื่องวัดความคล้ายคลึงกัน
เวกเตอร์การฝัง
พูดกว้างๆ ก็คืออาร์เรย์จํานวนตัวเลขลอยตัวซึ่งมาจากทุก เลเยอร์ที่ซ่อนอยู่ ซึ่งอธิบายอินพุตของเลเยอร์ที่ซ่อนอยู่ หลายครั้งที่เวกเตอร์การฝัง คืออาร์เรย์ของจํานวนจุดลอยตัวที่ได้รับการฝึกในเลเยอร์แบบฝัง ตัวอย่างเช่น สมมติว่าเลเยอร์ฝังต้องเรียนรู้ เวกเตอร์การฝังสําหรับต้นไม้แต่ละชนิด 73,000 สายพันธุ์ใน Earth อาร์เรย์ต่อไปนี้เป็นเวกเตอร์การฝังสําหรับต้นเบาบับ
เวกเตอร์การฝังไม่ใช่ตัวเลขแบบสุ่มจํานวนมาก ชั้นที่ฝังจะกําหนดค่าเหล่านี้ผ่านการฝึก ซึ่งคล้ายกับวิธีที่เครือข่ายระบบประสาทเรียนรู้น้ําหนักอื่นๆ ระหว่างการฝึก องค์ประกอบของอาร์เรย์แต่ละองค์ประกอบ คือการให้คะแนนตามลักษณะบางอย่างของสายพันธุ์ต้นไม้ องค์ประกอบใดเป็นตัวแทนของลักษณะเฉพาะของต้นไม้ เป็นสิ่งที่ยากต่อการ ตัดสิน
ส่วนที่น่าสนใจทางคณิตศาสตร์ของเวกเตอร์การฝังคือ รายการที่คล้ายกัน จะมีชุดจํานวนจุดลอยที่คล้ายกัน เช่น ต้นไม้ที่มีต้นไม้คล้ายๆ กันจะมีจํานวนคะแนนลอยสูงกว่า ต้นเรดวูดและซีคัวยาเป็นสายพันธุ์ต้นไม้ที่สัมพันธ์กัน ตัวเลขในเวกเตอร์การฝังจะเปลี่ยนแปลง ทุกครั้งที่คุณฝึกโมเดลใหม่ แม้ว่าคุณจะฝึกโมเดล ใหม่โดยใช้อินพุตที่เหมือนกันก็ตาม
โปรแกรมเปลี่ยนไฟล์
โดยทั่วไป ระบบ ML ที่แปลงจากการนําเสนอแบบ Raw ข้อมูลที่มีอยู่น้อยนิด หรือมีตัวแทนภายนอกเป็นรูปแบบการนําเสนอภายในที่ประมวลผลที่เข้มงวดกว่าหรือหนาแน่นกว่า
โปรแกรมเปลี่ยนไฟล์มักเป็นส่วนประกอบของโมเดลที่ใหญ่กว่า ซึ่งมักจะจับคู่กับตัวถอดรหัส Transformers บางตัวจับคู่โปรแกรมเปลี่ยนไฟล์กับตัวถอดรหัส แม้ว่าหม้อแปลงอื่นๆ จะใช้เพียงโปรแกรมเปลี่ยนไฟล์หรือเฉพาะตัวถอดรหัสเท่านั้น
บางระบบใช้เอาต์พุตของโปรแกรมเปลี่ยนไฟล์เป็นอินพุตสําหรับเครือข่ายการแยกประเภทหรือการถดถอย
ในงานลําดับงานต่องาน โปรแกรมเปลี่ยนไฟล์จะนําลําดับอินพุตและแสดงสถานะภายใน (เวกเตอร์) กลับมา จากนั้น ตัวถอดรหัสจะใช้สถานะภายในนี้เพื่อคาดการณ์ลําดับถัดไป
โปรดดูคํานิยามของโปรแกรมเปลี่ยนไฟล์ในสถาปัตยกรรมของ Transformer ที่ Transformer
F
แจ้งเตือนเพียงไม่กี่วินาที
ข้อความแจ้งที่มีตัวอย่างมากกว่า 1 ตัวอย่าง ("น้อย") แสดงให้เห็นว่าโมเดลภาษาขนาดใหญ่ควรตอบสนองอย่างไร เช่น ข้อความแจ้งแบบยาวต่อไปนี้มี 2 ตัวอย่างที่แสดงรูปแบบขนาดใหญ่ของภาษาในการตอบคําถาม
ส่วนหนึ่งของข้อความแจ้ง | หมายเหตุ |
---|---|
สกุลเงินอย่างเป็นทางการของประเทศที่ระบุคือเท่าใด | คําถามที่ต้องการให้ LLM ตอบ |
ฝรั่งเศส: EUR | ตัวอย่างหนึ่ง |
สหราชอาณาจักร: GBP | อีกตัวอย่างหนึ่ง |
อินเดีย: | ข้อความค้นหาจริง |
โดยทั่วไปแล้ว ข้อความแจ้งที่ถ่ายจากกล้องเพียงไม่กี่ภาพจะให้ผลลัพธ์ที่เป็นที่ต้องการมากกว่าข้อความเตือนแบบ 1 ภาพและข้อความแจ้งสําหรับการถ่ายภาพครั้งเดียว แต่การยิงปืนไม่กี่ครั้ง ต้องอาศัยการพรอมต์ที่ยาวนานขึ้น
การแจ้งเตือนแบบ 2-3 ช็อตคือรูปแบบหนึ่งของการเรียนรู้เมื่อเกิดเหตุการณ์เล็กน้อย ซึ่งใช้กับการเรียนรู้จากข้อความแจ้ง
ฟิดเดิล
ไลบรารีการกําหนดค่า Python แรกที่ตั้งค่าฟังก์ชันและคลาสโดยไม่มีโค้ดหรือโครงสร้างพื้นฐานแบบล่วงล้ํา ในกรณีของ Pax และฐาน ML อื่นๆ ฟังก์ชันและคลาสเหล่านี้แสดงถึงโมเดลและการฝึกไฮเปอร์พารามิเตอร์
Fiddle ถือว่าฐานของแมชชีนเลิร์นนิงมักจะแบ่งเป็น
- รหัสไลบรารี ซึ่งระบุเลเยอร์และเครื่องมือเพิ่มประสิทธิภาพ
- โค้ด "glue" ของชุดข้อมูล ซึ่งเรียกไลบรารีและต่อสายเข้าด้วยกัน
Fiddle บันทึกโครงสร้างการเรียกของโค้ด Glue ในรูปแบบที่ไม่มีการประเมินและเปลี่ยนแปลงได้
การปรับแต่งอย่างละเอียด
การฝึกอบรมครั้งที่ 2 แบบเฉพาะงานจะดําเนินการในโมเดลก่อนการฝึกเพื่อปรับแต่งพารามิเตอร์สําหรับ Use Case ที่เฉพาะเจาะจง เช่น ลําดับการฝึกแบบเต็มสําหรับโมเดลภาษาขนาดใหญ่บางส่วนมีดังนี้
- การฝึกล่วงหน้า: ฝึกโมเดลภาษาขนาดใหญ่ในชุดข้อมูลทั่วไปขนาดใหญ่ เช่น หน้า Wikipedia ภาษาอังกฤษทั้งหมด
- การปรับแต่ง: ฝึกโมเดลก่อนการฝึกเพื่อทํางานที่เฉพาะเจาะจง เช่น การตอบสนองต่อคําค้นหาทางการแพทย์ การปรับแต่งโดยทั่วไป มีตัวอย่างหลายร้อยหรือหลายพันรายการที่มุ่งเน้นที่งานที่เฉพาะเจาะจง
อีกตัวอย่างหนึ่งก็คือลําดับการฝึกแบบเต็มสําหรับรูปแบบรูปภาพขนาดใหญ่มีดังนี้
- การฝึกล่วงหน้า: ฝึกโมเดลรูปภาพขนาดใหญ่ด้วยชุดข้อมูลรูปภาพทั่วไปขนาดใหญ่ เช่น รูปภาพทั้งหมดใน Wikimedia ทั่วไป
- การปรับแต่ง: ฝึกโมเดลก่อนการฝึกเพื่อทํางานที่เฉพาะเจาะจง เช่น การสร้างรูปภาพวาฬเพชฌฆาต
การปรับแต่งจะต้องประกอบด้วยการผสมผสานกลยุทธ์ต่อไปนี้
- การแก้ไขทั้งหมด ของโมเดลก่อนการฝึกของโมเดล พารามิเตอร์ ซึ่งบางครั้งเรียกว่าการปรับแต่งทั้งหมด
- การปรับเปลี่ยนเฉพาะพารามิเตอร์ที่มีอยู่แล้วบางรูปแบบของโมเดลก่อนการฝึก (โดยทั่วไปจะเป็นเลเยอร์ที่อยู่ใกล้กับเลเยอร์เอาต์พุตมากที่สุด) ในขณะเดียวกันก็ไม่ทําให้พารามิเตอร์อื่นๆ ที่มีอยู่เปลี่ยนแปลง (โดยทั่วไปเลเยอร์จะอยู่ใกล้กับเลเยอร์อินพุต)
- การเพิ่มเลเยอร์อื่นๆ โดยทั่วไปจะวางไว้ด้านบนของเลเยอร์ที่มีอยู่ใกล้กับเลเยอร์เอาต์พุตมากที่สุด
การปรับแต่งคือการโอนการเรียนรู้ ด้วยเหตุนี้ การปรับแต่งจึงอาจใช้ฟังก์ชันการสูญเสียหรือโมเดลต่างไปจากฟังก์ชันที่ใช้ฝึกโมเดลก่อนการฝึก ตัวอย่างเช่น คุณสามารถปรับแต่งโมเดลรูปภาพขนาดใหญ่ที่ผ่านการฝึกล่วงหน้า เพื่อสร้างโมเดลการถดถอยซึ่งจะแสดงผลจํานวนนกในภาพอินพุต
เปรียบเทียบและปรับคอนทราสต์กับคําต่อไปนี้
ป่าน
ไลบรารี โอเพนซอร์สประสิทธิภาพสูงสําหรับการเรียนรู้เชิงลึกที่สร้างขึ้นจาก JAX Flax เสนอฟังก์ชันสําหรับการฝึกอบรม เครือข่ายระบบประสาท รวมถึงวิธีการประเมินประสิทธิภาพ
น้ํายาระบาย
ไลบรารีTransformer แบบโอเพนซอร์ส ที่สร้างใน Flax ซึ่งออกแบบมาสําหรับการประมวลผลภาษาธรรมชาติและการวิจัยในหลายโมเดิร์นเป็นหลัก
G
AI ในการสร้างข้อมูล
ช่องที่กําลังพัฒนาที่เกิดขึ้นใหม่ซึ่งไม่มีคําจํากัดความอย่างเป็นทางการ อย่างไรก็ตาม ผู้เชี่ยวชาญส่วนใหญ่เห็นด้วยว่าโมเดล AI ที่ให้ความรู้ความเข้าใจจะสามารถ สร้าง ("สร้าง") เนื้อหาที่เกี่ยวข้องกับสิ่งต่อไปนี้ได้ทั้งหมด
- ซับซ้อน
- สอดคล้องกัน
- เดิม
ตัวอย่างเช่น โมเดล AI ที่สร้างในยุคใหม่สามารถสร้างเรียงความหรือรูปภาพที่ซับซ้อนได้
เทคโนโลยีก่อนหน้านี้บางอย่าง รวมถึง LSTM และ RNN จะสร้างเนื้อหาต้นฉบับและเนื้อหาที่สอดคล้องกันได้ด้วย ผู้เชี่ยวชาญบางคนมองว่าเทคโนโลยีเหล่านี้เป็นเรื่องของ AI ที่ทันสมัย ในขณะที่เทคโนโลยีอื่นๆ รู้สึกว่า AI ที่แท้จริงจําเป็นต้องใช้เอาต์พุตที่ซับซ้อนกว่าเทคโนโลยีก่อนหน้านี้
ตรงข้ามกับ การคาดการณ์ ML
GPT (หม้อแปลงที่ฝึกล่วงหน้า Generative)
ตระกูลของโมเดลภาษาขนาดใหญ่จาก Transformer ซึ่งพัฒนาโดย OpenAI
รูปแบบ GPT ใช้ได้กับรูปแบบต่างๆ ดังนี้
- การสร้างรูปภาพ (เช่น ImageGPT)
- การสร้างข้อความเป็นรูปภาพ (เช่น DALL-E)
H
ประสาทหลอน
การผลิตเอาต์พุตจริงที่เป็นไปได้แต่ไม่ถูกต้องตามข้อเท็จจริงโดยโมเดล generative AI ที่อ้างว่าจะสร้างสมมติฐานเกี่ยวกับโลกจริง ตัวอย่างเช่น โมเดล AI ในยุคปฏิวัติที่กล่าวอ้างว่าบารัก โอบามาเสียชีวิตในปี 1865 กําลังหลอน
I
การเรียนรู้ในบริบท
คําพ้องสําหรับข้อความแจ้งเล็กน้อย
L
LaMDA (โมเดลภาษาสําหรับแอปพลิเคชัน Dialogue)
ตัวเปลี่ยนรูปแบบ โมเดลภาษาขนาดใหญ่ซึ่งพัฒนาโดยบทสนทนาขนาดใหญ่ที่ฝึกบทสนทนาซึ่งสมจริงโดยบทสนทนาที่ได้รับการฝึกโดย Google ซึ่งสร้างการสนทนาที่สมจริง
LaMDA: เทคโนโลยีการสนทนา อันยิ่งใหญ่ของเราจะแสดงภาพรวม
โมเดลภาษา
โมเดลที่ประมาณความน่าจะเป็นของโทเค็นหรือลําดับของโทเค็นที่เกิดขึ้นตามลําดับโทเค็นที่ยาวกว่า
โมเดลภาษาขนาดใหญ่
คําศัพท์ที่ไม่เป็นทางการซึ่งไม่มีคําจํากัดความที่เข้มงวดซึ่งโดยปกติจะหมายถึงโมเดลภาษาที่มีพารามิเตอร์จํานวนมาก โมเดลภาษาขนาดใหญ่บางรุ่นมีพารามิเตอร์มากกว่า 1 แสนล้านรายการ
M
รูปแบบภาษาที่มาสก์
โมเดลภาษาที่คาดการณ์ว่าความน่าจะเป็นของโทเค็นที่จะกรอกจะเติมคําในช่องว่างตามลําดับ ตัวอย่างเช่น โมเดลภาษาที่มาสก์จะคํานวณความน่าจะเป็นสําหรับคําที่เป็นตัวเลือกเพื่อแทนที่การขีดเส้นใต้ในประโยคต่อไปนี้
____ ในหมวกมาแล้ว
โดยปกติแล้ววรรณคดีใช้สตริง "MASK" แทนการขีดเส้นใต้ เช่น
"MASK" ในหมวกกลับมาแล้ว
รูปแบบมาสก์สมัยใหม่ส่วนใหญ่เป็นแบบสองทิศทาง
การเรียนรู้แบบเมตา
ชุดย่อยของแมชชีนเลิร์นนิงที่ค้นพบหรือปรับปรุงอัลกอริทึมการเรียนรู้ ระบบการเรียนรู้เมตะยังตั้งเป้าหมายในการฝึกโมเดลให้เรียนรู้งานใหม่อย่างรวดเร็วจากข้อมูลจํานวนเล็กน้อยหรือจากประสบการณ์ที่ได้รับในงานก่อนหน้า โดยทั่วไปอัลกอริทึมของ Meta Learning จะพยายามบรรลุเป้าหมายต่อไปนี้
- ปรับปรุง/เรียนรู้คุณลักษณะที่พัฒนาขึ้นเองโดยมือ (เช่น เครื่องมือเริ่มต้นหรือเครื่องมือเพิ่มประสิทธิภาพ)
- ใช้ข้อมูลอย่างมีประสิทธิภาพและประสิทธิผลมากขึ้น
- ปรับปรุงข้อมูลทั่วไป
Meta Learning เกี่ยวข้องกับการเรียนรู้บางส่วน
รูปแบบ
หมวดหมู่ข้อมูลระดับสูง ตัวอย่างเช่น ตัวเลข ข้อความ รูปภาพ วิดีโอ และเสียง มีรูปแบบที่แตกต่างกัน 5 แบบ
การโหลดพร้อมกันของโมเดล
วิธีปรับขนาดหรืออนุมานการฝึกอบรมที่แสดงส่วนต่างๆ ของโมเดลที่แตกต่างกันในอุปกรณ์ต่างๆ การทํางานพร้อมกันขนานกันไป ช่วยให้โมเดลที่ใหญ่เกินพอดีใส่ในอุปกรณ์เดียวได้
ในการใช้งานแบบขนานของโมเดล โดยทั่วไประบบจะดําเนินการดังต่อไปนี้
- ชาร์ด (แยก) โมเดลออกเป็นส่วนย่อย
- กระจายการฝึกส่วนเล็กๆ เหล่านั้นในตัวประมวลผลหลายตัว โปรเซสเซอร์แต่ละตัวจะฝึกโมเดลของตัวเอง
- รวมผลลัพธ์เข้าด้วยกันเพื่อสร้างโมเดลเดียว
การเรียนรู้จากโมเดลพร้อมกันทําให้การฝึกช้าลง
การดูแลตัวเองแบบหลายศีรษะ
ส่วนขยายของความสนใจของตนเองที่ใช้กลไกการดึงดูดตนเองหลายครั้งสําหรับแต่ละตําแหน่งในลําดับอินพุต
Transformers เปิดตัวความสนใจแบบมัลติเท็กซ์
โมเดลแบบหลายโมดัล
โมเดลที่มีอินพุตและ/หรือเอาต์พุตมีรูปแบบมากกว่า 1 รายการ ตัวอย่างเช่น พิจารณาโมเดลที่นําทั้งรูปภาพและคําอธิบายภาพข้อความ (โมเดล 2 แบบ) มาใช้เป็นฟีเจอร์ และแสดงคะแนนที่บ่งบอกว่าคําบรรยายข้อความมีความเหมาะสมต่อรูปภาพมากน้อยเพียงใด ดังนั้น อินพุตของโมเดลนี้จึงมีหลายโมดัลและเอาต์พุตจะเป็นแบบโมดัล
N
ความเข้าใจภาษาธรรมชาติ
การพิจารณาเจตนาของผู้ใช้ตามสิ่งที่ผู้ใช้พิมพ์หรือพูด ตัวอย่างเช่น เครื่องมือค้นหาจะใช้ความเข้าใจภาษาธรรมชาติในการระบุสิ่งที่ผู้ใช้กําลังค้นหาโดยพิจารณาจากสิ่งที่ผู้ใช้พิมพ์หรือพูด
N-G-ram
ลําดับของคํา N ลําดับ เช่น โกรธจริงขนาด 2 กรัม เนื่องจากคําสั่งซื้อมีความเกี่ยวข้องกันอย่างเห็นได้ชัดเลยทีเดียวเป็น 2 กรัมที่แตกต่างจากโมโหสุดๆ
N | ชื่อสําหรับ N-gram ประเภทนี้ | ตัวอย่าง |
---|---|---|
2 | Bigram หรือ 2 กรัม | จะไปที่นั่น กินข้าวเที่ยง กินข้าวเย็น |
3 | รูปสามเหลี่ยมหรือ 3 กรัม | กินหนูตาบอด 3 ตัว กับตากระดิ่งมากเกินไป |
4 | 4 กรัม | เดินในสวน ฝุ่นละอองในลม เด็กชายกินถั่วเลนทิล |
โมเดลการทําความเข้าใจภาษาธรรมชาติจํานวนมากจะใช้ N-grams เพื่อคาดคะเนคําถัดไปที่ผู้ใช้จะพิมพ์หรือพูด ตัวอย่างเช่น สมมติว่าผู้ใช้พิมพ์สามตาบอด โมเดล NLU ที่ใช้รูปสามเหลี่ยมมีแนวโน้มที่จะคาดการณ์ว่าผู้ใช้จะพิมพ์เมาส์ต่อไป
ตรงข้ามกับ N-grams กับ bag of word ซึ่งก็คือชุดคําที่ไม่ได้เรียงลําดับ
NLU
ตัวย่อของความเข้าใจภาษาธรรมชาติ
O
ข้อความแจ้งเพียงครั้งเดียว
ข้อความแจ้งที่มีตัวอย่าง 1 รูปแบบที่แสดงให้เห็นว่าโมเดลภาษาขนาดใหญ่ควรตอบสนองอย่างไร ตัวอย่างเช่น ข้อความแจ้งต่อไปนี้มีตัวอย่างหนึ่งที่แสดงรูปแบบภาษาขนาดใหญ่ว่าควรจะตอบคําถามอย่างไร
ส่วนหนึ่งของข้อความแจ้ง | หมายเหตุ |
---|---|
สกุลเงินอย่างเป็นทางการของประเทศที่ระบุคือเท่าใด | คําถามที่ต้องการให้ LLM ตอบ |
ฝรั่งเศส: EUR | ตัวอย่างหนึ่ง |
อินเดีย: | ข้อความค้นหาจริง |
เปรียบเทียบคอนทราสต์ในข้อความแจ้งเกี่ยวกับการถ่ายภาพครั้งเดียวกับคําต่อไปนี้
P
การปรับแต่งประสิทธิภาพตามพารามิเตอร์
ชุดเทคนิคในการปรับแต่งโมเดลภาษาก่อนฝึก (PLM) ขนาดใหญ่อย่างมีประสิทธิภาพมากกว่าการปรับแต่งแบบเต็มรูปแบบ การปรับแต่งพารามิเตอร์ให้มีประสิทธิภาพนั้น โดยปกติแล้วจะปรับแต่งพารามิเตอร์ได้น้อยกว่าการปรับแต่งแบบเต็มรูปแบบ แต่โดยทั่วไปแล้ว จะสร้างโมเดลภาษาขนาดใหญ่ซึ่งทํางานได้ดีเช่นกัน (หรือเกือบได้เช่นกัน) ในฐานะโมเดลภาษาขนาดใหญ่ที่สร้างจากการปรับแต่งอย่างละเอียดทั้งหมด
เปรียบเทียบและเปรียบต่างการปรับจูนพารามิเตอร์ให้มีประสิทธิภาพดังนี้
การปรับแต่งที่มีผลกับพารามิเตอร์เรียกอีกอย่างว่าการปรับแต่งแบบเพิ่มประสิทธิภาพพารามิเตอร์
ไปป์ไลน์
รูปแบบการทํางานพร้อมกันขนานที่การประมวลผลของโมเดลแบ่งเป็นช่วงต่อเนื่องกัน และแต่ละขั้นตอนจะทํางานในอุปกรณ์อื่น ขณะที่ขั้นตอนกําลังประมวลผล 1 กลุ่ม ระยะก่อนหน้าจะทํางานในกลุ่มถัดไปได้
แบบ PLM
ตัวย่อของโมเดลภาษาก่อนการฝึก
การเข้ารหัสจากตําแหน่ง
เทคนิคในการเพิ่มข้อมูลเกี่ยวกับตําแหน่งของโทเค็นตามลําดับของการฝังของโทเค็น โมเดลหม้อแปลงใช้การเข้ารหัสตามตําแหน่งเพื่อทําความเข้าใจความสัมพันธ์ระหว่างส่วนต่างๆ ของผลลัพธ์ให้ดียิ่งขึ้น
การใช้งานการเข้ารหัสตําแหน่งโดยทั่วไปจะใช้ฟังก์ชันไซนัสด์ (กล่าวอย่างเจาะจงคือ ความถี่และแอมพลิจูดของฟังก์ชันไซนอยด์จะกําหนดโดยตําแหน่งของโทเค็นในลําดับ) เทคนิคนี้ทําให้โมเดล Transformer เรียนรู้การเข้าร่วมส่วนต่างๆ ของลําดับตามตําแหน่งของตน
โมเดลก่อนการฝึก
โมเดลหรือคอมโพเนนต์ของโมเดล (เช่น เวกเตอร์การฝัง) ที่ได้รับการฝึกแล้ว บางครั้ง คุณจะป้อนเวกเตอร์การฝังภาพก่อนการฝึกลงในเครือข่ายระบบประสาท ในบางครั้ง โมเดลจะฝึกเวกเตอร์การฝังเอง แทนที่จะใช้การฝังแบบฝึกล่วงหน้า
คําว่ารูปแบบก่อนการฝึกหมายถึงรูปแบบภาษาขนาดใหญ่ซึ่งผ่านการฝึกอบรมล่วงหน้าแล้ว
การฝึกอบรมเบื้องต้น
การฝึกโมเดลเบื้องต้นในชุดข้อมูลขนาดใหญ่ โมเดลก่อนการฝึกบางรุ่นเป็นยักษ์ใหญ่ที่เกะกะ และมักจะต้องปรับแต่งผ่านการฝึกอบรมเพิ่มเติม เช่น ผู้เชี่ยวชาญ ML อาจฝึกโมเดลภาษาขนาดใหญ่ในชุดข้อมูลข้อความขนาดใหญ่ไว้ล่วงหน้า เช่น หน้าภาษาอังกฤษทั้งหมดใน Wikipedia หลังจากการฝึกล่วงหน้าแล้ว โมเดลผลลัพธ์อาจมีการปรับแต่งเพิ่มเติมโดยใช้เทคนิคใดก็ได้ต่อไปนี้
- การกลั่น
- การปรับแต่ง
- การปรับแต่งวิธีการ
- การปรับแต่งพารามิเตอร์ที่มีประสิทธิภาพ
- การปรับแต่งการแจ้งเตือน
ข้อความแจ้ง
ข้อความใดๆ ที่ป้อนเป็นอินพุตของโมเดลภาษาขนาดใหญ่ เพื่อกําหนดเงื่อนไขของโมเดลให้ทํางานในลักษณะใดลักษณะหนึ่ง ข้อความเตือนอาจสั้นกระชับ หรือข้อความอย่างอิสระ (เช่น ข้อความทั้งหมดของนิยาย) ข้อความแจ้งแบ่งออกเป็นหลายหมวดหมู่ ซึ่งรวมถึงหมวดหมู่ที่แสดงในตารางต่อไปนี้
หมวดหมู่ของข้อความแจ้ง | ตัวอย่าง | หมายเหตุ |
---|---|---|
คำถาม | นกพิราบบินได้เร็วแค่ไหน | |
โรงเรียนฝึกอบรม | แต่งกลอนตลกๆ เกี่ยวกับการหากําไร | ข้อความแจ้งขอให้โมเดลภาษาขนาดใหญ่ทําอะไรบางอย่าง |
ตัวอย่าง | แปลโค้ด Markdown เป็น HTML เช่น
มาร์กดาวน์: * รายการ HTML: <ul> <li>รายการ</li> </ul> |
ประโยคแรกในข้อความแจ้งตัวอย่างนี้คือวิธีการ ส่วนที่เหลือของข้อความแจ้งคือตัวอย่าง |
บทบาท | อธิบายว่าทําไมการใช้การไล่ระดับสีจึงลดลงในการฝึกแมชชีนเลิร์นนิงกับปริญญาเอกสาขาฟิสิกส์ | ส่วนแรกของประโยคคือคําแนะนํา วลี "ถึงปริญญาเอกในฟิสิกส์" คือบทบาทหน้าที่ |
อินพุตบางส่วนสําหรับโมเดลนี้ | นายกรัฐมนตรีสหราชอาณาจักรอยู่ที่ | ข้อความแจ้งอินพุตบางส่วนอาจลงท้ายด้วยฉับพลัน (ตามตัวอย่างนี้) หรือลงท้ายด้วยขีดล่าง |
โมเดล generative AI สามารถตอบสนองต่อข้อความแจ้งที่มีข้อความ, โค้ด, รูปภาพ, การฝัง วิดีโอ และอื่นๆ อีกมากมาย
การเรียนรู้จากข้อความแจ้ง
ความสามารถของโมเดลบางรายการที่ช่วยให้ปรับเปลี่ยนลักษณะการทํางานเพื่อตอบสนองต่อการป้อนข้อความได้ (ข้อความแจ้ง) ในกระบวนทัศน์การเรียนรู้แบบใช้ข้อความแจ้งทั่วไป โมเดลภาษาขนาดใหญ่จะตอบสนองต่อพรอมต์ด้วยการสร้างข้อความ ตัวอย่างเช่น สมมติว่าผู้ใช้ป้อนข้อความแจ้งต่อไปนี้
สรุปกฎข้อที่ 3 ของนิวตัน
โมเดลที่เรียนรู้ตามข้อความแจ้งไม่ได้ผ่านการฝึกอบรมมาเพื่อตอบคําถามก่อนหน้านี้เท่านั้น โมเดล "รู้" ข้อเท็จจริงเกี่ยวกับฟิสิกส์ได้หลายข้อ ส่วนใหญ่แล้วเกี่ยวกับกฎภาษาทั่วไป และส่วนใหญ่เกี่ยวกับคําตอบที่เป็นประโยชน์ ความรู้ที่ได้นั้นเพียงพอที่จะให้ คําตอบ (หวังว่าจะ) มีประโยชน์ การตอบสนองของมนุษย์เพิ่มเติม ("คําตอบนั้นซับซ้อนเกินไป" หรือ "ปฏิกิริยาคืออะไร") ช่วยให้ระบบการเรียนรู้แบบอาศัยข้อความแจ้งบางระบบค่อยๆ เพิ่มประโยชน์ของคําตอบ
การออกแบบข้อความแจ้ง
คําพ้องความหมายสําหรับวิศวกรรมข้อความแจ้ง
วิศวกรรมที่รวดเร็ว
ศิลปะการสร้างข้อความแจ้งเพื่อกระตุ้นการตอบสนองที่ต้องการจากโมเดลภาษาขนาดใหญ่ มนุษย์ต้องทําวิศวกรรมที่รวดเร็ว การเขียนข้อความแจ้งที่มีโครงสร้างที่ดีเป็นส่วนสําคัญที่จะทําให้แน่ใจถึงคําตอบที่เป็นประโยชน์จากโมเดลภาษาขนาดใหญ่ วิศวกรรมที่กะทันหันขึ้นอยู่กับ หลายปัจจัย ได้แก่
- ชุดข้อมูลที่ใช้เพื่อฝึกล่วงหน้าและอาจปรับแต่งโมเดลภาษาขนาดใหญ่
- อุณหภูมิและพารามิเตอร์การถอดรหัสอื่นๆ ที่โมเดลใช้ในการสร้างคําตอบ
ดูบทนําเกี่ยวกับการออกแบบข้อความแจ้ง สําหรับรายละเอียดเพิ่มเติมเกี่ยวกับการเขียนข้อความแจ้งที่เป็นประโยชน์
การออกแบบข้อความแจ้งเป็นคําเหมือนสําหรับวิศวกรรมข้อความแจ้ง
จูนเสียง
กลไกการปรับแต่งประสิทธิภาพพารามิเตอร์ ที่เรียนรู้ "คํานําหน้า" ที่ระบบเพิ่มไว้ข้างหน้าข้อความแจ้งจริง
การปรับแต่งรูปแบบหนึ่งที่บางครั้งเรียกว่าการปรับแต่งคํานําหน้าคือการแทรกคํานําหน้าที่ทุกเลเยอร์ ในทางตรงกันข้าม การปรับแต่งข้อความแจ้งส่วนใหญ่จะเพิ่มคํานําหน้าลงในเลเยอร์อินพุตเท่านั้น
ขวา
การแสดงบทบาท
ส่วนที่ไม่บังคับของข้อความแจ้งที่ระบุกลุ่มเป้าหมายสําหรับการตอบสนองของโมเดล AI ยุคใหม่ หากไม่มีข้อความแจ้งบทบาท โมเดลภาษาขนาดใหญ่ก็มีคําตอบที่อาจเป็นประโยชน์สําหรับผู้ถาม เมื่อมีข้อความแจ้งบทบาท โมเดลภาษาขนาดใหญ่จะตอบด้วยวิธีที่เหมาะสมและเป็นประโยชน์มากขึ้นสําหรับกลุ่มเป้าหมายที่เฉพาะเจาะจง ตัวอย่างเช่น ส่วนของข้อความแจ้งบทบาทที่แสดงข้อความต่อไปนี้จะเป็นตัวหนา
- สรุปบทความนี้เพื่อจบปริญญาเอกด้านเศรษฐศาสตร์
- อธิบายวิธีการทํางานของกระแสไฟฟ้าสําหรับเด็กอายุ 10 ปี
- อธิบายวิกฤติทางการเงินปี 2008 พูดกับลูกๆ ว่า หรือลูกสุนัขขี่ทองคํา
S
การดูแลตัวเอง (หรือเรียกว่าเลเยอร์การทํางานด้วยตนเอง)
ชั้นโครงข่ายระบบประสาทที่เปลี่ยนลําดับการฝัง (ตัวอย่างเช่น การฝังโทเค็น) เป็นฝังชั้นอื่น การฝังแต่ละรายการในลําดับเอาต์พุตจะสร้างขึ้นโดยการรวมข้อมูลจากองค์ประกอบของลําดับอินพุตผ่านกลไกความสนใจ
ส่วนที่สนใจด้วยตัวเองคือความสนใจของตนเองคือลําดับที่เข้าร่วมด้วยตนเองแทนที่จะเป็นบริบทอื่นๆ ความสนใจของตนเองเป็นหนึ่งในองค์ประกอบหลักในตัวเปลี่ยนรูปแบบและใช้คําศัพท์การค้นหาจากพจนานุกรม เช่น "คําค้นหา" "คีย์" และ "ค่า"
เลเยอร์ดึงดูดความสนใจด้วยตัวเองเริ่มต้นด้วยลําดับของการแสดงอินพุต หนึ่งรายการสําหรับแต่ละคํา การป้อนข้อมูลด้วยคําอาจเป็น การฝังที่ไม่ซับซ้อน สําหรับแต่ละคําในลําดับการป้อนข้อมูล เครือข่ายจะให้คะแนนความเกี่ยวข้องของคํากับทุกองค์ประกอบในลําดับทั้งหมดของคํา คะแนนความเกี่ยวข้องจะเป็นตัวกําหนดว่าการนําเสนอคําท้ายสุด จะแทนการแสดงคําอื่นๆ ได้มากเพียงใด
ตัวอย่างเช่น ลองพิจารณาประโยคต่อไปนี้
สัตว์ไม่ได้ข้ามถนนเพราะเหนื่อยเกินไป
ภาพประกอบต่อไปนี้ (จาก Transformer: สถาปัตยกรรมเครือข่ายระบบนิวเคลียร์สําหรับการทําความเข้าใจภาษา) แสดงรูปแบบความสนใจของเลเยอร์ความสนใจตนเองสําหรับคําสรรพนาม it พร้อมด้วยความเข้มของเส้นที่ระบุแต่ละเส้นที่มีผลต่อการนําเสนอ
เลเยอร์แบบดึงดูดความสนใจด้วยตัวเองจะไฮไลต์คําที่เกี่ยวข้องกับคําว่า "ชั้น" ในกรณีนี้ ชั้นความสนใจได้เรียนรู้วิธีการไฮไลต์คําที่ชั้นอาจอ้างอิง โดยกําหนดน้ําหนักสูงสุดให้กับสัตว์
สําหรับลําดับ n โทเค็น ความสนใจของตนเองจะเปลี่ยนลําดับของการฝัง n ครั้งแยกกัน โดยให้แสดงที่ตําแหน่งแต่ละลําดับในลําดับ
โปรดดูข้อมูลเพิ่มเติมที่หัวข้อการดึงดูดความสนใจและการดึงดูดความสนใจจากผู้ชมจํานวนมาก
การวิเคราะห์ความเห็น
การใช้อัลกอริทึมของแมชชีนเลิร์นนิงหรือสถิติเพื่อพิจารณาว่ามีทัศนคติโดยรวม (เชิงบวก) ของกลุ่มในด้านบริการ ผลิตภัณฑ์ องค์กร หรือหัวข้อ ตัวอย่างเช่น การใช้การทําความเข้าใจภาษาธรรมชาติ อัลกอริทึมจะทําการวิเคราะห์ความเห็นเกี่ยวกับความคิดเห็นที่เป็นข้อความจากหลักสูตรมหาวิทยาลัยเพื่อกําหนดระดับความชอบที่นักเรียนจะชอบหรือไม่ชอบในหลักสูตรนั้นๆ
งานต่อเนื่องไปจนถึงตามลําดับ
งานที่แปลงลําดับอินพุตของโทเค็นเป็นผลลัพธ์เอาต์พุตของโทเค็น ตัวอย่างเช่น งานต่อเนื่องตามลําดับที่ได้รับความนิยม 2 ประเภทคือ
- นักแปล
- ตัวอย่างลําดับอินพุต: "ฉันรักเธอ"
- ตัวอย่างลําดับเอาต์พุต: "Je t'aime"
- ตอบคําถาม:
- ตัวอย่างลําดับอินพุต: "ฉันต้องใช้รถในนิวยอร์กซิตี้ไหม"
- ตัวอย่างลําดับเอาต์พุต: "ไม่ โปรดเก็บรถไว้ที่บ้าน"
คุณลักษณะแยกวิเคราะห์
ฟีเจอร์ที่มีค่าเป็นศูนย์หรือว่างเปล่า เช่น ฟีเจอร์ที่มีค่า 1 ค่าเดียวและมีค่าเป็น 0 หลายล้านรายการ ในทางตรงกันข้าม คุณลักษณะที่หนาแน่น มีค่าส่วนใหญ่ที่ไม่ใช่ศูนย์หรือว่างเปล่า
ในแมชชีนเลิร์นนิง มีฟีเจอร์มากมายอย่างไม่น่าเชื่อ ฟีเจอร์เชิงหมวดหมู่มักจะเป็นฟีเจอร์ที่มีจํานวนน้อย เช่น ต้นไม้ 300 ชนิดในป่า 1 ตัวอย่างอาจบ่งชี้ถึงต้นเมเปิลเท่านั้น หรือจากวิดีโอนับล้าน ในไลบรารีวิดีโอ ตัวอย่างหนึ่งอาจระบุแค่ "คาซาบลังกา"
ในรูปแบบต่างๆ ตามปกติแล้วคุณมักจะแสดงฟีเจอร์ที่ไม่กระตุกด้วยการเข้ารหัสแบบ Hot-hot หากการเข้ารหัสแบบ Hot-hot มีขนาดใหญ่ คุณอาจวางเลเยอร์การฝังลงไปบนการเข้ารหัสแบบ One-Hot เพื่อประสิทธิภาพที่ดีขึ้น
ตัวแทนบางส่วน
การจัดเก็บเฉพาะตําแหน่งขององค์ประกอบที่ไม่ใช่ 0 ในฟีเจอร์ที่มีข้อมูลน้อย
เช่น สมมติว่าฟีเจอร์ตามหมวดหมู่ที่ชื่อ species
เป็นต้นไม้ 36 สายพันธุ์ในป่าแห่งใดแห่งหนึ่ง ให้สมมติว่าตัวอย่างแต่ละรายการระบุเพียงสปีชีส์เดียวเท่านั้น
คุณสามารถใช้เวกเตอร์แบบ 1 ทิศทางในการแสดงถึงสายพันธุ์ต้นไม้ในแต่ละตัวอย่าง
เวกเตอร์ 1 ทิศทางจะมี 1
1 ชุด (เพื่อแทนต้นไม้สายพันธุ์ที่เฉพาะเจาะจงในตัวอย่างนั้น) และ 35 0
(เพื่อแสดงถึงต้นไม้ 35 สายพันธุ์ไม่ในตัวอย่าง) การนําเสนอ maple
แบบเผ็ดร้อนอาจมีลักษณะเช่นนี้
อีกวิธีหนึ่งคือ การแจกแจงแบบแคบเพียงแค่กําหนดตําแหน่งของชนิดที่เจาะจง ถ้า maple
อยู่ในอันดับ 24 การนําเสนอ maple
แบบกระจัดกระจายจะเป็นดังนี้:
24
โปรดสังเกตว่าการนําเสนอแบบกระจัดกระจายนั้นมีขนาดน้อยกว่าการนําเสนอแบบครั้งเดียว
การฝึกอบรมแบบเป็นขั้น
กลยุทธ์การฝึกโมเดลตามลําดับที่ต่อเนื่องกัน เป้าหมายอาจเป็นการเพิ่มความเร็วให้กับกระบวนการฝึก หรือเพื่อให้ได้คุณภาพของโมเดลที่ดีขึ้น
ภาพของกระบวนการกองซ้อนแสดงด้านล่าง
- ขั้นที่ 1 มีเลเยอร์ที่ซ่อนอยู่ 3 ชั้น ขั้นที่ 2 มีเลเยอร์ที่ซ่อนอยู่ 6 ชั้น และ ขั้นที่ 3 มีเลเยอร์ที่ซ่อนอยู่ 12 ชั้น
- ขั้นที่ 2 เริ่มฝึกด้วยน้ําหนักที่เรียนรู้ใน 3 เลเยอร์ที่ซ่อนอยู่ของระยะที่ 1 ขั้นที่ 3 เริ่มฝึกด้วยน้ําหนักที่เรียนรู้ใน 6 ชั้นที่ซ่อนอยู่ของระยะที่ 2
ดูไปป์ไลน์เพิ่มเติม
T
T5
แบบจําลอง การเรียนรู้จาก SMS เป็นข้อความที่แนะนําโดย Google AI ในปี 2020 T5 เป็นโมเดลโปรแกรมเปลี่ยนไฟล์-ตัวถอดรหัสที่ใช้สถาปัตยกรรม Transformer ซึ่งฝึกบนชุดข้อมูลขนาดใหญ่มาก ซึ่งมีประสิทธิภาพในงานด้านภาษาธรรมชาติที่หลากหลาย เช่น การสร้างข้อความ การแปลภาษา และตอบคําถามในลักษณะการสนทนา
T5 ได้รับชื่อมาจากตัวอักษร T จํานวน 5 ตัวใน "ตัวแปลงข้อความเป็นข้อความ"
T5 เท่า
เฟรมเวิร์กแบบโอเพนซอร์ส แมชชีนเลิร์นนิงเฟรมเวิร์กที่ออกแบบมาเพื่อ สร้างและฝึกโมเดลขนาดใหญ่-ภาษาธรรมชาติ-NLP-. T5 ทํางานบนฐานโค้ด T5X (ซึ่งสร้างบน JAX และ Flax)
อุณหภูมิ
ไฮเปอร์พารามิเตอร์ที่ควบคุมระดับการสุ่มเอาต์พุตของโมเดล อุณหภูมิที่สูงขึ้นทําให้เอาต์พุตแบบสุ่มมากขึ้น ขณะอุณหภูมิต่ํากว่าปกติจะทําให้เกิดเอาต์พุตแบบสุ่มน้อยลง
การเลือกอุณหภูมิที่ดีที่สุดจะขึ้นอยู่กับแอปพลิเคชันที่เฉพาะเจาะจง และคุณสมบัติที่ต้องการของเอาต์พุตโมเดล ตัวอย่างเช่น คุณอาจเพิ่มอุณหภูมิเมื่อสร้างแอปพลิเคชันที่สร้างเอาต์พุตโฆษณา ในทางกลับกัน คุณอาจลดอุณหภูมิลงเมื่อสร้างโมเดลที่จัดประเภทรูปภาพหรือข้อความเพื่อปรับปรุงความแม่นยําและความสอดคล้องของโมเดล
อุณหภูมิมักใช้ร่วมกับ softmax
Span ข้อความ
ช่วงดัชนีของอาร์เรย์ที่เชื่อมโยงกับส่วนย่อยที่เฉพาะเจาะจงของสตริงข้อความ
ตัวอย่างเช่น คําว่า good
ในสตริง Python s="Be good now"
จะใช้พื้นที่ตั้งแต่ 3 ถึง 6
โทเค็น
ในโมเดลภาษา หน่วยอะตอมที่โมเดลฝึกอยู่และคาดการณ์ โทเค็นมักมีลักษณะอย่างใดอย่างหนึ่งต่อไปนี้
- คํา เช่น วลี "สุนัขอย่างแมว" ประกอบด้วยคํา 3 คํา ได้แก่ "สุนัข" "ชอบ" และ "แมว"
- อักขระ - วลี "ปลาจักรยาน" ประกอบด้วยโทเค็นอักขระ 9 ตัว (โปรดทราบว่าพื้นที่ว่างจะนับเป็นหนึ่งในโทเค็น)
- คําย่อย ซึ่งคําเดี่ยวอาจเป็นโทเค็นเดียวหรือหลายโทเค็น คําย่อยประกอบด้วยคํารูท คํานําหน้า หรือคําต่อท้าย ตัวอย่างเช่น โมเดลภาษาที่ใช้คําย่อยเป็นโทเค็นอาจดูคําว่า "สุนัข" เป็นโทเค็น 2 คํา (คําว่าราก "สุนัข" และคําต่อท้ายพหูพจน์ "s") โมเดลภาษาเดียวกันนี้อาจดูคําเดี่ยว "สูง" เป็นคําย่อย 2 คํา ("ราก" "สูง" และคําต่อท้าย "er")
ในโดเมนที่อยู่นอกโมเดลภาษา โทเค็นอาจเป็นหน่วยอะตอมประเภทอื่นๆ ได้ ตัวอย่างเช่น ในคอมพิวเตอร์วิทัศน์ โทเค็นอาจเป็นชุดย่อยของรูปภาพ
หม้อแปลง
สถาปัตยกรรมโครงข่ายระบบประสาทเทียมที่พัฒนาโดย Google ซึ่งใช้กลไกการสนใจด้วยตัวเองเพื่อเปลี่ยนผลลัพธ์ของการฝังอินพุตให้เป็นลําดับการฝังเอาต์พุตตามลําดับโดยไม่ต้องอาศัยการปฏิวัติหรือโครงข่ายระบบประสาทเทียม หม้อแปลงสามารถ เห็นซ้อนชั้นชั้นที่สนใจได้ด้วยตัวเอง
หม้อแปลงรวมสิ่งใดสิ่งหนึ่งต่อไปนี้ได้
- โปรแกรมเปลี่ยนไฟล์
- ตัวถอดรหัส
- ทั้งโปรแกรมเปลี่ยนไฟล์และการถอดรหัส
โปรแกรมเปลี่ยนไฟล์จะเปลี่ยนลําดับการฝังเป็นลําดับใหม่ที่มีความยาวเท่าๆ กัน โปรแกรมเปลี่ยนไฟล์ประกอบด้วย N เลเยอร์ซึ่งแต่ละเลเยอร์มีเลเยอร์ย่อย 2 ชั้น เลเยอร์ย่อยทั้ง 2 เลเยอร์นี้จะถูกนํามาใช้ในตําแหน่งของลําดับการฝัง แต่ละตําแหน่ง โดยแปลงแต่ละองค์ประกอบของลําดับให้เป็น การฝังใหม่ เลเยอร์ย่อยของโปรแกรมเปลี่ยนไฟล์แรกจะรวบรวมข้อมูลจากลําดับอินพุตทั้งหมด ชั้นย่อยที่ 2 ของโปรแกรมเปลี่ยนไฟล์จะแปลงข้อมูลที่รวบรวมไว้ให้เป็นการฝังเอาต์พุต
ตัวถอดรหัสจะเปลี่ยนลําดับของการฝังอินพุตตามลําดับของการฝังเอาต์พุต ที่อาจมีความยาวต่างกัน เครื่องมือถอดรหัสยังรวมถึง เลเยอร์ที่เหมือนกัน N เลเยอร์ที่มีเลเยอร์ย่อย 3 ชั้นซึ่งสองชั้นคล้ายกับเลเยอร์ย่อยของโปรแกรมเปลี่ยนไฟล์ ชั้นย่อยที่ 3 ของตัวถอดรหัสจะดึงเอาต์พุตจากโปรแกรมเปลี่ยนไฟล์และนํากลไกการสนใจด้วยตนเองมาใช้เพื่อรวบรวมข้อมูล
บทความในบล็อก Transformer: A Novel Neural Network Architecture for Language การทําความเข้าใจ จะให้คําแนะนําที่ดีเกี่ยวกับการเปลี่ยนรูปแบบ
Trigram
N-gram ซึ่ง N=3
U
แบบทิศทางเดียว
ระบบที่ประเมินเฉพาะข้อความที่อยู่ก่อนส่วนเป้าหมายของข้อความ ในทางกลับกัน ระบบแบบ 2 ทิศทางจะประเมินทั้งข้อความที่นําหน้าและติดตามส่วนเป้าหมายของข้อความ ดูรายละเอียดเพิ่มเติมได้ที่แบบ 2 ทิศทาง
โมเดลภาษาสากล
โมเดลภาษาที่อ้างอิงความน่าจะเป็นเท่านั้นบนโทเค็นที่ปรากฏก่อนไม่ใช่หลังโทเค็นเป้าหมาย ตรงข้ามกับรูปแบบภาษา 2 ทิศทาง
V
ตัวเข้ารหัสอัตโนมัติรูปแบบใหม่ (VAE)
autoencoder ประเภทหนึ่งที่ใช้ความคลาดเคลื่อนระหว่างอินพุตกับเอาต์พุตเพื่อสร้างอินพุตเวอร์ชันที่แก้ไขแล้ว ตัวเข้ารหัสอัตโนมัติรูปแบบต่างๆ มีประโยชน์สําหรับ AI ยุคใหม่
VAE อิงตามค่าอนุมานที่ผันแปร: เทคนิคในการประมาณพารามิเตอร์ของโมเดลความน่าจะเป็น
W
การฝังคํา
การแสดงคําแต่ละคําในชุดคําที่อยู่ภายใน เวกเตอร์การฝัง กล่าวคือ แสดงแต่ละคําเป็นเวกเตอร์ของค่าทศนิยมระหว่าง 0.0 และ 1.0 คําที่มีคําคล้ายกัน จะมีคําที่คล้ายๆ กันสําหรับคําที่มีความหมายต่างกัน เช่น แครอท คึ่นช้อย และแตงกวา ทั้งหมดจะมีตัวอย่างที่คล้ายกันซึ่งแตกต่างจากการนําเสนอเครื่องบิน แว่นกันแดด และฟันปลอม
Z
การแจ้งเตือนแบบ 0 ช็อต
ข้อความแจ้งที่ไม่ได้ให้ตัวอย่างวิธีที่คุณต้องการให้โมเดลภาษาขนาดใหญ่ตอบสนอง เช่น
ส่วนหนึ่งของข้อความแจ้ง | หมายเหตุ |
---|---|
สกุลเงินอย่างเป็นทางการของประเทศที่ระบุคือเท่าใด | คําถามที่ต้องการให้ LLM ตอบ |
อินเดีย: | ข้อความค้นหาจริง |
โมเดลภาษาขนาดใหญ่อาจตอบสนองด้วยเงื่อนไขใดๆ ต่อไปนี้
- รูปี
- INR
- ₹
- รูปีอินเดีย
- รูปี
- รูปีอินเดีย
ถูกทุกข้อ คุณอาจต้องการใช้รูปแบบใดรูปแบบหนึ่ง
เปรียบเทียบความคมชัดของการแจ้งให้ถ่ายไปที่ศูนย์ด้วยคําต่อไปนี้