หน้านี้มีคําสําหรับอภิธานศัพท์การประเมินภาษา สําหรับอภิธานศัพท์ทั้งหมด คลิกที่นี่
A
ความสนใจ
กลไกต่างๆ ของโครงข่ายระบบประสาทที่หลากหลาย ซึ่งรวบรวมข้อมูลจากชุดอินพุตในลักษณะที่อิงตามข้อมูล กลไกความสนใจโดยทั่วไปอาจประกอบด้วยผลรวมที่ถ่วงน้ําหนักของชุดอินพุต โดย weight ของอินพุตแต่ละรายการจะคํานวณโดยส่วนอื่นๆ ของเครือข่ายระบบประสาท
และดูความสนใจของตนเองและการสร้างความสนใจในตัวแบบหลายหัว ซึ่งเป็นองค์ประกอบสําคัญของการเปลี่ยนรูปแบบ
ข
ถุงคํา
การนําเสนอคําในวลีหรือข้อความ โดยไม่คํานึงถึงลําดับของคํา เช่น กลุ่มคําแสดงถึงวลี 3 วลีต่อไปนี้ที่เหมือนกัน
- สุนัขกระโดด
- กระโดดสุนัข
- สุนัขกระโดดข้าม
แต่ละคําจะจับคู่กับดัชนีในเวกเตอร์ที่กระจัดกระจาย โดยเวกเตอร์จะมีดัชนีสําหรับทุกๆ คําในคําศัพท์ เช่น วลีสุนัขกระโดดจะจับคู่กับเวกเตอร์ฟีเจอร์ที่มีค่าไม่เป็น 0 ในดัชนี 3 ตัวที่ตรงกับคําว่า the, dog และ jumps ค่าที่ไม่ใช่ 0 อาจเป็นค่าใดก็ได้ต่อไปนี้
- ค่า 1 จะระบุคํา
- จํานวนครั้งที่คําปรากฏในกระเป๋า เช่น หากวลีคือ dogoon dog เป็นสุนัขที่มี maroon fur ทั้ง maroon และ dog จะแสดงเป็น 2 ส่วนคําอื่นๆ ก็จะแสดงเป็น 1
- ค่าอื่นๆ เช่น ลอการิทึมของจํานวนครั้งที่คําปรากฏในกระเป๋า
BERT (ตัวเข้ารหัสแบบสองทิศทาง ตัวแสดงจาก Transformers)
สถาปัตยกรรมโมเดลสําหรับการนําเสนอแบบข้อความ โมเดล BERT ที่ผ่านการฝึกแล้วจะเป็นส่วนหนึ่งของโมเดลขนาดใหญ่สําหรับการแยกประเภทข้อความหรืองาน ML อื่นๆ
BERT มีลักษณะดังต่อไปนี้
- ใช้สถาปัตยกรรม Transformer จึงมาจากการดึงดูดตนเอง
- ใช้ส่วนโปรแกรมเปลี่ยนไฟล์ของ Transformer โปรแกรมโปรแกรมเปลี่ยนไฟล์'มีหน้าที่สร้างการนําเสนอข้อความที่ดีที่สุดแทนการสร้างการทํางานที่เฉพาะเจาะจง เช่น การแยกประเภท
- เป็นแบบสองทิศทาง
- ใช้การมาสก์สําหรับ การฝึกที่ไม่มีการควบคุม
ตัวแปรของ BERT' ได้แก่
ดูโอเพนซอร์สของ BERT: การฝึกก่อนการประมวลผลที่ล้ําสมัยสําหรับการประมวลผลภาษาธรรมชาติ สําหรับภาพรวมของ BERT
Bigram
N-gram ที่ N=2
แบบ 2 ทิศทาง
คําที่ใช้อธิบายระบบที่ประเมินข้อความที่ทั้งก่อนและติดตามส่วนข้อความเป้าหมาย ในทางตรงกันข้าม ระบบสากลจะประเมินเฉพาะข้อความที่ก่อนส่วนข้อความเป้าหมายเท่านั้น
เช่น พิจารณาโมเดลภาษามาสก์ที่ต้องกําหนดความเป็นไปได้ในการใช้คําหรือคําที่แสดงถึงการขีดเส้นใต้ในคําถามต่อไปนี้
_____ กับคุณคืออะไร
รูปแบบทางภาษาเดียวจะต้องมีพื้นฐานด้านความน่าจะเป็นจากบริบทของคําว่า "What", "is" และ "the" เท่านั้น ในทางตรงกันข้าม โมเดลภาษาแบบ 2 ทิศทางยังได้รับบริบทจาก "with" และ "you" อีกด้วย ซึ่งอาจช่วยให้โมเดลสร้างการคาดการณ์ที่ดีขึ้นได้
รูปแบบภาษาแบบ 2 ทิศทาง
รูปแบบภาษาที่จะระบุความน่าจะเป็นที่โทเค็นหนึ่งๆ จะปรากฏในตําแหน่งที่ระบุโดยข้อความที่ตัดตอนมาตามข้อความที่นําหน้าและกําลังติดตาม
BLEU (การศึกษาประเมินผลสองภาษา)
มีคะแนนตั้งแต่ 0.0 ถึง 1.0 ซึ่งแสดงถึงคุณภาพของคําแปลระหว่างภาษามนุษย์ 2 ภาษา (เช่น ภาษาอังกฤษและรัสเซีย) คะแนน BLEU ที่ 1.0 บ่งบอกว่าคําแปลสมบูรณ์มาก คะแนน BLEU ที่ 0.0 แสดงถึงคําแปลที่ยอดเยี่ยม
ค
รูปแบบภาษาทั่วไป
คําพ้องความหมายสําหรับรูปแบบภาษาสากล
ดูโมเดลภาษาแบบ 2 ทิศทางเพื่อแยกความแตกต่างของแนวทางในทิศทางต่างๆ ในการประมาณภาษา
ดอกซากุระ
ประโยคหรือวลีที่มีความหมายอย่างชัดเจน ชมดอกไม้บานที่ทําให้เกิดปัญหาอย่างมากในความเข้าใจด้านภาษาธรรมชาติ เช่น บรรทัดแรกช่อง Red Tape ที่ถือแท่งทรงสูงขึ้นมาเป็นดอกซากุระเพราะโมเดล NLU อาจตีความพาดหัวได้ตรงตัวหรือเชิงความหมาย
D
เครื่องมือถอดรหัส
โดยทั่วไป ระบบ ML ที่แปลงจากการแสดงผลแบบเป็นตัวแทน ประมวลผลแบบหนาแน่น หรือแบบภายใน เป็นการนําเสนอแบบข้อมูลดิบ แบบกระจาย หรือแบบนอก
เครื่องมือถอดรหัสมักจะเป็นส่วนประกอบของโมเดลที่ใหญ่กว่า ซึ่งมักจะจับคู่กับโปรแกรมเปลี่ยนไฟล์
ในงานลําดับต่อเนื่องกัน เครื่องมือถอดรหัสจะเริ่มต้นด้วยสถานะภายในที่โปรแกรมเปลี่ยนไฟล์สร้างขึ้นเพื่อคาดคะเนลําดับถัดไป
โปรดดูคําจํากัดความของตัวถอดรหัสในสถาปัตยกรรมของ Transformer ที่ Transformer
การลดเสียง
วิธีที่พบบ่อยในการเรียนรู้แบบควบคุมดูแลด้วยตนเองซึ่งมีดังนี้
- เสียงรบกวนจะเพิ่มเข้าไปในชุดข้อมูลอย่างไม่เป็นจริง
- รุ่นจะพยายามนําเสียงรบกวนออก
การลดเสียงรบกวนช่วยให้เรียนรู้จากตัวอย่างที่ไม่มีป้ายกํากับ ชุดข้อมูลเดิมทําหน้าที่เป็นเป้าหมายหรือป้ายกํากับ และข้อมูลเสียงดังเป็นอินพุต
โมเดลภาษามาสก์บางรายการใช้การตัดเสียงรบกวนดังต่อไปนี้
- ระบบจะเพิ่มเสียงรบกวนไปยังประโยคที่ไม่มีป้ายกํากับโดยการมาสก์โทเค็นบางส่วน
- โมเดลจะพยายามคาดการณ์โทเค็นเดิม
จ.
เลเยอร์แบบฝัง
เลเยอร์ที่ซ่อนอยู่แบบพิเศษที่ฝึกบนฟีเจอร์ตามหมวดหมู่ในระดับสูงเพื่อค่อยๆ เรียนรู้เวกเตอร์ที่ต่ําลงในการฝังเวกเตอร์ เลเยอร์แบบฝังช่วยให้โครงข่ายระบบประสาทเทียมสามารถฝึกงานได้อย่างมีประสิทธิภาพมากกว่าการฝึกเฉพาะที่ลักษณะตามหมวดหมู่ในระดับสูง
ตัวอย่างเช่น ปัจจุบัน Earth สนับสนุนต้นไม้ประมาณ 73,000 สายพันธุ์ สมมติว่าโครงสร้างแบบต้นไม้เป็นฟีเจอร์ในโมเดลของคุณ ดังนั้นเลเยอร์อินพุตของโมเดลมีองค์ประกอบฮอตฮิตความยาว 73,000
องค์ประกอบ
ตัวอย่างเช่น อาจจะ baobab
แทนดังนี้
อาร์เรย์ 73,000 องค์ประกอบยาวมาก หากไม่เพิ่มเลเยอร์แบบฝังไปยังโมเดล การฝึกจะใช้เวลาค่อนข้างมาก เนื่องจากมีการคูณเลข 72,999 บางทีคุณอาจเลือกเลเยอร์แบบฝัง ซึ่งประกอบด้วยมิติข้อมูล 12 รายการ ดังนั้น เลเยอร์ที่ฝังจะค่อยๆ เรียนรู้ เวกเตอร์การฝังใหม่สําหรับต้นไม้แต่ละสายพันธุ์
ในบางสถานการณ์ การแฮชเป็นทางเลือกที่สมเหตุสมผลสําหรับเลเยอร์แบบฝัง
การฝังพื้นที่ทํางาน
พื้นที่เวกเตอร์ที่มีมิติข้อมูล D ซึ่งแสดงจากพื้นที่เวกเตอร์ที่มีมิติสูงกว่า ตามหลักการแล้ว ช่องว่างที่ฝังจะให้ผลลัพธ์ที่ทําให้เกิดผลลัพธ์ทางคณิตศาสตร์ที่เป็นประโยชน์ เช่น ในพื้นที่แบบฝังที่ดีที่สุด การบวกและลบการลบจะช่วยแก้ปัญหางานเปรียบเทียบที่คล้ายกันได้
ผลิตภัณฑ์ลายจุด ของการฝัง 2 จุดคือการวัดความคล้ายคลึงกัน
การฝังเวกเตอร์
พูดกว้างๆ คือชุดตัวเลขที่ลอยอยู่ในลําดับทุก เลเยอร์ที่ซ่อนอยู่ซึ่งอธิบายอินพุตของเลเยอร์ที่ซ่อนอยู่นั้น บ่อยครั้งที่เวกเตอร์การฝังคืออาร์เรย์ของจํานวนจุดลอยตัวที่ฝึกอยู่ในเลเยอร์การฝัง เช่น สมมติว่าเลเยอร์แบบฝังต้องเรียนรู้ การฝังเวกเตอร์สําหรับต้นไม้แต่ละสายพันธุ์ 73,000 ชนิดบนโลก อาร์เรย์ต่อไปนี้อาจเป็นเวกเตอร์การฝังสําหรับต้นเบาบับ
เวกเตอร์การฝังไม่ใช่ชุดตัวเลขแบบสุ่มจํานวนมาก ชั้นการฝังจะระบุค่าเหล่านี้ผ่านการฝึก ซึ่งคล้ายกับวิธีที่เครือข่ายระบบประสาทเรียนรู้น้ําหนักอื่นๆ ระหว่างการฝึก องค์ประกอบแต่ละอย่างของอาร์เรย์คือการให้คะแนนตามลักษณะบางอย่างของสายพันธุ์ต้นไม้ องค์ประกอบใด แสดงลักษณะของต้นไม้ 9 ชนิด มันยากมากที่มนุษย์จะรู้
ส่วนที่น่าสนใจของเวกเตอร์การฝังคือรายการที่คล้ายกันซึ่งมีชุดจํานวนจุดลอยตัวที่คล้ายกัน เช่น ต้นไม้คล้ายๆ กันจะมีชุดจํานวนจุดลอยตัวที่ใกล้เคียงกันมากกว่าพันธุ์ไม้ที่ไม่เหมือนกัน ต้นเรดวูดและซีคัวยาคือสายพันธุ์ต้นไม้ที่สัมพันธ์กัน ดังนั้นจึงมีค่าตัวเลขที่ลอยลอยได้ดีกว่าดอกมะพร้าวและต้นมะพร้าว ตัวเลขในเวกเตอร์การฝังจะเปลี่ยนแปลง ทุกครั้งที่คุณฝึกโมเดลอีกครั้ง แม้ว่าคุณจะฝึกโมเดลอีกครั้ง โดยใช้อินพุตที่เหมือนกันแล้วก็ตาม
โปรแกรมเปลี่ยนไฟล์
โดยทั่วไป ระบบ ML ที่แปลงจากการนําเสนอแบบข้อมูลดิบ ข้อมูลที่กระจัดกระจาย หรือการนําเสนอภายนอกเป็นการนําเสนอที่ประมวลผลแล้ว หนาแน่นกว่า หรือเฉพาะเจาะจงกว่า
โปรแกรมเปลี่ยนไฟล์มักเป็นส่วนประกอบของโมเดลที่ใหญ่กว่า ซึ่งมักจะจับคู่กับตัวถอดรหัส หม้อแปลงบางตัว จับคู่โปรแกรมเปลี่ยนไฟล์กับตัวถอดรหัส แต่ตัวแปลงอื่นๆ จะใช้เฉพาะโปรแกรมเปลี่ยนไฟล์หรือเฉพาะตัวถอดรหัสเท่านั้น
บางระบบใช้เอาต์พุตของโปรแกรมเปลี่ยนไฟล์เป็นอินพุตสําหรับเครือข่ายการแยกประเภทหรือเครือข่ายการเกิดปัญหาซ้ํา
ในงานแบบเรียงตามลําดับ โปรแกรมเปลี่ยนไฟล์จะใช้ลําดับอินพุตและแสดงสถานะภายใน (เวกเตอร์) จากนั้น decoder จะใช้สถานะภายในเพื่อคาดการณ์ลําดับถัดไป
โปรดดูคําจํากัดความของโปรแกรมเปลี่ยนไฟล์ในสถาปัตยกรรมของ Transformer ที่ Transformer
G
GPT (หม้อแปลงที่ฝึกล่วงหน้า)
ตระกูลของโมเดลภาษาขนาดใหญ่ที่ใช้ Transformer พัฒนาขึ้นโดย OpenAI
รูปแบบ GPT ใช้ได้กับรูปแบบหลายแบบด้วยกัน ดังนี้
- การสร้างรูปภาพ (เช่น ImageGPT)
- การสร้างข้อความเป็นรูปภาพ (เช่น DALL-E)
L
LaMDA (รูปแบบภาษาสําหรับแอปพลิเคชันในบทสนทนา)
หม้อแปลงโมเดลภาษาขนาดใหญ่ที่พัฒนาโดยชุดข้อมูลขนาดใหญ่ซึ่งสร้างโดยบทสนทนาที่ฝึกโดย Google สามารถสร้างขึ้นจากบทสนทนาที่ได้รับการฝึกอบรม
LaMDA: เทคโนโลยีการสนทนา ที่ทันสมัยของเราแสดงให้เห็นภาพรวม
รูปแบบภาษา
โมเดลที่ประมาณความน่าจะเป็นของโทเค็นหรือลําดับของโทเค็นที่เกิดขึ้นตามลําดับโทเค็นที่ยาวขึ้น
แบบจําลองภาษาขนาดใหญ่
คําศัพท์อย่างไม่เป็นทางการที่ไม่มีคําจํากัดความที่แน่นอนซึ่งมักจะหมายถึงรูปแบบภาษาที่มีพารามิเตอร์จํานวนมาก โมเดลภาษาขนาดใหญ่บางรูปแบบมีพารามิเตอร์มากกว่า 1 แสนล้านรายการ
M
รูปแบบภาษามาสก์
โมเดลภาษาที่คาดการณ์ความน่าจะเป็นของโทเค็นผู้สมัครที่จะเว้นว่างไว้ในลําดับ ตัวอย่างเช่น โมเดลภาษามาสก์สามารถคํานวณความน่าจะเป็นสําหรับคําที่แนะนําเพื่อแทนที่การขีดเส้นใต้ในประโยคต่อไปนี้
____ ในหมวกกลับมา
โดยปกติแล้ว วรรณกรรมจะใช้สตริง "MASK" แทนที่จะใช้การขีดเส้นใต้ เช่น
"MASK" ในหมวกกลับมา
โมเดลของภาษามาสก์สมัยใหม่ส่วนใหญ่จะเป็นแบบ 2 ทิศทาง
การเรียนรู้เมตา
ชุดย่อยของแมชชีนเลิร์นนิงที่ค้นพบหรือปรับปรุงอัลกอริทึมการเรียนรู้ ระบบการเรียนรู้เมตายังมีจุดประสงค์เพื่อฝึกโมเดลให้เรียนรู้งานใหม่ได้อย่างรวดเร็วจากข้อมูลปริมาณน้อยหรือจากประสบการณ์ที่ได้รับในงานก่อนหน้า โดยทั่วไป อัลกอริทึมการเรียนรู้เมตาจะพยายามทําดังต่อไปนี้
- ปรับปรุง/เรียนรู้ฟีเจอร์ต่างๆ ที่ทําด้วยมือ (เช่น ตัวเริ่มต้นหรือตัวเพิ่มประสิทธิภาพ)
- ประหยัดทั้งข้อมูลและประสิทธิภาพในการทํางาน
- ปรับปรุงข้อมูลทั่วไป
Meta-Learning เกี่ยวข้องกับการเรียนรู้น้อย
รูปแบบ
หมวดหมู่ข้อมูลระดับสูง เช่น ตัวเลข ข้อความ รูปภาพ วิดีโอ และเสียง มี 5 รูปแบบ
การโหลดพร้อมกันของโมเดล
วิธีการปรับขนาดการฝึกหรืออนุมานที่แสดงส่วนต่างๆ ของโมเดลหนึ่งในแต่ละอุปกรณ์ การโหลดพร้อมกันของโมเดลช่วยให้โมเดลที่ใหญ่เกินจะพอดีในอุปกรณ์เดียว
และดูการโหลดข้อมูลพร้อมกันด้วย
การดูแลตัวเองแบบหลายใบหน้า
ส่วนขยายของการดึงดูดตนเองที่ใช้กลไกการดึงดูดตนเองหลายครั้งสําหรับแต่ละตําแหน่งในลําดับอินพุต
Transformers เปิดตัวฟีเจอร์การดึงดูดความสนใจของผู้ใช้แบบหลายหัว
รูปแบบในหลายโมดัล
โมเดลอินพุตและ/หรือเอาต์พุตมีรูปแบบมากกว่า 1 รายการ เช่น ลองนึกถึงโมเดลที่ใช้ทั้งรูปภาพและคําอธิบายภาพ (มี 2 รูปแบบ) เป็นฟีเจอร์ และใส่คะแนนที่แสดงถึงความเหมาะสมในการใช้คําบรรยายวิดีโอกับรูปภาพ ดังนั้น อินพุตของโมเดลนี้จึงมีหลายโมดัลและเอาต์พุตจะเป็นแบบโมดัล
ไม่ใช่
ความเข้าใจภาษาธรรมชาติ
ระบุความตั้งใจของผู้ใช้ตามสิ่งที่พิมพ์หรือพูด ตัวอย่างเช่น เครื่องมือค้นหาจะใช้ความเข้าใจตามธรรมชาติของภาษาเพื่อกําหนดสิ่งที่ผู้ใช้กําลังค้นหาโดยพิจารณาจากสิ่งที่ผู้ใช้พิมพ์หรือพูด
N-gram
ลําดับของคําตามลําดับ N เช่น โกรธมากคือ 2 กรัม เนื่องจากลําดับมีความเกี่ยวข้องกันอย่างมากจริงๆ เป็น 2 กรัมที่แตกต่างจากโกรธสุดๆ
ไม่ใช่ | ชื่อสําหรับ N-gram ประเภทนี้ | ตัวอย่าง |
---|---|---|
2 | Bigram หรือ 2 กรัม | จะไป ไปกินข้าวเที่ยง กินข้าวเย็น |
3 | รูปสามเหลี่ยมหรือ 3 กรัม | มีเมาส์ตาบอด 3 ตัวมากเกินไป ไม่มีที่เก็บค่าผ่านทาง |
4 | 4 กรัม | เดินในสวน ฝุ่นละอองในลม เด็กชายรับประทานถั่วเลนทิล |
โมเดลการทําความเข้าใจภาษาธรรมชาติจํานวนมากจะใช้ N-grams เพื่อคาดคะเนคําถัดไปที่ผู้ใช้จะพิมพ์หรือพูด เช่น สมมติว่าผู้ใช้พิมพ์ม่าน 3 ใบ โมเดล NLU ที่ยึดตามรูปสามเหลี่ยมมีแนวโน้มที่จะคาดการณ์ได้ว่าผู้ใช้จะพิมพ์เมาส์ในครั้งถัดไป
คอนทราสต์ N-grams กับ bag of words ซึ่งก็คือชุดคําที่ไม่เรียงลําดับ
NLU
ตัวย่อของการทําความเข้าใจภาษาธรรมชาติ
P
ไปป์ไลน์
รูปแบบการโหลดพร้อมกันของโมเดลที่การประมวลผลโมเดลจะแบ่งเป็นระยะต่อเนื่องกัน และจะดําเนินการในแต่ละขั้นตอนในอุปกรณ์คนละเครื่อง ขณะสตรีม 1 กลุ่ม ระยะก่อนหน้าจะทํางานในกลุ่มถัดไปได้
ดูการฝึกอบรมแบบทีละขั้นด้วย
ส
การสร้างความสนใจด้วยตนเอง (หรือเรียกว่าเลเยอร์การรักษาความสนใจ)
เลเยอร์โครงข่ายระบบประสาทที่เปลี่ยนลําดับการฝัง (เช่น การฝังโทเค็น) เป็นการฝังแบบฝังอีกลําดับหนึ่ง การฝังแต่ละรายการในลําดับเอาต์พุตจะสร้างขึ้นโดยผสานรวมข้อมูลจากองค์ประกอบของลําดับอินพุตผ่านกลไก Attention
ส่วนที่ด้วยตนเองของการสร้างความสนใจตนเองหมายถึงลําดับที่เข้าร่วมด้วยตนเอง ไม่ใช่บริบทอื่นๆ การสร้างความสนใจตนเองเป็นองค์ประกอบสําคัญอย่างหนึ่งในหม้อแปลง และใช้คําศัพท์การค้นหาพจนานุกรม เช่น "คําค้นหา" "คีย์" และ "ค่า"
เลเยอร์ที่ผู้ใช้สนใจขึ้นมาเองต้องเรียงตามลําดับจากข้อมูลที่ป้อน 1 รายการสําหรับแต่ละคํา การป้อนข้อมูลด้วยคําอาจเป็นการฝังง่ายๆ สําหรับแต่ละคําในลําดับอินพุต เครือข่ายจะให้คะแนนความเกี่ยวข้องของคํากับทุกองค์ประกอบในลําดับคําทั้งหมด คะแนนความเกี่ยวข้องจะเป็นตัวกําหนดว่าการนําเสนอคําสุดท้าย จะรวมคําอื่นๆ มากน้อยเพียงใด
ลองดูตัวอย่างประโยคต่อไปนี้
สัตว์ไม่ได้เดินบนถนนเพราะเหนื่อยเกินไป
ภาพประกอบต่อไปนี้ (จาก Transformer: A Novel Neural Network Architecture for Language ทําความเข้าใจว่า) แสดงชั้นความสนใจของตนเอง' รูปแบบการดึงดูดความสนใจสําหรับคําสรรพนาม it ซึ่งแสดงถึงความเข้มของแต่ละคําในแต่ละบรรทัด
เลเยอร์ความสนใจด้วยตนเองจะไฮไลต์คําที่เกี่ยวข้องกับ "it" ในกรณีนี้ ชั้นความสนใจได้เรียนรู้วิธีไฮไลต์คําที่มันอ้างอิงถึง โดยกําหนดน้ําหนักที่สูงสุดให้กับสัตว์
สําหรับลําดับของ n โทเค็น การดึงดูดด้วยตนเองจะเปลี่ยนลําดับของการฝัง n ครั้งแยกจากกัน โดยย้ายที่แต่ละตําแหน่งในลําดับ
และดูการดึงดูดและการดึงดูดตนเองแบบหลายส่วนหัวด้วย
การวิเคราะห์ความเห็น
ใช้อัลกอริทึมทางสถิติหรือแมชชีนเลิร์นนิงในการกําหนดทัศนคติโดยรวม ไม่ว่าจะในแง่บวกหรือแง่ลบต่อกลุ่มบริการ ผลิตภัณฑ์ องค์กร หรือหัวข้อ ตัวอย่างเช่น ด้วยการใช้ความเข้าใจด้านภาษาธรรมชาติ อัลกอริทึมจะทําการวิเคราะห์ความเห็นเกี่ยวกับความคิดเห็นแบบข้อความจากหลักสูตรของมหาวิทยาลัยเพื่อกําหนดระดับการศึกษาที่นักศึกษาชอบหรือไม่ชอบในหลักสูตรทั่วไป
งานต่อเนื่องไปจนถึงตามลําดับ
งานที่แปลงลําดับอินพุตของโทเค็นเป็นลําดับเอาต์พุตของโทเค็น ตัวอย่างงานต่อเนื่องถึงลําดับที่ได้รับความนิยม มี 2 ประเภท ได้แก่
- นักแปล
- ตัวอย่างอินพุตต่อเนื่อง: "I love you."
- ตัวอย่างลําดับเอาต์พุต: "Je t'aime."
- การตอบคําถาม
- ตัวอย่างลําดับการป้อนข้อมูล: "ฉันต้องมีรถของฉันในนิวยอร์กซิตี้หรือไม่
- ตัวอย่างลําดับเอาต์พุต: "ไม่ โปรดเก็บรถไว้ที่บ้าน"
ฟีเจอร์แบบกระจัดกระจาย
ฟีเจอร์ที่มีค่าเป็น 0 หรือว่างเปล่าเป็นส่วนใหญ่ เช่น ฟีเจอร์ที่มีค่า 1 และค่า 0 ล้านเพียงรายการเดียวมีค่าน้อยมาก ในทางตรงกันข้าม ฟีเจอร์หนาแน่นมีค่าที่ยังไม่ได้เป็น 0 หรือว่างเปล่า
ในแมชชีนเลิร์นนิง มีจํานวนฟีเจอร์มากมายที่น่าประหลาดใจ ฟีเจอร์ตามหมวดหมู่มักจะเป็นฟีเจอร์ที่มีอยู่น้อยนิด เช่น ต้นไม้ 300 สายพันธุ์ในป่า ตัวอย่างหนึ่งอาจระบุเพียงต้นเมเปิล หรือตัวอย่างวิดีโอที่เป็นไปได้หลายล้านรายการในคลังวิดีโอ ตัวอย่างหนึ่งอาจระบุแค่ "Casablanca."
ในรูปแบบข้างต้น ปกติแล้วคุณจะแสดงฟีเจอร์ที่ไม่กระจัดกระจายด้วยการเข้ารหัสแบบใช้ครั้งเดียว หากการเข้ารหัสแบบ 1 ชั้นมีขนาดใหญ่ คุณอาจใส่เลเยอร์แบบฝังไว้ที่ด้านบนของการเข้ารหัสแบบ 1 ชั้นเพื่อให้มีประสิทธิภาพมากขึ้น
การนําเสนอแบบกระจัดกระจาย
การจัดเก็บเฉพาะตําแหน่งขององค์ประกอบที่ไม่ใช่ 0 ในฟีเจอร์การกระจัดกระจาย
เช่น สมมติว่าฟีเจอร์การจัดหมวดหมู่ชื่อ species
ระบุต้นไม้ 36 สายพันธุ์ในป่าแห่งใดแห่งหนึ่ง สมมติว่าตัวอย่างแต่ละรายการระบุสายพันธุ์เพียงประเภทเดียว
คุณสามารถใช้เวกเตอร์แบบหัวเดียวเพื่อแสดงสายพันธุ์ต้นไม้ในแต่ละตัวอย่าง
เวกเตอร์ที่ได้รับความนิยมแบบหนึ่งจะมี 1
เพียงรายการเดียว (เพื่อแสดงชนิดต้นไม้ที่เจาะจงในตัวอย่างนั้น) และ 0
จํานวน 35 ชนิด (เพื่อแสดงแทนต้นไม้ 35 ชนิดไม่ใช่ในตัวอย่างดังกล่าว) การนําเสนอแบบหนึ่งของ maple
ที่อาจเป็นไปได้จะมีลักษณะดังต่อไปนี้
แต่การนําเสนอที่ไม่สมบูรณ์จะเพียงแค่ระบุตําแหน่งของสายพันธุ์เหล่านั้น หาก maple
อยู่ที่อันดับ 24 การกระจัดกระจายของ maple
จะเพียงแค่:
24
โปรดสังเกตว่าการนําเสนอที่กระจัดกระจายมีขนาดกะทัดรัดน้อยกว่าการนําเสนอแบบหน้าเดียว
การฝึกอบรมแบบทีละขั้น
กลยุทธ์การฝึกโมเดลตามลําดับขั้นตอนแบบไม่ต่อเนื่อง เป้าหมายอาจเป็นแค่การเร่งกระบวนการฝึก หรือเพื่อให้ได้คุณภาพของโมเดลที่ดีขึ้น
ภาพประกอบของชุดวิธีการแบบต่อเนื่องจะแสดงอยู่ด้านล่าง
- ขั้นที่ 1 มีเลเยอร์ที่ซ่อนอยู่ 3 ชั้น ขั้นที่ 2 มีเลเยอร์ที่ซ่อนอยู่ 6 ชั้น และขั้นที่ 3 มีเลเยอร์ที่ซ่อนอยู่ 12 ชั้น
- ขั้นที่ 2 เริ่มต้นการฝึกด้วยน้ําหนักที่เรียนรู้ใน 3 เลเยอร์ที่ซ่อนอยู่ของขั้นที่ 1 ขั้นที่ 3 เริ่มต้นการฝึกด้วยน้ําหนักที่เรียนรู้ใน 6 เลเยอร์ที่ซ่อนอยู่ของขั้นที่ 2
ดูเพิ่มเติมที่หัวข้อไปป์ไลน์
อ
โทเค็น
ในโมเดลภาษา หน่วยอะตอมที่โมเดลฝึกใช้งานและคาดการณ์ โทเค็นมักมีลักษณะอย่างใดอย่างหนึ่งต่อไปนี้
- คํา เช่น วลี "dogss cats" ประกอบด้วยคํา 3 คํา ได้แก่ "dogs", "like" และ "cats"
- ตัวอักษร ตัวอย่างเช่น วลี "bike fish" ประกอบด้วยโทเค็นอักขระ 9 ตัว (โปรดทราบว่าช่องว่างจะถือเป็นหนึ่งในโทเค็น)
- คําย่อย ซึ่งคําๆ เดียวเป็นโทเค็นเดียวหรือหลายโทเค็นก็ได้ คําย่อยประกอบด้วยคําราก คํานําหน้า หรือคําต่อท้าย ตัวอย่างเช่น โมเดลภาษาซึ่งใช้คําย่อยเป็นโทเค็นอาจดูคํา "dog" เป็นโทเค็น 2 คํา (คําราก "dog" และคําต่อท้ายพหูพจน์ "s") โมเดลภาษาเดียวกันอาจดูคําเดี่ยว "taller" เป็นคําย่อย 2 คํา (คําราก "tall" และคําต่อท้าย "er")
ในโดเมนที่อยู่นอกโมเดลภาษา โทเค็นอาจแสดงถึงหน่วยอะตอมประเภทอื่นๆ เช่น ในคอมพิวเตอร์วิทัศน์ โทเค็นอาจเป็นชุดย่อยของรูปภาพ
หม้อแปลง
สถาปัตยกรรมโครงข่ายระบบประสาทที่พัฒนาบน Google อาศัยกลไกการดึงดูดด้วยตนเองเพื่อเปลี่ยนรูปแบบผลลัพธ์ของการฝังอินพุตเป็นลําดับการฝัง เอาต์พุตโดยไม่พึ่งพาการปฏิวัติหรือเครือข่ายโครงข่ายประสาทที่เกิดซ้ํา หม้อแปลงสามารถมองได้ว่าตัวเองมีหลายชั้น
หม้อแปลงอาจรวมถึงสิ่งต่อไปนี้
- โปรแกรมเปลี่ยนไฟล์
- ตัวถอดรหัส
- ทั้งโปรแกรมเปลี่ยนไฟล์และโปรแกรมเปลี่ยนไฟล์
โปรแกรมเปลี่ยนไฟล์จะแปลงลําดับการฝังให้เป็นลําดับใหม่ที่มีความยาวเท่ากัน โปรแกรมเปลี่ยนไฟล์มี N เลเยอร์ที่เหมือนกันซึ่งแต่ละเลเยอร์มีเลเยอร์ย่อย 2 ชั้น ระบบจะนําเลเยอร์ย่อย 2 ชั้นนี้ไปใช้ในแต่ละตําแหน่งของลําดับการฝัง เพื่อแปลงแต่ละองค์ประกอบของลําดับให้เป็นการฝังแบบใหม่ เลเยอร์ย่อยโปรแกรมเปลี่ยนไฟล์แรกจะรวบรวมข้อมูลจากลําดับอินพุตทั้งหมด เลเยอร์ย่อยของโปรแกรมเปลี่ยนไฟล์ที่สองจะแปลงข้อมูลรวมเป็นการฝังเอาต์พุต
ตัวถอดรหัสจะเปลี่ยนลําดับการฝังอินพุตตามลําดับของการฝังเอาต์พุตที่อาจมีความยาวต่างกัน การถอดรหัสยังรวมเลเยอร์ที่เหมือนกัน N ชั้นที่มีเลเยอร์ย่อย 3 ชั้น ซึ่ง 2 ชั้นนี้คล้ายกับเลเยอร์ย่อยของโปรแกรมเปลี่ยนไฟล์ ตัวถอดรหัสรองที่ 3 รับเอาต์พุตของโปรแกรมเปลี่ยนไฟล์และใช้กลไก Attention-Attention ในการรวบรวมข้อมูลจาก
บล็อกโพสต์ Transformer: A Novel Neural Network Architecture for Language ทําความเข้าใจว่า เป็นข้อมูลเบื้องต้นที่ดีเกี่ยวกับหม้อแปลง
ไทรแกรม
N-gram ที่ N=3
U
แบบทิศทางเดียว
ระบบที่ประเมินเฉพาะข้อความที่มาก่อนส่วนเป้าหมายของข้อความ ในทางตรงกันข้าม ระบบแบบ 2 ทิศทางจะประเมินทั้งข้อความที่ก่อนและติดตามส่วนข้อความเป้าหมาย ดูรายละเอียดเพิ่มเติมได้ที่แบบ 2 ทิศทาง
รูปแบบภาษาสากล
โมเดลภาษาที่อ้างอิงความน่าจะเป็นของโทเค็นที่ปรากฏก่อนเท่านั้น ไม่ใช่หลังโทเค็นเป้าหมาย ขัดแย้งกับโมเดลภาษาแบบ 2 ทิศทาง
W
การฝังคํา
การแสดงคําแต่ละคําในชุดคําที่อยู่ภายในเวกเตอร์การฝัง กล่าวคือแสดงแต่ละคําเป็นเวกเตอร์ของค่าทศนิยมระหว่าง 0.0 ถึง 1.0 คําที่มีลักษณะคล้ายกัน มีคําที่คล้ายๆ กันมากกว่าคําที่มีความหมายต่างกัน เช่น แครอท ค้อมแดง และแตงกวา มีลักษณะคล้ายคลึงกันค่อนข้างมาก ซึ่งแตกต่างจากภาพเครื่องบิน แว่นกันแดด และสีฟัน