อภิธานศัพท์เกี่ยวกับแมชชีนเลิร์นนิง: การประเมินภาษา

จัดทุกอย่างให้เป็นระเบียบอยู่เสมอด้วยคอลเล็กชัน บันทึกและจัดหมวดหมู่เนื้อหาตามค่ากำหนดของคุณ

หน้านี้มีคําสําหรับอภิธานศัพท์การประเมินภาษา สําหรับอภิธานศัพท์ทั้งหมด คลิกที่นี่

A

ความสนใจ

#language

กลไกต่างๆ ของโครงข่ายระบบประสาทที่หลากหลาย ซึ่งรวบรวมข้อมูลจากชุดอินพุตในลักษณะที่อิงตามข้อมูล กลไกความสนใจโดยทั่วไปอาจประกอบด้วยผลรวมที่ถ่วงน้ําหนักของชุดอินพุต โดย weight ของอินพุตแต่ละรายการจะคํานวณโดยส่วนอื่นๆ ของเครือข่ายระบบประสาท

และดูความสนใจของตนเองและการสร้างความสนใจในตัวแบบหลายหัว ซึ่งเป็นองค์ประกอบสําคัญของการเปลี่ยนรูปแบบ

ถุงคํา

#language

การนําเสนอคําในวลีหรือข้อความ โดยไม่คํานึงถึงลําดับของคํา เช่น กลุ่มคําแสดงถึงวลี 3 วลีต่อไปนี้ที่เหมือนกัน

  • สุนัขกระโดด
  • กระโดดสุนัข
  • สุนัขกระโดดข้าม

แต่ละคําจะจับคู่กับดัชนีในเวกเตอร์ที่กระจัดกระจาย โดยเวกเตอร์จะมีดัชนีสําหรับทุกๆ คําในคําศัพท์ เช่น วลีสุนัขกระโดดจะจับคู่กับเวกเตอร์ฟีเจอร์ที่มีค่าไม่เป็น 0 ในดัชนี 3 ตัวที่ตรงกับคําว่า the, dog และ jumps ค่าที่ไม่ใช่ 0 อาจเป็นค่าใดก็ได้ต่อไปนี้

  • ค่า 1 จะระบุคํา
  • จํานวนครั้งที่คําปรากฏในกระเป๋า เช่น หากวลีคือ dogoon dog เป็นสุนัขที่มี maroon fur ทั้ง maroon และ dog จะแสดงเป็น 2 ส่วนคําอื่นๆ ก็จะแสดงเป็น 1
  • ค่าอื่นๆ เช่น ลอการิทึมของจํานวนครั้งที่คําปรากฏในกระเป๋า

BERT (ตัวเข้ารหัสแบบสองทิศทาง ตัวแสดงจาก Transformers)

#language

สถาปัตยกรรมโมเดลสําหรับการนําเสนอแบบข้อความ โมเดล BERT ที่ผ่านการฝึกแล้วจะเป็นส่วนหนึ่งของโมเดลขนาดใหญ่สําหรับการแยกประเภทข้อความหรืองาน ML อื่นๆ

BERT มีลักษณะดังต่อไปนี้

ตัวแปรของ BERT&#39 ได้แก่

  • ALBERT ซึ่งเป็นตัวย่อของ A Light BERT
  • LaBSE

ดูโอเพนซอร์สของ BERT: การฝึกก่อนการประมวลผลที่ล้ําสมัยสําหรับการประมวลผลภาษาธรรมชาติ สําหรับภาพรวมของ BERT

Bigram

#seq
#language

N-gram ที่ N=2

แบบ 2 ทิศทาง

#language

คําที่ใช้อธิบายระบบที่ประเมินข้อความที่ทั้งก่อนและติดตามส่วนข้อความเป้าหมาย ในทางตรงกันข้าม ระบบสากลจะประเมินเฉพาะข้อความที่ก่อนส่วนข้อความเป้าหมายเท่านั้น

เช่น พิจารณาโมเดลภาษามาสก์ที่ต้องกําหนดความเป็นไปได้ในการใช้คําหรือคําที่แสดงถึงการขีดเส้นใต้ในคําถามต่อไปนี้

_____ กับคุณคืออะไร

รูปแบบทางภาษาเดียวจะต้องมีพื้นฐานด้านความน่าจะเป็นจากบริบทของคําว่า "What", "is" และ "the" เท่านั้น ในทางตรงกันข้าม โมเดลภาษาแบบ 2 ทิศทางยังได้รับบริบทจาก "with" และ "you" อีกด้วย ซึ่งอาจช่วยให้โมเดลสร้างการคาดการณ์ที่ดีขึ้นได้

รูปแบบภาษาแบบ 2 ทิศทาง

#language

รูปแบบภาษาที่จะระบุความน่าจะเป็นที่โทเค็นหนึ่งๆ จะปรากฏในตําแหน่งที่ระบุโดยข้อความที่ตัดตอนมาตามข้อความที่นําหน้าและกําลังติดตาม

BLEU (การศึกษาประเมินผลสองภาษา)

#language

มีคะแนนตั้งแต่ 0.0 ถึง 1.0 ซึ่งแสดงถึงคุณภาพของคําแปลระหว่างภาษามนุษย์ 2 ภาษา (เช่น ภาษาอังกฤษและรัสเซีย) คะแนน BLEU ที่ 1.0 บ่งบอกว่าคําแปลสมบูรณ์มาก คะแนน BLEU ที่ 0.0 แสดงถึงคําแปลที่ยอดเยี่ยม

รูปแบบภาษาทั่วไป

#language

คําพ้องความหมายสําหรับรูปแบบภาษาสากล

ดูโมเดลภาษาแบบ 2 ทิศทางเพื่อแยกความแตกต่างของแนวทางในทิศทางต่างๆ ในการประมาณภาษา

ดอกซากุระ

#language

ประโยคหรือวลีที่มีความหมายอย่างชัดเจน ชมดอกไม้บานที่ทําให้เกิดปัญหาอย่างมากในความเข้าใจด้านภาษาธรรมชาติ เช่น บรรทัดแรกช่อง Red Tape ที่ถือแท่งทรงสูงขึ้นมาเป็นดอกซากุระเพราะโมเดล NLU อาจตีความพาดหัวได้ตรงตัวหรือเชิงความหมาย

D

เครื่องมือถอดรหัส

#language

โดยทั่วไป ระบบ ML ที่แปลงจากการแสดงผลแบบเป็นตัวแทน ประมวลผลแบบหนาแน่น หรือแบบภายใน เป็นการนําเสนอแบบข้อมูลดิบ แบบกระจาย หรือแบบนอก

เครื่องมือถอดรหัสมักจะเป็นส่วนประกอบของโมเดลที่ใหญ่กว่า ซึ่งมักจะจับคู่กับโปรแกรมเปลี่ยนไฟล์

ในงานลําดับต่อเนื่องกัน เครื่องมือถอดรหัสจะเริ่มต้นด้วยสถานะภายในที่โปรแกรมเปลี่ยนไฟล์สร้างขึ้นเพื่อคาดคะเนลําดับถัดไป

โปรดดูคําจํากัดความของตัวถอดรหัสในสถาปัตยกรรมของ Transformer ที่ Transformer

การลดเสียง

#language

วิธีที่พบบ่อยในการเรียนรู้แบบควบคุมดูแลด้วยตนเองซึ่งมีดังนี้

  1. เสียงรบกวนจะเพิ่มเข้าไปในชุดข้อมูลอย่างไม่เป็นจริง
  2. รุ่นจะพยายามนําเสียงรบกวนออก

การลดเสียงรบกวนช่วยให้เรียนรู้จากตัวอย่างที่ไม่มีป้ายกํากับ ชุดข้อมูลเดิมทําหน้าที่เป็นเป้าหมายหรือป้ายกํากับ และข้อมูลเสียงดังเป็นอินพุต

โมเดลภาษามาสก์บางรายการใช้การตัดเสียงรบกวนดังต่อไปนี้

  1. ระบบจะเพิ่มเสียงรบกวนไปยังประโยคที่ไม่มีป้ายกํากับโดยการมาสก์โทเค็นบางส่วน
  2. โมเดลจะพยายามคาดการณ์โทเค็นเดิม

จ.

เลเยอร์แบบฝัง

#language
#fundamentals

เลเยอร์ที่ซ่อนอยู่แบบพิเศษที่ฝึกบนฟีเจอร์ตามหมวดหมู่ในระดับสูงเพื่อค่อยๆ เรียนรู้เวกเตอร์ที่ต่ําลงในการฝังเวกเตอร์ เลเยอร์แบบฝังช่วยให้โครงข่ายระบบประสาทเทียมสามารถฝึกงานได้อย่างมีประสิทธิภาพมากกว่าการฝึกเฉพาะที่ลักษณะตามหมวดหมู่ในระดับสูง

ตัวอย่างเช่น ปัจจุบัน Earth สนับสนุนต้นไม้ประมาณ 73,000 สายพันธุ์ สมมติว่าโครงสร้างแบบต้นไม้เป็นฟีเจอร์ในโมเดลของคุณ ดังนั้นเลเยอร์อินพุตของโมเดลมีองค์ประกอบฮอตฮิตความยาว 73,000 องค์ประกอบ ตัวอย่างเช่น อาจจะ baobab แทนดังนี้

อาร์เรย์ขององค์ประกอบ 73,000 องค์ประกอบ 6,232 รายการแรกจะมีค่าเป็น 0 องค์ประกอบถัดไปมีค่า 1 องค์ประกอบ 66,767 สุดท้ายมีค่า
     0

อาร์เรย์ 73,000 องค์ประกอบยาวมาก หากไม่เพิ่มเลเยอร์แบบฝังไปยังโมเดล การฝึกจะใช้เวลาค่อนข้างมาก เนื่องจากมีการคูณเลข 72,999 บางทีคุณอาจเลือกเลเยอร์แบบฝัง ซึ่งประกอบด้วยมิติข้อมูล 12 รายการ ดังนั้น เลเยอร์ที่ฝังจะค่อยๆ เรียนรู้ เวกเตอร์การฝังใหม่สําหรับต้นไม้แต่ละสายพันธุ์

ในบางสถานการณ์ การแฮชเป็นทางเลือกที่สมเหตุสมผลสําหรับเลเยอร์แบบฝัง

การฝังพื้นที่ทํางาน

#language

พื้นที่เวกเตอร์ที่มีมิติข้อมูล D ซึ่งแสดงจากพื้นที่เวกเตอร์ที่มีมิติสูงกว่า ตามหลักการแล้ว ช่องว่างที่ฝังจะให้ผลลัพธ์ที่ทําให้เกิดผลลัพธ์ทางคณิตศาสตร์ที่เป็นประโยชน์ เช่น ในพื้นที่แบบฝังที่ดีที่สุด การบวกและลบการลบจะช่วยแก้ปัญหางานเปรียบเทียบที่คล้ายกันได้

ผลิตภัณฑ์ลายจุด ของการฝัง 2 จุดคือการวัดความคล้ายคลึงกัน

การฝังเวกเตอร์

#language

พูดกว้างๆ คือชุดตัวเลขที่ลอยอยู่ในลําดับทุก เลเยอร์ที่ซ่อนอยู่ซึ่งอธิบายอินพุตของเลเยอร์ที่ซ่อนอยู่นั้น บ่อยครั้งที่เวกเตอร์การฝังคืออาร์เรย์ของจํานวนจุดลอยตัวที่ฝึกอยู่ในเลเยอร์การฝัง เช่น สมมติว่าเลเยอร์แบบฝังต้องเรียนรู้ การฝังเวกเตอร์สําหรับต้นไม้แต่ละสายพันธุ์ 73,000 ชนิดบนโลก อาร์เรย์ต่อไปนี้อาจเป็นเวกเตอร์การฝังสําหรับต้นเบาบับ

อาร์เรย์ขององค์ประกอบ 12 องค์ประกอบ แต่ละรายการจะมีตัวเลขทศนิยมระหว่าง 0.0 ถึง 1.0

เวกเตอร์การฝังไม่ใช่ชุดตัวเลขแบบสุ่มจํานวนมาก ชั้นการฝังจะระบุค่าเหล่านี้ผ่านการฝึก ซึ่งคล้ายกับวิธีที่เครือข่ายระบบประสาทเรียนรู้น้ําหนักอื่นๆ ระหว่างการฝึก องค์ประกอบแต่ละอย่างของอาร์เรย์คือการให้คะแนนตามลักษณะบางอย่างของสายพันธุ์ต้นไม้ องค์ประกอบใด แสดงลักษณะของต้นไม้ 9 ชนิด มันยากมากที่มนุษย์จะรู้

ส่วนที่น่าสนใจของเวกเตอร์การฝังคือรายการที่คล้ายกันซึ่งมีชุดจํานวนจุดลอยตัวที่คล้ายกัน เช่น ต้นไม้คล้ายๆ กันจะมีชุดจํานวนจุดลอยตัวที่ใกล้เคียงกันมากกว่าพันธุ์ไม้ที่ไม่เหมือนกัน ต้นเรดวูดและซีคัวยาคือสายพันธุ์ต้นไม้ที่สัมพันธ์กัน ดังนั้นจึงมีค่าตัวเลขที่ลอยลอยได้ดีกว่าดอกมะพร้าวและต้นมะพร้าว ตัวเลขในเวกเตอร์การฝังจะเปลี่ยนแปลง ทุกครั้งที่คุณฝึกโมเดลอีกครั้ง แม้ว่าคุณจะฝึกโมเดลอีกครั้ง โดยใช้อินพุตที่เหมือนกันแล้วก็ตาม

โปรแกรมเปลี่ยนไฟล์

#language

โดยทั่วไป ระบบ ML ที่แปลงจากการนําเสนอแบบข้อมูลดิบ ข้อมูลที่กระจัดกระจาย หรือการนําเสนอภายนอกเป็นการนําเสนอที่ประมวลผลแล้ว หนาแน่นกว่า หรือเฉพาะเจาะจงกว่า

โปรแกรมเปลี่ยนไฟล์มักเป็นส่วนประกอบของโมเดลที่ใหญ่กว่า ซึ่งมักจะจับคู่กับตัวถอดรหัส หม้อแปลงบางตัว จับคู่โปรแกรมเปลี่ยนไฟล์กับตัวถอดรหัส แต่ตัวแปลงอื่นๆ จะใช้เฉพาะโปรแกรมเปลี่ยนไฟล์หรือเฉพาะตัวถอดรหัสเท่านั้น

บางระบบใช้เอาต์พุตของโปรแกรมเปลี่ยนไฟล์เป็นอินพุตสําหรับเครือข่ายการแยกประเภทหรือเครือข่ายการเกิดปัญหาซ้ํา

ในงานแบบเรียงตามลําดับ โปรแกรมเปลี่ยนไฟล์จะใช้ลําดับอินพุตและแสดงสถานะภายใน (เวกเตอร์) จากนั้น decoder จะใช้สถานะภายในเพื่อคาดการณ์ลําดับถัดไป

โปรดดูคําจํากัดความของโปรแกรมเปลี่ยนไฟล์ในสถาปัตยกรรมของ Transformer ที่ Transformer

G

GPT (หม้อแปลงที่ฝึกล่วงหน้า)

#language

ตระกูลของโมเดลภาษาขนาดใหญ่ที่ใช้ Transformer พัฒนาขึ้นโดย OpenAI

รูปแบบ GPT ใช้ได้กับรูปแบบหลายแบบด้วยกัน ดังนี้

  • การสร้างรูปภาพ (เช่น ImageGPT)
  • การสร้างข้อความเป็นรูปภาพ (เช่น DALL-E)

L

LaMDA (รูปแบบภาษาสําหรับแอปพลิเคชันในบทสนทนา)

#language

หม้อแปลงโมเดลภาษาขนาดใหญ่ที่พัฒนาโดยชุดข้อมูลขนาดใหญ่ซึ่งสร้างโดยบทสนทนาที่ฝึกโดย Google สามารถสร้างขึ้นจากบทสนทนาที่ได้รับการฝึกอบรม

LaMDA: เทคโนโลยีการสนทนา ที่ทันสมัยของเราแสดงให้เห็นภาพรวม

รูปแบบภาษา

#language

โมเดลที่ประมาณความน่าจะเป็นของโทเค็นหรือลําดับของโทเค็นที่เกิดขึ้นตามลําดับโทเค็นที่ยาวขึ้น

แบบจําลองภาษาขนาดใหญ่

#language

คําศัพท์อย่างไม่เป็นทางการที่ไม่มีคําจํากัดความที่แน่นอนซึ่งมักจะหมายถึงรูปแบบภาษาที่มีพารามิเตอร์จํานวนมาก โมเดลภาษาขนาดใหญ่บางรูปแบบมีพารามิเตอร์มากกว่า 1 แสนล้านรายการ

M

รูปแบบภาษามาสก์

#language

โมเดลภาษาที่คาดการณ์ความน่าจะเป็นของโทเค็นผู้สมัครที่จะเว้นว่างไว้ในลําดับ ตัวอย่างเช่น โมเดลภาษามาสก์สามารถคํานวณความน่าจะเป็นสําหรับคําที่แนะนําเพื่อแทนที่การขีดเส้นใต้ในประโยคต่อไปนี้

____ ในหมวกกลับมา

โดยปกติแล้ว วรรณกรรมจะใช้สตริง "MASK" แทนที่จะใช้การขีดเส้นใต้ เช่น

"MASK" ในหมวกกลับมา

โมเดลของภาษามาสก์สมัยใหม่ส่วนใหญ่จะเป็นแบบ 2 ทิศทาง

การเรียนรู้เมตา

#language

ชุดย่อยของแมชชีนเลิร์นนิงที่ค้นพบหรือปรับปรุงอัลกอริทึมการเรียนรู้ ระบบการเรียนรู้เมตายังมีจุดประสงค์เพื่อฝึกโมเดลให้เรียนรู้งานใหม่ได้อย่างรวดเร็วจากข้อมูลปริมาณน้อยหรือจากประสบการณ์ที่ได้รับในงานก่อนหน้า โดยทั่วไป อัลกอริทึมการเรียนรู้เมตาจะพยายามทําดังต่อไปนี้

  • ปรับปรุง/เรียนรู้ฟีเจอร์ต่างๆ ที่ทําด้วยมือ (เช่น ตัวเริ่มต้นหรือตัวเพิ่มประสิทธิภาพ)
  • ประหยัดทั้งข้อมูลและประสิทธิภาพในการทํางาน
  • ปรับปรุงข้อมูลทั่วไป

Meta-Learning เกี่ยวข้องกับการเรียนรู้น้อย

รูปแบบ

#language

หมวดหมู่ข้อมูลระดับสูง เช่น ตัวเลข ข้อความ รูปภาพ วิดีโอ และเสียง มี 5 รูปแบบ

การโหลดพร้อมกันของโมเดล

#language

วิธีการปรับขนาดการฝึกหรืออนุมานที่แสดงส่วนต่างๆ ของโมเดลหนึ่งในแต่ละอุปกรณ์ การโหลดพร้อมกันของโมเดลช่วยให้โมเดลที่ใหญ่เกินจะพอดีในอุปกรณ์เดียว

และดูการโหลดข้อมูลพร้อมกันด้วย

การดูแลตัวเองแบบหลายใบหน้า

#language

ส่วนขยายของการดึงดูดตนเองที่ใช้กลไกการดึงดูดตนเองหลายครั้งสําหรับแต่ละตําแหน่งในลําดับอินพุต

Transformers เปิดตัวฟีเจอร์การดึงดูดความสนใจของผู้ใช้แบบหลายหัว

รูปแบบในหลายโมดัล

#language

โมเดลอินพุตและ/หรือเอาต์พุตมีรูปแบบมากกว่า 1 รายการ เช่น ลองนึกถึงโมเดลที่ใช้ทั้งรูปภาพและคําอธิบายภาพ (มี 2 รูปแบบ) เป็นฟีเจอร์ และใส่คะแนนที่แสดงถึงความเหมาะสมในการใช้คําบรรยายวิดีโอกับรูปภาพ ดังนั้น อินพุตของโมเดลนี้จึงมีหลายโมดัลและเอาต์พุตจะเป็นแบบโมดัล

ไม่ใช่

ความเข้าใจภาษาธรรมชาติ

#language

ระบุความตั้งใจของผู้ใช้ตามสิ่งที่พิมพ์หรือพูด ตัวอย่างเช่น เครื่องมือค้นหาจะใช้ความเข้าใจตามธรรมชาติของภาษาเพื่อกําหนดสิ่งที่ผู้ใช้กําลังค้นหาโดยพิจารณาจากสิ่งที่ผู้ใช้พิมพ์หรือพูด

N-gram

#seq
#language

ลําดับของคําตามลําดับ N เช่น โกรธมากคือ 2 กรัม เนื่องจากลําดับมีความเกี่ยวข้องกันอย่างมากจริงๆ เป็น 2 กรัมที่แตกต่างจากโกรธสุดๆ

ไม่ใช่ ชื่อสําหรับ N-gram ประเภทนี้ ตัวอย่าง
2 Bigram หรือ 2 กรัม จะไป ไปกินข้าวเที่ยง กินข้าวเย็น
3 รูปสามเหลี่ยมหรือ 3 กรัม มีเมาส์ตาบอด 3 ตัวมากเกินไป ไม่มีที่เก็บค่าผ่านทาง
4 4 กรัม เดินในสวน ฝุ่นละอองในลม เด็กชายรับประทานถั่วเลนทิล

โมเดลการทําความเข้าใจภาษาธรรมชาติจํานวนมากจะใช้ N-grams เพื่อคาดคะเนคําถัดไปที่ผู้ใช้จะพิมพ์หรือพูด เช่น สมมติว่าผู้ใช้พิมพ์ม่าน 3 ใบ โมเดล NLU ที่ยึดตามรูปสามเหลี่ยมมีแนวโน้มที่จะคาดการณ์ได้ว่าผู้ใช้จะพิมพ์เมาส์ในครั้งถัดไป

คอนทราสต์ N-grams กับ bag of words ซึ่งก็คือชุดคําที่ไม่เรียงลําดับ

NLU

#language

ตัวย่อของการทําความเข้าใจภาษาธรรมชาติ

P

ไปป์ไลน์

#language

รูปแบบการโหลดพร้อมกันของโมเดลที่การประมวลผลโมเดลจะแบ่งเป็นระยะต่อเนื่องกัน และจะดําเนินการในแต่ละขั้นตอนในอุปกรณ์คนละเครื่อง ขณะสตรีม 1 กลุ่ม ระยะก่อนหน้าจะทํางานในกลุ่มถัดไปได้

ดูการฝึกอบรมแบบทีละขั้นด้วย

การสร้างความสนใจด้วยตนเอง (หรือเรียกว่าเลเยอร์การรักษาความสนใจ)

#language

เลเยอร์โครงข่ายระบบประสาทที่เปลี่ยนลําดับการฝัง (เช่น การฝังโทเค็น) เป็นการฝังแบบฝังอีกลําดับหนึ่ง การฝังแต่ละรายการในลําดับเอาต์พุตจะสร้างขึ้นโดยผสานรวมข้อมูลจากองค์ประกอบของลําดับอินพุตผ่านกลไก Attention

ส่วนที่ด้วยตนเองของการสร้างความสนใจตนเองหมายถึงลําดับที่เข้าร่วมด้วยตนเอง ไม่ใช่บริบทอื่นๆ การสร้างความสนใจตนเองเป็นองค์ประกอบสําคัญอย่างหนึ่งในหม้อแปลง และใช้คําศัพท์การค้นหาพจนานุกรม เช่น "คําค้นหา" "คีย์" และ "ค่า"

เลเยอร์ที่ผู้ใช้สนใจขึ้นมาเองต้องเรียงตามลําดับจากข้อมูลที่ป้อน 1 รายการสําหรับแต่ละคํา การป้อนข้อมูลด้วยคําอาจเป็นการฝังง่ายๆ สําหรับแต่ละคําในลําดับอินพุต เครือข่ายจะให้คะแนนความเกี่ยวข้องของคํากับทุกองค์ประกอบในลําดับคําทั้งหมด คะแนนความเกี่ยวข้องจะเป็นตัวกําหนดว่าการนําเสนอคําสุดท้าย จะรวมคําอื่นๆ มากน้อยเพียงใด

ลองดูตัวอย่างประโยคต่อไปนี้

สัตว์ไม่ได้เดินบนถนนเพราะเหนื่อยเกินไป

ภาพประกอบต่อไปนี้ (จาก Transformer: A Novel Neural Network Architecture for Language ทําความเข้าใจว่า) แสดงชั้นความสนใจของตนเอง&#39 รูปแบบการดึงดูดความสนใจสําหรับคําสรรพนาม it ซึ่งแสดงถึงความเข้มของแต่ละคําในแต่ละบรรทัด

ประโยคต่อไปนี้ปรากฏขึ้น 2 ครั้ง: 'สัตว์ไม่ได้ข้ามถนน
          เพราะเหนื่อยเกินไป'  บรรทัดเชื่อมคํา 'it' ในประโยคหนึ่งกับโทเค็น 5 รายการ ('The', 'animal', 'street', 'it' และ
 เครื่องหมายจุด) ในประโยคอื่น  เส้นแบ่งระหว่าง 'it' และ
          ##39;สัตว์' แข็งแรงที่สุด

เลเยอร์ความสนใจด้วยตนเองจะไฮไลต์คําที่เกี่ยวข้องกับ "it" ในกรณีนี้ ชั้นความสนใจได้เรียนรู้วิธีไฮไลต์คําที่มันอ้างอิงถึง โดยกําหนดน้ําหนักที่สูงสุดให้กับสัตว์

สําหรับลําดับของ n โทเค็น การดึงดูดด้วยตนเองจะเปลี่ยนลําดับของการฝัง n ครั้งแยกจากกัน โดยย้ายที่แต่ละตําแหน่งในลําดับ

และดูการดึงดูดและการดึงดูดตนเองแบบหลายส่วนหัวด้วย

การวิเคราะห์ความเห็น

#language

ใช้อัลกอริทึมทางสถิติหรือแมชชีนเลิร์นนิงในการกําหนดทัศนคติโดยรวม ไม่ว่าจะในแง่บวกหรือแง่ลบต่อกลุ่มบริการ ผลิตภัณฑ์ องค์กร หรือหัวข้อ ตัวอย่างเช่น ด้วยการใช้ความเข้าใจด้านภาษาธรรมชาติ อัลกอริทึมจะทําการวิเคราะห์ความเห็นเกี่ยวกับความคิดเห็นแบบข้อความจากหลักสูตรของมหาวิทยาลัยเพื่อกําหนดระดับการศึกษาที่นักศึกษาชอบหรือไม่ชอบในหลักสูตรทั่วไป

งานต่อเนื่องไปจนถึงตามลําดับ

#language

งานที่แปลงลําดับอินพุตของโทเค็นเป็นลําดับเอาต์พุตของโทเค็น ตัวอย่างงานต่อเนื่องถึงลําดับที่ได้รับความนิยม มี 2 ประเภท ได้แก่

  • นักแปล
    • ตัวอย่างอินพุตต่อเนื่อง: "I love you."
    • ตัวอย่างลําดับเอาต์พุต: "Je t'aime."
  • การตอบคําถาม
    • ตัวอย่างลําดับการป้อนข้อมูล: "ฉันต้องมีรถของฉันในนิวยอร์กซิตี้หรือไม่
    • ตัวอย่างลําดับเอาต์พุต: "ไม่ โปรดเก็บรถไว้ที่บ้าน"

ฟีเจอร์แบบกระจัดกระจาย

#language
#fundamentals

ฟีเจอร์ที่มีค่าเป็น 0 หรือว่างเปล่าเป็นส่วนใหญ่ เช่น ฟีเจอร์ที่มีค่า 1 และค่า 0 ล้านเพียงรายการเดียวมีค่าน้อยมาก ในทางตรงกันข้าม ฟีเจอร์หนาแน่นมีค่าที่ยังไม่ได้เป็น 0 หรือว่างเปล่า

ในแมชชีนเลิร์นนิง มีจํานวนฟีเจอร์มากมายที่น่าประหลาดใจ ฟีเจอร์ตามหมวดหมู่มักจะเป็นฟีเจอร์ที่มีอยู่น้อยนิด เช่น ต้นไม้ 300 สายพันธุ์ในป่า ตัวอย่างหนึ่งอาจระบุเพียงต้นเมเปิล หรือตัวอย่างวิดีโอที่เป็นไปได้หลายล้านรายการในคลังวิดีโอ ตัวอย่างหนึ่งอาจระบุแค่ "Casablanca."

ในรูปแบบข้างต้น ปกติแล้วคุณจะแสดงฟีเจอร์ที่ไม่กระจัดกระจายด้วยการเข้ารหัสแบบใช้ครั้งเดียว หากการเข้ารหัสแบบ 1 ชั้นมีขนาดใหญ่ คุณอาจใส่เลเยอร์แบบฝังไว้ที่ด้านบนของการเข้ารหัสแบบ 1 ชั้นเพื่อให้มีประสิทธิภาพมากขึ้น

การนําเสนอแบบกระจัดกระจาย

#language
#fundamentals

การจัดเก็บเฉพาะตําแหน่งขององค์ประกอบที่ไม่ใช่ 0 ในฟีเจอร์การกระจัดกระจาย

เช่น สมมติว่าฟีเจอร์การจัดหมวดหมู่ชื่อ species ระบุต้นไม้ 36 สายพันธุ์ในป่าแห่งใดแห่งหนึ่ง สมมติว่าตัวอย่างแต่ละรายการระบุสายพันธุ์เพียงประเภทเดียว

คุณสามารถใช้เวกเตอร์แบบหัวเดียวเพื่อแสดงสายพันธุ์ต้นไม้ในแต่ละตัวอย่าง เวกเตอร์ที่ได้รับความนิยมแบบหนึ่งจะมี 1 เพียงรายการเดียว (เพื่อแสดงชนิดต้นไม้ที่เจาะจงในตัวอย่างนั้น) และ 0 จํานวน 35 ชนิด (เพื่อแสดงแทนต้นไม้ 35 ชนิดไม่ใช่ในตัวอย่างดังกล่าว) การนําเสนอแบบหนึ่งของ maple ที่อาจเป็นไปได้จะมีลักษณะดังต่อไปนี้

เวกเตอร์ที่ตําแหน่ง 0 ถึง 23 จะเก็บค่า 0 ตําแหน่ง 24 จะเก็บค่า 1 และตําแหน่ง 25 ถึง 35 จะเก็บค่า 0

แต่การนําเสนอที่ไม่สมบูรณ์จะเพียงแค่ระบุตําแหน่งของสายพันธุ์เหล่านั้น หาก maple อยู่ที่อันดับ 24 การกระจัดกระจายของ maple จะเพียงแค่:

24

โปรดสังเกตว่าการนําเสนอที่กระจัดกระจายมีขนาดกะทัดรัดน้อยกว่าการนําเสนอแบบหน้าเดียว

การฝึกอบรมแบบทีละขั้น

#language

กลยุทธ์การฝึกโมเดลตามลําดับขั้นตอนแบบไม่ต่อเนื่อง เป้าหมายอาจเป็นแค่การเร่งกระบวนการฝึก หรือเพื่อให้ได้คุณภาพของโมเดลที่ดีขึ้น

ภาพประกอบของชุดวิธีการแบบต่อเนื่องจะแสดงอยู่ด้านล่าง

  • ขั้นที่ 1 มีเลเยอร์ที่ซ่อนอยู่ 3 ชั้น ขั้นที่ 2 มีเลเยอร์ที่ซ่อนอยู่ 6 ชั้น และขั้นที่ 3 มีเลเยอร์ที่ซ่อนอยู่ 12 ชั้น
  • ขั้นที่ 2 เริ่มต้นการฝึกด้วยน้ําหนักที่เรียนรู้ใน 3 เลเยอร์ที่ซ่อนอยู่ของขั้นที่ 1 ขั้นที่ 3 เริ่มต้นการฝึกด้วยน้ําหนักที่เรียนรู้ใน 6 เลเยอร์ที่ซ่อนอยู่ของขั้นที่ 2

แบ่งเป็น 3 ระยะ ได้แก่ ##39;Stage 1', 'Stage 2' และ 'Stage 3'
          แต่ละขั้นตอนจะมีจํานวนเลเยอร์แตกต่างกัน ระยะที่ 1 มี 3 เลเยอร์ ระยะที่ 2 มี 6 เลเยอร์ และขั้นที่ 3 มี 12 เลเยอร์
          เลเยอร์ 3 ชั้นจากขั้นที่ 1 กลายเป็น 3 ชั้นแรกของขั้นที่ 2
          ในทํานองเดียวกัน ทั้ง 6 เลเยอร์จากเวที 2 กลายเป็นเลเยอร์ 6 ชั้นแรกของขั้นตอน 3

ดูเพิ่มเติมที่หัวข้อไปป์ไลน์

โทเค็น

#language

ในโมเดลภาษา หน่วยอะตอมที่โมเดลฝึกใช้งานและคาดการณ์ โทเค็นมักมีลักษณะอย่างใดอย่างหนึ่งต่อไปนี้

  • คํา เช่น วลี "dogss cats" ประกอบด้วยคํา 3 คํา ได้แก่ "dogs", "like" และ "cats"
  • ตัวอักษร ตัวอย่างเช่น วลี "bike fish" ประกอบด้วยโทเค็นอักขระ 9 ตัว (โปรดทราบว่าช่องว่างจะถือเป็นหนึ่งในโทเค็น)
  • คําย่อย ซึ่งคําๆ เดียวเป็นโทเค็นเดียวหรือหลายโทเค็นก็ได้ คําย่อยประกอบด้วยคําราก คํานําหน้า หรือคําต่อท้าย ตัวอย่างเช่น โมเดลภาษาซึ่งใช้คําย่อยเป็นโทเค็นอาจดูคํา "dog" เป็นโทเค็น 2 คํา (คําราก "dog" และคําต่อท้ายพหูพจน์ "s") โมเดลภาษาเดียวกันอาจดูคําเดี่ยว "taller" เป็นคําย่อย 2 คํา (คําราก "tall" และคําต่อท้าย "er")

ในโดเมนที่อยู่นอกโมเดลภาษา โทเค็นอาจแสดงถึงหน่วยอะตอมประเภทอื่นๆ เช่น ในคอมพิวเตอร์วิทัศน์ โทเค็นอาจเป็นชุดย่อยของรูปภาพ

หม้อแปลง

#language

สถาปัตยกรรมโครงข่ายระบบประสาทที่พัฒนาบน Google อาศัยกลไกการดึงดูดด้วยตนเองเพื่อเปลี่ยนรูปแบบผลลัพธ์ของการฝังอินพุตเป็นลําดับการฝัง เอาต์พุตโดยไม่พึ่งพาการปฏิวัติหรือเครือข่ายโครงข่ายประสาทที่เกิดซ้ํา หม้อแปลงสามารถมองได้ว่าตัวเองมีหลายชั้น

หม้อแปลงอาจรวมถึงสิ่งต่อไปนี้

โปรแกรมเปลี่ยนไฟล์จะแปลงลําดับการฝังให้เป็นลําดับใหม่ที่มีความยาวเท่ากัน โปรแกรมเปลี่ยนไฟล์มี N เลเยอร์ที่เหมือนกันซึ่งแต่ละเลเยอร์มีเลเยอร์ย่อย 2 ชั้น ระบบจะนําเลเยอร์ย่อย 2 ชั้นนี้ไปใช้ในแต่ละตําแหน่งของลําดับการฝัง เพื่อแปลงแต่ละองค์ประกอบของลําดับให้เป็นการฝังแบบใหม่ เลเยอร์ย่อยโปรแกรมเปลี่ยนไฟล์แรกจะรวบรวมข้อมูลจากลําดับอินพุตทั้งหมด เลเยอร์ย่อยของโปรแกรมเปลี่ยนไฟล์ที่สองจะแปลงข้อมูลรวมเป็นการฝังเอาต์พุต

ตัวถอดรหัสจะเปลี่ยนลําดับการฝังอินพุตตามลําดับของการฝังเอาต์พุตที่อาจมีความยาวต่างกัน การถอดรหัสยังรวมเลเยอร์ที่เหมือนกัน N ชั้นที่มีเลเยอร์ย่อย 3 ชั้น ซึ่ง 2 ชั้นนี้คล้ายกับเลเยอร์ย่อยของโปรแกรมเปลี่ยนไฟล์ ตัวถอดรหัสรองที่ 3 รับเอาต์พุตของโปรแกรมเปลี่ยนไฟล์และใช้กลไก Attention-Attention ในการรวบรวมข้อมูลจาก

บล็อกโพสต์ Transformer: A Novel Neural Network Architecture for Language ทําความเข้าใจว่า เป็นข้อมูลเบื้องต้นที่ดีเกี่ยวกับหม้อแปลง

ไทรแกรม

#seq
#language

N-gram ที่ N=3

U

แบบทิศทางเดียว

#language

ระบบที่ประเมินเฉพาะข้อความที่มาก่อนส่วนเป้าหมายของข้อความ ในทางตรงกันข้าม ระบบแบบ 2 ทิศทางจะประเมินทั้งข้อความที่ก่อนและติดตามส่วนข้อความเป้าหมาย ดูรายละเอียดเพิ่มเติมได้ที่แบบ 2 ทิศทาง

รูปแบบภาษาสากล

#language

โมเดลภาษาที่อ้างอิงความน่าจะเป็นของโทเค็นที่ปรากฏก่อนเท่านั้น ไม่ใช่หลังโทเค็นเป้าหมาย ขัดแย้งกับโมเดลภาษาแบบ 2 ทิศทาง

W

การฝังคํา

#language

การแสดงคําแต่ละคําในชุดคําที่อยู่ภายในเวกเตอร์การฝัง กล่าวคือแสดงแต่ละคําเป็นเวกเตอร์ของค่าทศนิยมระหว่าง 0.0 ถึง 1.0 คําที่มีลักษณะคล้ายกัน มีคําที่คล้ายๆ กันมากกว่าคําที่มีความหมายต่างกัน เช่น แครอท ค้อมแดง และแตงกวา มีลักษณะคล้ายคลึงกันค่อนข้างมาก ซึ่งแตกต่างจากภาพเครื่องบิน แว่นกันแดด และสีฟัน