อภิธานศัพท์ของแมชชีนเลิร์นนิง: การประเมินภาษา

หน้านี้มีคำศัพท์ในอภิธานศัพท์ของการประเมินภาษา ดูคำศัพท์ทั้งหมดในอภิธานศัพท์ คลิกที่นี่

A

โปรดทราบ

#language

กลไกที่ใช้ในโครงข่ายระบบประสาทเทียมที่ระบุความสำคัญของคำบางคำหรือบางส่วนของคำ Attention บีบอัดจำนวนข้อมูลที่โมเดลต้องใช้ในการคาดการณ์โทเค็น/คำถัดไป กลไกการดึงดูดความสนใจโดยทั่วไปอาจประกอบด้วยผลรวมถ่วงน้ำหนักของอินพุตชุดหนึ่ง ซึ่งน้ำหนักของอินพุตแต่ละรายการจะคำนวณโดยส่วนอื่นของโครงข่ายประสาท

ดูเพิ่มเติมเกี่ยวกับการจดจ่อด้วยตนเองและการดูแลตนเองแบบหลายหัว ซึ่งเป็นองค์ประกอบสำคัญของตัวเปลี่ยนรูปแบบ

โปรแกรมเปลี่ยนไฟล์อัตโนมัติ

#language
#image

ระบบที่เรียนรู้เพื่อดึงข้อมูลที่สำคัญที่สุดออกจากอินพุต โปรแกรมเปลี่ยนไฟล์อัตโนมัติเป็นการรวมโปรแกรมเปลี่ยนไฟล์และโปรแกรมถอดรหัส โปรแกรมเปลี่ยนไฟล์อัตโนมัติมีกระบวนการสองขั้นตอนต่อไปนี้

  1. โปรแกรมเปลี่ยนไฟล์จะแมปอินพุตกับรูปแบบ (ปกติ) แบบสูญเสียบางส่วน (แบบปานกลาง) แบบสูญเสียบางส่วน
  2. เครื่องมือถอดรหัสจะสร้างอินพุตต้นฉบับเวอร์ชันแบบสูญเสียบางส่วนโดยการแมปรูปแบบที่มีมิติต่ำกว่ากับรูปแบบอินพุตที่มีมิติสูงกว่าเดิม

โปรแกรมเปลี่ยนไฟล์อัตโนมัติจะได้รับการฝึกจากต้นทางถึงปลายทางโดยให้เครื่องมือถอดรหัสพยายามสร้างอินพุตดั้งเดิมจากรูปแบบระดับกลางของโปรแกรมเปลี่ยนไฟล์ให้ใกล้เคียงที่สุด เนื่องจากรูปแบบระดับกลางมีขนาดเล็กกว่า (ขนาดต่ำกว่า) รูปแบบเดิม ตัวเข้ารหัสอัตโนมัติจึงถูกบังคับให้เรียนรู้ว่าข้อมูลใดในอินพุตที่เป็นสิ่งจำเป็น และเอาต์พุตที่ได้จะไม่เหมือนกับอินพุตที่มีอย่างสมบูรณ์

เช่น

  • หากข้อมูลอินพุตเป็นกราฟิก สำเนาที่ไม่ใช่แบบตรงกันทุกประการจะคล้ายกับกราฟิกต้นฉบับ แต่อาจมีการแก้ไขบ้าง ข้อความที่เหมือนกันทุกประการอาจทำให้มีการตัดเสียงรบกวนออกจากกราฟิกต้นฉบับหรือเติมเต็มพิกเซลที่ขาดหายไปบางส่วน
  • หากข้อมูลอินพุตเป็นข้อความ โปรแกรมเปลี่ยนไฟล์อัตโนมัติจะสร้างข้อความใหม่ที่เลียนแบบ (แต่ไม่เหมือนกับ) ข้อความต้นฉบับ

ดูเครื่องมือเข้ารหัสอัตโนมัติรูปแบบต่างๆ

โมเดลแบบถดถอยอัตโนมัติ

#language
#image
#generativeAI

modelที่อนุมานการคาดการณ์โดยอิงตามการคาดการณ์ก่อนหน้านี้ของตนเอง ตัวอย่างเช่น โมเดลภาษาแบบถดถอยอัตโนมัติจะคาดการณ์โทเค็นถัดไปโดยอิงตามโทเค็นที่คาดการณ์ไว้ก่อนหน้านี้ โมเดลภาษาขนาดใหญ่ทั้งหมดที่ใช้ Transformer จะทำงานแบบถดถอยโดยอัตโนมัติ

ในทางตรงกันข้าม โมเดลรูปภาพแบบใช้ GAN มักจะไม่ใช้แบบถดถอยอัตโนมัติเนื่องจากโมเดลจะสร้างรูปภาพในการส่งไปข้างหน้าเพียงครั้งเดียวและไม่ทำซ้ำทีละขั้น อย่างไรก็ตาม โมเดลการสร้างรูปภาพบางรูปแบบจะถดถอยอัตโนมัติเนื่องจากโมเดลจะสร้างรูปภาพในขั้นตอน

B

ถุงคำ

#language

การนำเสนอคำในวลีหรือข้อความ โดยไม่คำนึงถึงลำดับ ตัวอย่างเช่น ถุงคำแสดงถึง วลี 3 วลีต่อไปนี้ที่เหมือนกัน

  • สุนัขกระโดด
  • กระโดดหมา
  • หมากระโดด

แต่ละคำจะจับคู่กับดัชนีในเวกเตอร์แบบกระจัดกระจาย โดยที่เวกเตอร์มีดัชนีสำหรับทุกคำในคำศัพท์ ตัวอย่างเช่น วลี สุนัขกระโดดจะแมปลงในเวกเตอร์ฟีเจอร์ที่มีค่าที่ไม่ใช่ 0 ที่ดัชนีทั้ง 3 รายการที่มีคำว่า the, dog และ jumps ค่าที่ไม่ใช่ 0 อาจเป็นค่าใดก็ได้ต่อไปนี้

  • A 1 เพื่อบ่งบอกว่ามีคำ
  • จำนวนครั้งที่คำๆ หนึ่งปรากฏในกระเป๋า เช่น หากวลีคือ the maroon dog is a dog with maroon fur ทั้ง maroon และ dog ทั้งคู่ก็จะได้เป็น 2 ขณะที่คำอื่นๆ จะหมายถึง 1
  • ค่าอื่นๆ เช่น ลอการิทึมของจำนวนครั้งที่คำปรากฏในกระเป๋า

BERT (โปรแกรมเปลี่ยนไฟล์แบบ 2 ทิศทาง การรับรองจาก Transformers)

#language

สถาปัตยกรรมโมเดลสำหรับการเป็นตัวแทนข้อความ โมเดล BERT ที่ได้รับการฝึกแล้วสามารถทำหน้าที่เป็นส่วนหนึ่งของโมเดลขนาดใหญ่สำหรับการจำแนกข้อความหรืองาน ML อื่นๆ

BERT มีคุณสมบัติดังต่อไปนี้

ตัวแปรของ BERT ได้แก่

  • ALBERT ซึ่งเป็นตัวย่อของ A Light BERT
  • LaBSE

ดูภาพรวมของ BERT ได้ที่ Open Sourcing BERT: การฝึกอบรมล่วงหน้าที่ทันสมัยสำหรับการประมวลผลภาษาธรรมชาติ

แบบ 2 ทิศทาง

#language

คำที่ใช้อธิบายระบบที่ประเมินข้อความที่ทั้งอยู่ข้างหน้าและติดตามส่วนเป้าหมายของข้อความ ในทางตรงกันข้าม ระบบแบบทิศทางเดียวจะประเมินเฉพาะข้อความที่อยู่ข้างหน้าข้อความส่วนเป้าหมายเท่านั้น

ตัวอย่างเช่น ลองพิจารณาโมเดลภาษาที่มีการมาสก์ที่จะต้องกำหนดความน่าจะเป็นสำหรับคำหรือกลุ่มคำที่แสดงถึงการขีดเส้นใต้ในคำถามต่อไปนี้

_____ ที่อยู่กับคุณคืออะไร

โมเดลภาษาแบบทิศทางเดียวจะต้องกำหนดความน่าจะเป็นในบริบทที่ระบุโดยคําว่า "อะไร" "คือ" และ "the" เท่านั้น ในทางกลับกัน โมเดลภาษาแบบ 2 ทิศทางอาจได้รับบริบทจาก "with" และ "you" ซึ่งอาจช่วยให้โมเดลสร้างการคาดการณ์ได้ดีขึ้น

โมเดลภาษาแบบ 2 ทิศทาง

#language

รูปแบบภาษาซึ่งกำหนดความน่าจะเป็นที่โทเค็นที่ระบุจะปรากฏในตำแหน่งหนึ่งๆ ในข้อความที่ตัดตอนมาของข้อความที่ตัดตอนมาตามข้อความก่อนหน้าและข้อความต่อไปนี้

Bigram

#seq
#language

N-gram ที่ N=2

BLEU (ระหว่างการศึกษาวิจัยสองภาษา)

#language

คะแนนระหว่าง 0.0 ถึง 1.0 เป็นคะแนนซึ่งแสดงถึงคุณภาพของคำแปลระหว่างภาษามนุษย์ 2 ภาษา (เช่น ภาษาอังกฤษเป็นภาษารัสเซีย) คะแนน BLEU 1.0 หมายถึงคำแปลสมบูรณ์แบบ คะแนน BLEU ที่ 0.0 หมายความว่าคำแปลแย่มาก

C

โมเดลภาษาทั่วไป

#language

คำพ้องความหมายสำหรับรูปแบบภาษาที่มีทิศทางเดียว

ดูโมเดลภาษาแบบ 2 ทิศทางเพื่อตัดกันวิธีการกำหนดทิศทางต่างๆ ในการประมาณภาษา

การกระตุ้นให้แนวคิดของห่วงโซ่ความคิด

#language
#generativeAI

เทคนิคแบบพรอมต์วิศวกรรมที่สนับสนุนโมเดลภาษาขนาดใหญ่ (LLM) ในการอธิบายเหตุผลทีละขั้นตอน ตัวอย่างเช่น ลองพิจารณาข้อความต่อไปนี้ โดยเน้นที่ประโยคที่ 2

คนขับรถยนต์สามารถขับได้ถึงกี่แรงในระยะทาง 0 ถึง 60 ไมล์ต่อชั่วโมงใน 7 วินาที แสดงการคำนวณที่เกี่ยวข้องทั้งหมดในคำตอบ

การตอบสนองของ LLM น่าจะเป็นดังนี้

  • แสดงลำดับสูตรฟิสิกส์ โดยใส่ค่า 0, 60 และ 7 ไว้ในตำแหน่งที่เหมาะสม
  • อธิบายว่าเหตุใดตัวแปรเหล่านั้นจึงเลือกสูตรเหล่านั้น และความหมายของตัวแปรต่างๆ

การนำเสนอแนวคิดห่วงโซ่ความคิดจะบังคับให้ LLM ทำการคำนวณทั้งหมด ซึ่งอาจนำไปสู่คำตอบที่ถูกต้องยิ่งขึ้น นอกจากนี้ การแสดงข้อความแจ้งเกี่ยวกับห่วงโซ่ความคิดจะช่วยให้ผู้ใช้ตรวจสอบขั้นตอนของ LLM เพื่อพิจารณาว่าคำตอบเหมาะสมหรือไม่

การแยกวิเคราะห์เขตเลือกตั้ง

#language

การแบ่งประโยคออกเป็นโครงสร้างไวยากรณ์ขนาดเล็กลง ("ส่วนประกอบ") ส่วนหลังของระบบ ML เช่น โมเดลการทำความเข้าใจภาษาธรรมชาติ จะแยกวิเคราะห์ส่วนประกอบได้ง่ายกว่าประโยคดั้งเดิม ตัวอย่างเช่น ลองพิจารณาประโยคต่อไปนี้

เพื่อนผมรับเลี้ยงแมว 2 ตัว

โปรแกรมแยกวิเคราะห์เขตเลือกตั้งสามารถแบ่งประโยคนี้เป็น 2 ร่าง ดังนี้

  • เพื่อนของฉันเป็นคำนาม
  • adopted one cats (แมว 2 ตัว) เป็นวลีกริยา

ส่วนประกอบเหล่านี้สามารถแบ่งย่อยไปยังประชาชนที่มีขนาดเล็กกว่าได้ เช่น วลีกริยา

รับเลี้ยงแมว 2 ตัว

สามารถแบ่งย่อยได้อีกดังนี้

  • adopted คือคำกริยา
  • two cats เป็นคำนามอีกวลีหนึ่ง

Crash Blossom

#language

ประโยคหรือวลีที่มีความหมายกำกวม ดอกซากุระบานก่อให้เกิดปัญหาสำคัญในความเข้าใจภาษาธรรมชาติ ตัวอย่างเช่น บรรทัดแรก Red Tape ยกแท่งทรงสูง เป็นลายดอกซากุระบาน เนื่องจากโมเดล NLU สามารถตีความบรรทัดแรกได้ตรงตัวหรือเหมือนจริง

D

เครื่องมือถอดรหัส

#language

โดยทั่วไป ระบบ ML ที่แปลงจากการนำเสนอภายใน แบบการประมวลผล หนาแน่น หรือแบบภายในเป็นการนำเสนอแบบไม่สมบูรณ์หรือแบบภายนอก

ตัวถอดรหัสมักเป็นส่วนประกอบของโมเดลขนาดใหญ่ ซึ่งมักจะจับคู่กับโปรแกรมเปลี่ยนไฟล์

ในงานที่มีลำดับต่อเนื่อง เครื่องมือถอดรหัสจะเริ่มต้นจากสถานะภายในที่โปรแกรมเปลี่ยนไฟล์สร้างขึ้นเพื่อคาดการณ์ลำดับถัดไป

ดูคำจำกัดความของตัวถอดรหัสภายในสถาปัตยกรรม Transformer ได้ที่ Transformer

การตัดเสียงรบกวน

#language

แนวทางทั่วไปสำหรับการเรียนรู้แบบควบคุมดูแลด้วยตนเอง ซึ่งมีลักษณะดังต่อไปนี้

  1. นอยส์ได้รับการเพิ่มลงในชุดข้อมูลให้เป็นจริง
  2. modelพยายามนำเสียงรบกวนออก

การลดเสียงรบกวนช่วยให้เรียนรู้จากตัวอย่างที่ไม่มีป้ายกำกับได้ ชุดข้อมูลเดิมจะทําหน้าที่เป็นเป้าหมายหรือป้ายกํากับ และข้อมูลที่มีเสียงดังเป็นอินพุต

โมเดลภาษาที่มีการมาสก์บางรูปแบบใช้การตัดเสียงรบกวนดังต่อไปนี้

  1. ระบบจะเพิ่มเสียงรบกวนลงในประโยคที่ไม่มีป้ายกำกับอย่างไม่เป็นจริงโดยการมาสก์โทเค็นบางส่วน
  2. โมเดลจะพยายามคาดการณ์โทเค็นดั้งเดิม

ข้อความแจ้งโดยตรง

#language
#generativeAI

คำพ้องความหมายสำหรับ ข้อความแจ้งการตั้งค่าอุปกรณ์พร้อมใช้แบบรวมกลุ่ม

E

แก้ไขระยะทาง

#language

การวัดความคล้ายคลึงกันของสตริงข้อความสองสตริง ในแมชชีนเลิร์นนิง การแก้ไขระยะทางจะมีประโยชน์เนื่องจากคำนวณได้ง่ายและประมวลผลได้ง่าย และยังเป็นวิธีที่มีประสิทธิภาพในการเปรียบเทียบสตริง 2 สตริงที่ทราบกันว่าคล้ายกันหรือหาสตริงที่คล้ายกับสตริงที่ระบุ

ระยะการแก้ไขมีคำจำกัดความอยู่มากมาย แต่ละคำจะใช้การดำเนินการสตริงต่างกัน ตัวอย่างเช่น ระยะ Levenshtein จะพิจารณาการดำเนินการลบ แทรก และแทนที่น้อยที่สุด

เช่น ระยะห่างของ Levenshtein ระหว่างคำว่า "หัวใจ" และ "ลูกดอก" เท่ากับ 3 เนื่องจากการแก้ไข 3 รายการต่อไปนี้เป็นการเปลี่ยนแปลงที่น้อยที่สุดที่จะทำให้คำหนึ่งกลายเป็นอีกคำหนึ่ง

  1. หัวใจ → รัก (แทนที่ "h" ด้วย "d")
  2. deart → dart (ลบ "e")
  3. ลูกศร → ลูกดอก (แทรก "s")

เลเยอร์ที่ฝัง

#language
#fundamentals

เลเยอร์ที่ซ่อนอยู่พิเศษที่ฝึกบนฟีเจอร์เชิงหมวดหมู่มิติสูงเพื่อค่อยๆ เรียนรู้เวกเตอร์ที่ฝังอยู่ที่มีขนาดต่ำกว่า เลเยอร์ที่ฝังอยู่ทำให้โครงข่ายประสาทฝึกได้อย่างมีประสิทธิภาพมากกว่าการฝึกเฉพาะฟีเจอร์เชิงหมวดหมู่ในมิติระดับสูง

ตัวอย่างเช่น ปัจจุบัน Earth รองรับต้นไม้ประมาณ 73,000 ชนิด สมมติว่าสปีชีส์ของต้นไม้เป็นฟีเจอร์ในโมเดลของคุณ เลเยอร์อินพุตของโมเดลจึงมีเวกเตอร์ครั้งเดียว องค์ประกอบยาว 73,000 รายการ ตัวอย่างเช่น baobab อาจแสดงขึ้นประมาณนี้

อาร์เรย์ขององค์ประกอบ 73,000 รายการ องค์ประกอบ 6,232 รายการแรกมีค่าเป็น 0 องค์ประกอบถัดไปมีค่า 1 องค์ประกอบ 66,767 สุดท้ายมีค่าเป็น 0

อาร์เรย์ 73,000 องค์ประกอบยาวมาก หากไม่เพิ่มเลเยอร์ที่ฝังลงในโมเดล การฝึกจะใช้เวลานานมากเนื่องจากมีการคูณ 0 ถึง 72,999 ตัว คุณอาจเลือกเลเยอร์การฝังให้ประกอบด้วย ขนาด 12 ขนาด เลเยอร์ที่ฝังจะค่อยๆ เรียนรู้ เวกเตอร์การฝังใหม่สำหรับต้นไม้แต่ละชนิด

ในบางสถานการณ์ การแฮชเป็นทางเลือกที่สมเหตุสมผลแทนการฝังเลเยอร์

พื้นที่ทำงานที่ฝัง

#language

พื้นที่ของเวกเตอร์ d มิติที่คุณลักษณะมาจากพื้นที่เวกเตอร์มิติสูงจะถูกจับคู่ด้วย ตามหลักการแล้ว พื้นที่ที่ฝังมีโครงสร้างที่ให้ผลทางคณิตศาสตร์ที่มีความหมาย ตัวอย่างเช่น ในพื้นที่การฝังที่ดีที่สุด การเพิ่มและการลบการฝังสามารถแก้โจทย์ในการเปรียบเทียบคำได้

ผลิตภัณฑ์จุดของการฝัง 2 จุดเป็นการวัดความคล้ายคลึงกัน

การฝังเวกเตอร์

#language

หรืออาจกล่าวให้กว้างๆ ก็คืออาร์เรย์ของจำนวนจุดลอยตัวที่ดึงมาจากเลเยอร์ที่ซ่อนไว้ซึ่งอธิบายอินพุตไปยังเลเยอร์ที่ซ่อนอยู่นั้น เวกเตอร์ที่ฝังอยู่บ่อยๆ คืออาร์เรย์ของจำนวนจุดลอยตัวที่ฝึกในเลเยอร์ที่ฝัง ตัวอย่างเช่น สมมติว่าเลเยอร์ที่ฝังต้องเรียนรู้ เวกเตอร์การฝังสำหรับต้นไม้แต่ละชนิด 73,000 ชนิดบนโลก อาร์เรย์ต่อไปนี้อาจเป็นเวกเตอร์ที่ฝังของต้นเบาบับ

อาร์เรย์ขององค์ประกอบ 12 รายการ แต่ละรายการจะมีจำนวนจุดลอยตัวระหว่าง 0.0 ถึง 1.0

เวกเตอร์ที่ฝังอยู่ไม่ใช่ชุดตัวเลขแบบสุ่ม เลเยอร์ที่ฝังจะกำหนดค่าเหล่านี้ผ่านการฝึก ซึ่งคล้ายกับการที่โครงข่ายระบบประสาทเรียนรู้การถ่วงน้ำหนักอื่นๆ ระหว่างการฝึก แต่ละองค์ประกอบของอาร์เรย์คือการให้คะแนนตามลักษณะเฉพาะของสายพันธุ์ต้นไม้ องค์ประกอบใดแสดงลักษณะเฉพาะของต้นไม้ชนิดใด มนุษย์ระบุได้ยากมาก

ส่วนที่เห็นได้ชัดทางคณิตศาสตร์ของเวกเตอร์ที่ฝังอยู่ก็คือรายการที่คล้ายกัน จะมีชุดจำนวนจุดลอยตัวที่คล้ายกัน เช่น ต้นไม้สายพันธุ์ที่คล้ายกันจะมีชุดตัวเลขลอยตัวที่คล้ายกันมากกว่าต้นไม้สายพันธุ์ที่ต่างกัน เรดวูดและสนซีคัวยาเป็นพันธุ์ไม้ที่เกี่ยวข้องกัน ดังนั้นจะมีชุดตัวเลขที่ชี้ให้เห็นซึ่งต่างจากต้นเรดวูดและต้นมะพร้าว ตัวเลขในเวกเตอร์การฝังจะเปลี่ยนไปทุกครั้งที่คุณฝึกโมเดลอีกครั้ง แม้ว่าคุณจะฝึกโมเดลอีกครั้งด้วยอินพุตที่เหมือนกันก็ตาม

โปรแกรมเปลี่ยนไฟล์

#language

โดยทั่วไป ระบบ ML ที่แปลงจากการนำเสนอแบบดิบ แบบกระจัดกระจาย หรือการนำเสนอภายนอก เป็นการนำเสนอแบบดำเนินการภายใน หนาแน่นกว่า หรือเป็นการนําเสนอภายในมากกว่า

โปรแกรมเปลี่ยนไฟล์มักเป็นส่วนประกอบของโมเดลที่ใหญ่กว่า ซึ่งมักจะจับคู่กับเครื่องมือถอดรหัส Transformers บางรุ่นจะจับคู่โปรแกรมเปลี่ยนไฟล์กับตัวถอดรหัส ในขณะที่ Transformer อื่นๆ จะใช้เพียงโปรแกรมเปลี่ยนไฟล์หรือใช้เพียงตัวถอดรหัส

บางระบบใช้เอาต์พุตของโปรแกรมเปลี่ยนไฟล์เป็นอินพุตไปยังเครือข่ายการแยกประเภทหรือเครือข่ายการถดถอย

ในงานที่มีลำดับต่อเนื่อง โปรแกรมเปลี่ยนไฟล์จะจับลำดับอินพุตและแสดงผลสถานะภายใน (เวกเตอร์) จากนั้นเครื่องมือถอดรหัสจะใช้สถานะภายในดังกล่าวเพื่อคาดการณ์ลำดับถัดไป

โปรดดูคำจำกัดความของโปรแกรมเปลี่ยนไฟล์ในสถาปัตยกรรมของ Transformer

F

การแสดงข้อความแจ้งเพียงไม่กี่ช็อต

#language
#generativeAI

ข้อความแจ้งที่มีตัวอย่าง ("น้อย") มากกว่า 1 รายการที่แสดงให้เห็นว่ารูปแบบภาษาขนาดใหญ่ควรตอบสนองอย่างไร เช่น ข้อความแจ้งที่ยาวกว่าต่อไปนี้มี 2 ตัวอย่างที่แสดงวิธีตอบคำถามของโมเดลภาษาขนาดใหญ่

ส่วนต่างๆ ของข้อความแจ้ง Notes
สกุลเงินอย่างเป็นทางการของประเทศที่ระบุคืออะไร คำถามที่ต้องการให้ LLM ตอบ
ฝรั่งเศส: EUR เช่น
สหราชอาณาจักร: GBP อีกตัวอย่างหนึ่ง
อินเดีย: ข้อความค้นหาจริง

โดยทั่วไปข้อความแจ้งเพียงไม่กี่รูปแบบจะให้ผลลัพธ์ที่น่าพอใจมากกว่าข้อความแจ้งแบบช็อตเดียวและข้อความแจ้งแบบช็อตเดียว อย่างไรก็ตาม การแสดงข้อความแจ้งเพียงไม่กี่ช็อต ต้องใช้ข้อความแจ้งที่ยาวกว่านี้

ข้อความแจ้งข้อผิดพลาดแบบระยะเดียวเป็นการเรียนรู้แบบค่อยเป็นค่อยไป ซึ่งนำไปใช้กับการเรียนรู้ตามข้อความแจ้ง

ฟิดเดิล

#language

ไลบรารีการกำหนดค่าแบบ Python เป็นหลักซึ่งตั้งค่าของฟังก์ชันและคลาสโดยไม่ต้องมีโค้ดหรือโครงสร้างพื้นฐานแบบล่วงล้ำ ในกรณีของ Pax และโค้ดเบส ML อื่นๆ ฟังก์ชันและคลาสเหล่านี้หมายถึง models และ training ไฮเปอร์พารามิเตอร์

Fiddle สันนิษฐานว่าโดยทั่วไปฐานของโค้ดแมชชีนเลิร์นนิงจะแบ่งออกเป็นดังนี้

  • โค้ดไลบรารี ซึ่งระบุเลเยอร์และตัวเพิ่มประสิทธิภาพ
  • โค้ด "Glue" ของชุดข้อมูล ซึ่งเรียกไลบรารีและเชื่อมต่อสายทุกอย่างเข้าด้วยกัน

Fiddle จับโครงสร้างการเรียกของโค้ดกาวในรูปแบบที่ยังไม่ประเมินผลและเปลี่ยนแปลงได้

การปรับแต่ง

#language
#image
#generativeAI

บัตรผ่านการฝึกอบรมแบบที่ 2 ที่เจาะจงงานซึ่งทำงานในโมเดลที่ฝึกไว้แล้วเพื่อปรับแต่งพารามิเตอร์สำหรับกรณีการใช้งานที่เฉพาะเจาะจง ตัวอย่างเช่น ลำดับการฝึกแบบเต็มสำหรับโมเดลภาษาขนาดใหญ่บางรายการมีดังนี้

  1. การฝึกล่วงหน้า: ฝึกโมเดลภาษาขนาดใหญ่ในชุดข้อมูลทั่วไปขนาดใหญ่ เช่น หน้า Wikipedia ภาษาอังกฤษทั้งหมด
  2. การปรับแต่ง: ฝึกโมเดลที่ฝึกไว้ล่วงหน้าให้ทำงานที่เฉพาะเจาะจง เช่น การตอบสนองต่อคำค้นหาทางการแพทย์ การปรับแต่งมักประกอบด้วยตัวอย่างหลายร้อยหรือหลายพันรายการที่มุ่งเน้นงานนั้นๆ

อีกตัวอย่างหนึ่ง ลำดับการฝึกทั้งหมดสำหรับโมเดลรูปภาพขนาดใหญ่มีดังนี้

  1. การฝึกล่วงหน้า: ฝึกโมเดลรูปภาพขนาดใหญ่ในชุดข้อมูลรูปภาพทั่วไปขนาดใหญ่ เช่น รูปภาพทั้งหมดในคอมมอน Wikimedia
  2. การปรับแต่ง: ฝึกโมเดลที่ฝึกล่วงหน้าให้ทำงานที่เฉพาะเจาะจง เช่น การสร้างรูปภาพของวาฬเพชฌฆาต

การปรับแต่งอาจผสมผสานกลยุทธ์ต่อไปนี้เข้าด้วยกัน

  • การแก้ไขพารามิเตอร์ที่มีอยู่ของโมเดลที่ฝึกล่วงหน้าทั้งหมด บางครั้งจะเรียกกรณีเช่นนี้ว่าการปรับแต่งเต็มรูปแบบ
  • แก้ไขพารามิเตอร์ที่มีอยู่ของโมเดลที่ฝึกล่วงหน้าบางส่วนเท่านั้น (โดยทั่วไปคือเลเยอร์ที่ใกล้กับเลเยอร์เอาต์พุตมากที่สุด) ขณะเดียวกันก็คงพารามิเตอร์อื่นๆ ที่มีอยู่ไว้ตามเดิม (โดยปกติจะเป็นเลเยอร์ที่อยู่ใกล้เลเยอร์อินพุตมากที่สุด) ดูการปรับแต่งแบบใช้พารามิเตอร์
  • การเพิ่มเลเยอร์ โดยปกติจะอยู่ทับเลเยอร์ที่มีอยู่ซึ่งใกล้กับเลเยอร์เอาต์พุตมากที่สุด

การปรับแต่งเป็นการเรียนรู้จากการโอนรูปแบบหนึ่ง ดังนั้น การปรับแต่งอาจใช้ฟังก์ชันการสูญเสียหรือประเภทโมเดลที่แตกต่างจากที่ใช้ฝึกโมเดลก่อนการฝึก ตัวอย่างเช่น คุณสามารถปรับแต่งโมเดลรูปภาพขนาดใหญ่ที่ฝึกไว้แล้วเพื่อสร้างโมเดลการถดถอยที่แสดงจำนวนนกในอิมเมจอินพุต

เปรียบเทียบความเหมือนและความต่างของการปรับแต่งกับคำศัพท์ต่อไปนี้

เมล็ดแฟล็กซ์

#language

ไลบรารีแบบโอเพนซอร์สที่มีประสิทธิภาพสูงสำหรับการเรียนรู้เชิงลึกซึ่งสร้างต่อยอด JAX Flax มีฟังก์ชันสำหรับการฝึก โครงข่ายระบบประสาทเทียม รวมถึงวิธีประเมินประสิทธิภาพ

ยาง Flaxformer

#language

ห้องสมุดTransformer แบบโอเพนซอร์สที่สร้างมาจาก Flax ซึ่งออกแบบมาสำหรับการประมวลผลภาษาธรรมชาติและการวิจัยหลายรูปแบบเป็นหลัก

G

Generative AI

#language
#image
#generativeAI

สาขาการเปลี่ยนแปลงที่กำลังเป็นรูปธรรมซึ่งไม่มีคำจำกัดความอย่างเป็นทางการ อย่างไรก็ตาม ผู้เชี่ยวชาญส่วนใหญ่เห็นด้วยว่าโมเดล Generative AI สามารถสร้าง ("สร้าง") เนื้อหาที่มีลักษณะดังต่อไปนี้ได้

  • ซับซ้อน
  • สอดคล้องกัน
  • เดิม

ตัวอย่างเช่น โมเดล Generative AI สามารถสร้างเรียงความหรือรูปภาพที่ซับซ้อนได้

เทคโนโลยีรุ่นก่อนๆ เช่น LSTM และ RNN สามารถสร้างเนื้อหาต้นฉบับที่สอดคล้องได้เช่นกัน ผู้เชี่ยวชาญบางคนมองว่าเทคโนโลยีรุ่นก่อนเหล่านี้คือ Generative AI ขณะที่คนอื่นๆ รู้สึกว่า Generative AI ที่แท้จริงต้องใช้เอาต์พุตที่ซับซ้อนกว่าเทคโนโลยีใหม่ๆ ที่เทคโนโลยียุคก่อนทำได้

คอนทราสต์กับ ML แบบคาดคะเน

GPT (Transformer ก่อนการฝึกที่สร้างขึ้น)

#language

กลุ่มโมเดลภาษาขนาดใหญ่ที่อิงตามTransformer ซึ่งพัฒนาโดย OpenAI

ตัวแปรของ GPT ใช้ได้กับวิธีการหลายรูปแบบ ดังนี้

  • การสร้างรูปภาพ (เช่น ImageGPT)
  • การสร้างข้อความสู่รูปภาพ (เช่น DALL-E)

ฮิต

อาการประสาทหลอน

#language

การสร้างเอาต์พุตที่ดูเหมือนเป็นไปได้แต่ไม่ถูกต้องตามข้อเท็จจริงโดยโมเดล generative AI ที่อ้างว่ามีการยืนยันเกี่ยวกับชีวิตจริง ตัวอย่างเช่น โมเดล Generative AI ที่อ้างว่าบารัก โอบามาเสียชีวิตเมื่อปี 1865 เป็นภาพหลอน

I

การเรียนรู้ในบริบท

#language
#generativeAI

คำพ้องความหมายของ few-shot prompting

L

LaMDA (โมเดลภาษาสำหรับแอปพลิเคชันด้านการสนทนา)

#language

โมเดลภาษาขนาดใหญ่ที่อิงตาม Transformer ซึ่งได้รับการพัฒนาโดย Google ซึ่งได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลการสนทนาขนาดใหญ่ที่สร้างการตอบกลับการสนทนาที่สมจริงได้

LaMDA: เทคโนโลยีการสนทนาใหม่ ของเราช่วยให้เห็นภาพรวม

โมเดลภาษา

#language

modelที่ประมาณความน่าจะเป็นของmodelหรือลำดับของโทเค็นที่เกิดขึ้นในลำดับที่ยาวกว่าของโทเค็น

โมเดลภาษาขนาดใหญ่

#language

คำที่ไม่เป็นทางการที่ไม่มีคำจำกัดความที่แน่นอนซึ่งมักจะหมายถึงโมเดลภาษาที่มีพารามิเตอร์จำนวนมาก โมเดลภาษาขนาดใหญ่บางโมเดลมีพารามิเตอร์มากกว่า 1 แสนล้านตัว

M

โมเดลภาษาที่มีการมาสก์

#language

โมเดลภาษาที่คาดการณ์ความน่าจะเป็นของโทเค็นผู้สมัครที่จะเติมในช่องว่างตามลำดับ ตัวอย่างเช่น โมเดลภาษามาสก์สามารถคำนวณความน่าจะเป็นสำหรับคำที่รอเลือกที่จะใช้แทนที่การขีดเส้นใต้ในประโยคต่อไปนี้

____ ในหมวกกลับมาแล้ว

โดยทั่วไปการอ่านเขียนจะใช้สตริง "MASK" แทนขีดเส้นใต้ เช่น

คำว่า "MASK" ในหมวกกลับมาแล้ว

โมเดลภาษาหน้ากากสมัยใหม่ส่วนใหญ่เป็นแบบแบบ 2 ทิศทาง

การเรียนรู้เมตา

#language

ชุดย่อยของแมชชีนเลิร์นนิงที่ค้นพบหรือปรับปรุงอัลกอริทึมการเรียนรู้ ระบบการเรียนรู้เมตายังสามารถมุ่งฝึกโมเดลให้เรียนรู้งานใหม่ได้อย่างรวดเร็วจากข้อมูลปริมาณน้อยหรือจากประสบการณ์ที่ได้รับในงานก่อนหน้า โดยทั่วไปอัลกอริทึมการเรียนรู้เมตาจะพยายามดำเนินการดังต่อไปนี้

  • ปรับปรุง/เรียนรู้ฟีเจอร์ที่ออกแบบเอง (เช่น เครื่องมือเริ่มต้นหรือเครื่องมือเพิ่มประสิทธิภาพ)
  • ประหยัดอินเทอร์เน็ตและประมวลผลได้มากขึ้น
  • ปรับปรุงข้อมูลทั่วไป

การเรียนรู้เมตาเกี่ยวข้องกับการเรียนรู้แบบยิงครั้งเดียว

รูปแบบ

#language

หมวดหมู่ข้อมูลระดับสูง ตัวอย่างเช่น ตัวเลข ข้อความ รูปภาพ วิดีโอ และเสียงก็มีห้าวิธีที่แตกต่างกัน

โมเดลแบบทํางานพร้อมกัน

#language

วิธีปรับขนาดการฝึกหรือการอนุมานที่นำชิ้นส่วนต่างๆ ของmodelหนึ่งมาไว้ในmodelที่แตกต่างกัน การทำโมเดลให้พร้อมกันได้ จะทำให้โมเดลที่ใหญ่เกินไปอยู่ในอุปกรณ์เครื่องเดียวได้

หากต้องการใช้โมเดลคู่ขนาน ระบบมักจะทําสิ่งต่อไปนี้

  1. ชาร์ด (แบ่ง) โมเดลออกเป็นส่วนย่อยๆ
  2. กระจายการฝึกส่วนเล็กๆ เหล่านั้นไปยังโปรเซสเซอร์หลายตัว โปรเซสเซอร์แต่ละตัวจะฝึกส่วนของตัวเองในโมเดล
  3. รวมผลลัพธ์เพื่อสร้างรูปแบบเดียว

การทำงานพร้อมกันของโมเดลทำให้การฝึกช้าลง

โปรดดูข้อมูลพร้อมกันด้วย

การควบคุมด้วยตนเองแบบหลายหัว

#language

ส่วนขยายของการจัดการตนเองที่ใช้กลไกการจัดการตนเองหลายครั้งสำหรับแต่ละตำแหน่งในลำดับอินพุต

Transformers นำเสนอการช่วยตัวเองแบบหลายศีรษะ

รูปแบบแบบหลายโมดัล

#language

โมเดลที่มีอินพุตและ/หรือเอาต์พุตมีรูปแบบมากกว่า 1 รูปแบบ ตัวอย่างเช่น ลองพิจารณาโมเดลที่ใช้ทั้งรูปภาพและคำอธิบายภาพ (2 วิธี) เป็นฟีเจอร์ แล้วแสดงคะแนนที่แสดงว่าคำบรรยายภาพเหมาะกับรูปภาพมากน้อยเพียงใด ดังนั้นอินพุตของโมเดลนี้จะเป็นแบบหลายโมดัลและเอาต์พุตเป็นแบบเดียว

N

ความเข้าใจภาษาธรรมชาติ

#language

การพิจารณาความตั้งใจของผู้ใช้จากสิ่งที่ผู้ใช้พิมพ์หรือพูด ตัวอย่างเช่น เครื่องมือค้นหาจะใช้ความเข้าใจภาษาที่เป็นธรรมชาติเพื่อระบุสิ่งที่ผู้ใช้กำลังค้นหาตามสิ่งที่ผู้ใช้พิมพ์หรือพูด

N กรัม

#seq
#language

ลำดับคำตามลำดับ N คำ ตัวอย่างเช่น แย่จริงคือ 2 กรัม เนื่องจากคำสั่งซื้อมีความเกี่ยวข้อง จริงๆ แล้วมี 2 กรัมต่างจากบ้าจริงๆ

N ชื่อสำหรับ N-gram ประเภทนี้ ตัวอย่าง
2 Bigram หรือ 2-gram ไปไหน ไปกินข้าวเที่ยง กินข้าวเย็น
3 ไตรแกรมหรือ 3 กรัม กินมากเกินไป หนูตาบอด 3 ตัว ตัวกระดิ่ง
4 4 กรัม เดินในสวนสาธารณะ ฝุ่นฟุ้งไปตามสายลม เด็กหนุ่มกินถั่วเลนทิล

โมเดลความเข้าใจภาษาที่เป็นธรรมชาติหลายโมเดลจะอาศัย N-gram ในการคาดคะเนคำถัดไปที่ผู้ใช้จะพิมพ์หรือพูด ตัวอย่างเช่น สมมติว่าผู้ใช้พิมพ์มู่ลี่ 3 จุด โมเดล NLU ที่อิงตาม Trigrams มีแนวโน้มที่จะคาดการณ์ว่าผู้ใช้จะพิมพ์ เมาส์ เป็นลำดับถัดไป

คอนทราสต์ N กรัมกับถุงคำ ซึ่งเป็นชุดคำที่ไม่เรียงลำดับ

NLU

#language

เป็นตัวย่อของการทำความเข้าใจภาษาที่เป็นธรรมชาติ

O

ข้อความแจ้งแบบครั้งเดียว

#language
#generativeAI

ข้อความแจ้งที่มีตัวอย่างที่แสดงให้เห็นว่ารูปแบบภาษาขนาดใหญ่ควรตอบสนองอย่างไร เช่น คำสั่งต่อไปนี้มีตัวอย่างหนึ่งที่แสดงโมเดลภาษาขนาดใหญ่ว่าควรตอบคำถามอย่างไร

ส่วนต่างๆ ของข้อความแจ้ง Notes
สกุลเงินอย่างเป็นทางการของประเทศที่ระบุคืออะไร คำถามที่ต้องการให้ LLM ตอบ
ฝรั่งเศส: EUR เช่น
อินเดีย: ข้อความค้นหาจริง

เปรียบเทียบหาความเหมือนและความแตกต่างของข้อความแจ้งแบบช็อตเดียวกับคำศัพท์ต่อไปนี้

คะแนน

การปรับแต่งประสิทธิภาพพารามิเตอร์

#language
#generativeAI

ชุดเทคนิคในการปรับแต่งโมเดลภาษา (PLM) ก่อนการฝึกขนาดใหญ่อย่างมีประสิทธิภาพมากกว่าการปรับแต่งเต็มรูปแบบ โดยปกติแล้ว การปรับแต่งแบบใช้พารามิเตอร์จะปรับแต่งพารามิเตอร์ได้น้อยกว่าการปรับแต่งแบบเต็มรูปแบบมาก แต่มักจะสร้างโมเดลภาษาขนาดใหญ่ซึ่งทำงานได้ดี (หรือเกือบเท่ากัน) เช่นเดียวกับโมเดลภาษาขนาดใหญ่ที่สร้างขึ้นจากการปรับแต่งทั้งหมด

เปรียบเทียบและปรับคอนทราสต์อย่างมีประสิทธิภาพของพารามิเตอร์กับ

การปรับแต่งอย่างมีประสิทธิภาพพารามิเตอร์เรียกอีกอย่างว่าการปรับแต่งแบบเพิ่มประสิทธิภาพพารามิเตอร์

การใช้ท่อ

#language

รูปแบบขนานของโมเดลที่การประมวลผลของโมเดลจะแบ่งเป็นขั้นตอนต่อเนื่องกัน และแต่ละขั้นจะดำเนินการในอุปกรณ์ที่แตกต่างกัน ในขณะที่ขั้นตอนหนึ่งกำลังประมวลผลกลุ่ม 1 กลุ่ม ระยะก่อนหน้าจะทำงานในกลุ่มถัดไปได้

โปรดดูการฝึกอบรมแบบทีละขั้น

ระบบ PLM

#language
#generativeAI

ตัวย่อของโมเดลภาษาก่อนฝึกแล้ว

การเข้ารหัสตำแหน่ง

#language

เทคนิคในการเพิ่มข้อมูลเกี่ยวกับตำแหน่งของโทเค็นในลำดับไปยังการฝังของโทเค็น โมเดล Transformer ใช้การเข้ารหัสตำแหน่งเพื่อให้เข้าใจความสัมพันธ์ระหว่างส่วนต่างๆ ของลำดับได้ดีขึ้น

การใช้การเข้ารหัสตำแหน่งโดยทั่วไปจะใช้ฟังก์ชันไซนัสออยด์ (โดยเฉพาะอย่างยิ่ง ความถี่และแอมพลิจูดของฟังก์ชันไซนัสซอยด์จะกำหนดโดยตำแหน่งของโทเค็นในลำดับ) เทคนิคนี้จะช่วยให้โมเดล Transformer เรียนรู้การเข้าร่วมส่วนต่างๆ ของลำดับตามตำแหน่ง

โมเดลก่อนการฝึก

#language
#image
#generativeAI

โมเดลหรือคอมโพเนนต์ของโมเดล (เช่น เวกเตอร์การฝัง) ที่ได้รับการฝึกแล้ว บางครั้งคุณจะฟีดเวกเตอร์การฝังก่อนการฝึกลงในโครงข่ายระบบประสาทเทียม แต่บางครั้งโมเดลของคุณจะฝึกตัวเวกเตอร์การฝังเองแทนที่จะฝึกการฝังที่ฝึกล่วงหน้า

คำว่าโมเดลภาษาก่อนการฝึกหมายถึงโมเดลภาษาขนาดใหญ่ที่ผ่านการการฝึกล่วงหน้า

ก่อนการฝึกอบรม

#language
#image
#generativeAI

การฝึกเริ่มต้นของโมเดลบนชุดข้อมูลขนาดใหญ่ โมเดลที่ฝึกไว้แล้วล่วงหน้าบางโมเดลเป็นขนาดใหญ่ที่งุ่มง่ามและมักต้องปรับแต่งผ่านการฝึกเพิ่มเติม เช่น ผู้เชี่ยวชาญ ML อาจฝึกโมเดลภาษาขนาดใหญ่ล่วงหน้าบนชุดข้อมูลข้อความขนาดใหญ่ เช่น ทุกหน้าภาษาอังกฤษใน Wikipedia หลังจากการฝึกล่วงหน้าแล้ว โมเดลผลลัพธ์อาจได้รับการปรับปรุงให้ดีขึ้นโดยใช้เทคนิคต่อไปนี้

ข้อความแจ้ง

#language
#generativeAI

ข้อความที่ป้อนเป็นอินพุตไปยังโมเดลภาษาขนาดใหญ่ เพื่อกำหนดเงื่อนไขให้โมเดลทำงานในลักษณะใดลักษณะหนึ่ง ข้อความแจ้งอาจสั้นแค่วลีหรือยาว (เช่น ข้อความทั้งหมดในนิยาย) ข้อความแจ้งจะแบ่งออกเป็นหลายหมวดหมู่ รวมถึงหมวดหมู่ที่แสดงในตารางต่อไปนี้

หมวดหมู่ของข้อความแจ้ง ตัวอย่าง Notes
คำถาม พิราบบินได้เร็วแค่ไหน
โรงเรียนฝึกอบรม เขียนบทกวีตลกๆ เกี่ยวกับการหากำไร ข้อความแจ้งที่ขอให้โมเดลภาษาขนาดใหญ่ทำบางอย่าง
ตัวอย่าง แปลโค้ด Markdown เป็น HTML เช่น
Markdown: * รายการย่อย
HTML: <ul> <li>รายการย่อย</li> </ul>
ประโยคแรกในข้อความแจ้งตัวอย่างนี้คือคำสั่ง ส่วนที่เหลือของข้อความแจ้งคือตัวอย่าง
บทบาท อธิบายเหตุผลที่มีการใช้การไล่ระดับสีในการฝึกแมชชีนเลิร์นนิงไปยังปริญญาเอกสาขาฟิสิกส์ ส่วนแรกของประโยคคือคำสั่ง วลี "ถึงปริญญาเอกสาขาฟิสิกส์" คือส่วนบทบาท
ป้อนข้อมูลบางส่วนเพื่อให้โมเดลเสร็จสมบูรณ์ นายกรัฐมนตรีของสหราชอาณาจักรอาศัยอยู่ใน ข้อความแจ้งการป้อนข้อมูลบางส่วนอาจสิ้นสุดอย่างกะทันหัน (ดังตัวอย่างนี้) หรือลงท้ายด้วยขีดล่างก็ได้

โมเดล generative AI จะตอบสนองต่อพรอมต์ได้ด้วยข้อความ, โค้ด, รูปภาพ, การฝัง, วิดีโอ และอื่นๆ เกือบทุกอย่าง

การเรียนรู้จากทันท่วงที

#language
#generativeAI

ความสามารถในบางรุ่นที่ช่วยให้ผู้ใช้ปรับพฤติกรรมเพื่อตอบสนองต่อการป้อนข้อความที่กำหนดเอง (ข้อความแจ้ง) ในรูปแบบการเรียนรู้ตามข้อความแจ้งทั่วไป โมเดลภาษาขนาดใหญ่จะตอบสนองต่อพรอมต์ด้วยการสร้างข้อความ ตัวอย่างเช่น สมมติว่าผู้ใช้ป้อนข้อความแจ้งต่อไปนี้

สรุปกฎการเคลื่อนที่ข้อที่ 3 ของนิวตัน

โมเดลที่สามารถเรียนรู้จากข้อความแจ้งไม่ได้มีการฝึกให้ตอบสนองต่อข้อความแจ้งก่อนหน้านี้โดยเฉพาะ แต่โมเดลจะ "รู้" ข้อเท็จจริงมากมายเกี่ยวกับฟิสิกส์ เกี่ยวกับกฎภาษาทั่วไป และข้อมูลเกี่ยวกับสิ่งที่เป็นคำตอบ ที่เป็นประโยชน์โดยทั่วไป ความรู้ดังกล่าวเพียงพอที่จะให้คำตอบที่เป็นประโยชน์ (หวังว่าจะ) ได้ การให้ความคิดเห็นเพิ่มเติมแก่มนุษย์ ("คำตอบนั้นซับซ้อนเกินไป" หรือ "ปฏิกิริยาอะไร") จะช่วยให้ระบบการเรียนรู้แบบแจ้งทันทีบางระบบค่อยๆ ปรับปรุงคำตอบที่เป็นประโยชน์ได้

การออกแบบข้อความแจ้ง

#language
#generativeAI

คำพ้องความหมายสำหรับ prompt Engineering

Prompt Engineering

#language
#generativeAI

ศิลปะในการสร้างข้อความแจ้งที่กระตุ้นให้เกิดคำตอบที่ต้องการจากโมเดลภาษาขนาดใหญ่ มนุษย์ดำเนินการ ทางวิศวกรรมระบบทันที การเขียนพรอมต์ที่มีโครงสร้างดีเป็นส่วนสำคัญในการรับประกันคำตอบที่เป็นประโยชน์จากโมเดลภาษาขนาดใหญ่ การดำเนินการด้านวิศวกรรมทันทีมี ปัจจัยหลายอย่าง เช่น

ดูรายละเอียดเพิ่มเติมเกี่ยวกับการเขียนข้อความแจ้งที่มีประโยชน์ได้ที่ข้อมูลเบื้องต้นเกี่ยวกับการออกแบบข้อความแจ้ง

การออกแบบ Prompt คือคำพ้องความหมายของ Prompt Engineering

แจ้งให้ปรับแต่ง

#language
#generativeAI

กลไกการปรับแต่งพารามิเตอร์อย่างมีประสิทธิภาพที่เรียนรู้ "คำนำหน้า" ซึ่งระบบนำหน้าข้อความแจ้งจริง

การปรับแต่งข้อความแจ้งรูปแบบหนึ่ง บางครั้งเรียกว่าการปรับแต่งคำนำหน้าคือการเพิ่มคำนำหน้าทุกเลเยอร์ ในทางตรงกันข้าม การปรับแต่งข้อความแจ้งส่วนใหญ่ จะเพิ่มคำนำหน้าลงในเลเยอร์อินพุตเท่านั้น

R

การแจ้งบทบาท

#language
#generativeAI

ส่วนที่ไม่บังคับของข้อความแจ้งที่ระบุกลุ่มเป้าหมายสำหรับการตอบสนองของโมเดล generative AI หากไม่มีข้อความแจ้งบทบาท โมเดลภาษาขนาดใหญ่จะให้คำตอบที่อาจมีประโยชน์หรือไม่มีประโยชน์สำหรับผู้ที่ถามคำถาม เมื่อมีพรอมต์บทบาท โมเดลภาษาขนาดใหญ่จะสามารถตอบคำถามที่เหมาะสมและมีประโยชน์มากขึ้นสำหรับกลุ่มเป้าหมายที่เจาะจง เช่น ส่วนข้อความแจ้งบทบาทของข้อความแจ้งต่อไปนี้จะเป็นตัวหนา

  • สรุปบทความนี้สำหรับปริญญาเอกสาขาเศรษฐศาสตร์
  • อธิบายวิธีการทำงานของกระแสน้ำสำหรับเด็ก 10 ปี
  • อธิบายวิกฤตทางการเงินปี 2008 พูดเหมือนพูดกับเด็กเล็ก หรือเจ้าโกลเด้นรีทรีฟเวอร์

S

self-ation (หรือเรียกว่า self-ation Layer)

#language

เลเยอร์โครงข่ายระบบประสาทเทียมที่เปลี่ยนลำดับการฝัง (เช่น การฝังโทเค็น) เป็นการฝังอีกลำดับหนึ่ง การฝังแต่ละรายการในลำดับเอาต์พุตสร้างขึ้นโดยการผสานรวมข้อมูลจากองค์ประกอบของลำดับอินพุตผ่านกลไกความสนใจ

ส่วนการจดจ่อกับตัวเองในการจดจ่อกับตัวเองหมายถึงลำดับที่พูดถึงตัวเอง ไม่ใช่บริบทอื่นๆ บางอย่าง การจดจ่อตัวเองเป็นหนึ่งในองค์ประกอบหลักของ Transformers และใช้คำศัพท์ในการค้นหาพจนานุกรม เช่น "query" "key" และ "value"

เลเยอร์การจดจ่อด้วยตนเองจะเริ่มด้วยลำดับการนำเสนออินพุต 1 รายการต่อ 1 คำ อินพุตที่แทนคำหนึ่งๆ อาจเป็นการฝังที่ไม่ซับซ้อน สำหรับแต่ละคำในลำดับอินพุต เครือข่ายจะให้คะแนนความเกี่ยวข้องของคำนั้นกับทุกองค์ประกอบในลำดับทั้งหมดของคำ คะแนนความเกี่ยวข้องจะกำหนดว่าคำแทนคำดังกล่าวเป็นตัวแทนของคำอื่นๆ มากเพียงใด

ตัวอย่างเช่น ลองพิจารณาประโยคต่อไปนี้

สัตว์ไม่ได้ข้ามถนนเพราะเหนื่อยเกินไป

ภาพประกอบต่อไปนี้ (จาก Transformer: A Novel Neural Network Architecture for Language Understanding) แสดงรูปแบบความสนใจของเลเยอร์ "ความสนใจด้วยตนเอง" สำหรับคำสรรพนาม it โดยสีเข้มของแต่ละบรรทัดเพื่อระบุว่าแต่ละคำมีส่วนในการสื่อข้อความมากน้อยเพียงใด

ประโยคต่อไปนี้ปรากฏขึ้น 2 ครั้งคือ &quot;The Animaterไม่ได้ข้ามถนนเพราะเหนื่อยเกินไป&quot;  บรรทัดจะเชื่อมคำว่า &quot;it&quot; ใน 1 ประโยคกับโทเค็น 5 รายการ (&quot;The&quot;, &quot;animal&quot;, &quot;street&quot;, &quot;it&quot; และเครื่องหมายจุด) ในอีกประโยค  เส้นแบ่งระหว่าง &quot;มัน&quot; กับ &quot;สัตว์&quot; นั้นแรงที่สุด

ชั้น "จดจ่อกับตัวเอง" จะไฮไลต์คำที่เกี่ยวข้องกับ "it" ในกรณีนี้ ชั้นความสนใจเรียนรู้ที่จะไฮไลต์คำที่อาจพูดถึงเพื่อกำหนดน้ำหนักสูงสุดให้กับสัตว์

สำหรับลำดับของ n โทเค็น การจัดการด้วยตัวเองจะเปลี่ยนลำดับของการฝัง n ครั้งต่อๆ ไป 1 ครั้งในแต่ละตำแหน่งในลำดับ

โปรดดูการให้ความสนใจและการให้ความสนใจตัวเองแบบหลายศีรษะ

การวิเคราะห์ความเห็น

#language

ใช้อัลกอริทึมทางสถิติหรือแมชชีนเลิร์นนิงเพื่อกำหนดทัศนคติโดยรวมของกลุ่ม ทั้งในแง่บวกหรือแง่ลบต่อบริการ ผลิตภัณฑ์ องค์กร หรือหัวข้อหนึ่งๆ ตัวอย่างเช่น การใช้ความเข้าใจภาษาธรรมชาติช่วยให้อัลกอริทึมวิเคราะห์ความเห็นที่มีต่อผลตอบกลับที่เป็นข้อความจากหลักสูตรของมหาวิทยาลัยเพื่อระบุระดับการศึกษาที่โดยทั่วไปนักเรียนจะชอบหรือไม่ชอบในหลักสูตรนั้นๆ

งานตามลำดับ

#language

งานที่แปลงลำดับอินพุตของโทเค็นเป็นลำดับเอาต์พุตของโทเค็น เช่น งานที่มีลำดับเรียงตามลำดับที่ได้รับความนิยมมี 2 ประเภท ได้แก่

  • นักแปล
    • ตัวอย่างลำดับอินพุต: "ฉันรักเธอ"
    • ตัวอย่างลำดับเอาต์พุต: "Je t'aime"
  • การตอบคำถาม
    • ตัวอย่างลำดับอินพุต: "ฉันต้องมีรถที่นิวยอร์กซิตี้ไหม"
    • ตัวอย่างลำดับเอาต์พุต: "ไม่ โปรดเก็บรถไว้ที่บ้าน"

ฟีเจอร์แบบกระจัดกระจาย

#language
#fundamentals

ฟีเจอร์ที่มีค่าเป็น 0 หรือว่างเปล่าเป็นหลัก เช่น ฟีเจอร์ที่มีค่า 1 ค่าเดียวแต่มีค่าเป็น 0 ล้านค่าจะมีจำนวนน้อย แต่ในทางตรงกันข้าม ฟีเจอร์แบบหนาแน่นจะมีค่าที่โดยส่วนใหญ่แล้วไม่เท่ากับ 0 หรือว่างเปล่า

ในแมชชีนเลิร์นนิง จำนวนฟีเจอร์ที่ไม่น่าประหลาดใจคือฟีเจอร์ที่มีน้อย ฟีเจอร์ตามหมวดหมู่มักเป็นฟีเจอร์ที่มีน้อย เช่น จากต้นไม้ 300 ชนิดที่เป็นไปได้ในป่า ตัวอย่างหนึ่งอาจระบุเพียงต้นเมเปิลก็ได้ หรือวิดีโอที่เป็นไปได้นับล้านในคลังวิดีโอ ตัวอย่างเดียวอาจหมายถึง "คาซาบลังกา"

ในโมเดล โดยปกติแล้วคุณจะแสดงฟีเจอร์แบบเบาบางโดยใช้การเข้ารหัสแบบ One-Hot หากการเข้ารหัสแบบคลิกเดียวมีขนาดใหญ่ คุณอาจวางเลเยอร์การฝังไว้ที่ด้านบนของการเข้ารหัสแบบ One-Hot เพื่อเพิ่มประสิทธิภาพ

การเป็นตัวแทนบางส่วน

#language
#fundamentals

การจัดเก็บเฉพาะตำแหน่งขององค์ประกอบที่ไม่ใช่ 0 ในฟีเจอร์แบบกระจัดกระจาย

ตัวอย่างเช่น สมมติว่าฟีเจอร์เชิงหมวดหมู่ชื่อ species ระบุพันธุ์ไม้ 36 ชนิดในป่าแห่งใดแห่งหนึ่ง สมมติต่อไปว่าตัวอย่างแต่ละรายการระบุสายพันธุ์เพียงสายพันธุ์เดียว

คุณสามารถใช้เวกเตอร์หนึ่งที่น่าสนใจเพื่อแสดงถึงสปีชีส์ของต้นไม้ในแต่ละตัวอย่าง เวกเตอร์ 1 รายการจะมี 1 เดี่ยว (เพื่อแทนต้นไม้สายพันธุ์ที่เฉพาะเจาะจงในตัวอย่างนั้น) และ 35 0 (เพื่อแสดงถึงประเภทต้นไม้ 35 ชนิดที่ไม่ใช่ในตัวอย่างนั้น) ดังนั้น การแสดงค่าเดี่ยวของ maple อาจมีลักษณะดังนี้

เวกเตอร์ที่ตำแหน่ง 0 ถึง 23 มีค่าเป็น 0, ตำแหน่งที่ 24 มีค่า 1 และตำแหน่งที่ 25 ถึง 35 มีค่าเป็น 0

หรือการแสดงข้อมูลแบบกระจัดกระจายอาจเพียงแค่ระบุตำแหน่งของสิ่งมีชีวิตชนิดใดชนิดหนึ่ง หาก maple อยู่ที่ตำแหน่ง 24 การแสดงที่เบาบางของ maple จะเป็นเพียง

24

โปรดสังเกตว่าการแสดงแบบกระทัดรัดจะกะทัดรัดมากกว่าการนำเสนอแบบแสดงครั้งเดียวมาก

การฝึกอบรมแบบทีละขั้น

#language

กลยุทธ์การฝึกโมเดลตามลำดับที่แยกจากกัน เป้าหมายอาจเป็นการเร่งกระบวนการฝึกหรือเพื่อให้ได้คุณภาพของโมเดลที่ดีขึ้น

ภาพประกอบของแนวทางการกองซ้อนแบบโปรเกรสซีฟแสดงอยู่ที่ด้านล่าง

  • ขั้นที่ 1 มีเลเยอร์ซ่อน 3 เลเยอร์ ขั้นที่ 2 มีเลเยอร์ที่ซ่อนไว้ 6 เลเยอร์ และขั้นที่ 3 มีเลเยอร์ที่ซ่อนไว้ 12 เลเยอร์
  • ขั้นที่ 2 จะเริ่มการฝึกด้วยน้ำหนักที่เรียนรู้จากระยะที่ 1 ที่ซ่อนอยู่ทั้ง 3 ชั้น ขั้นที่ 3 เริ่มต้นการฝึกด้วยน้ำหนักที่เรียนรู้จากขั้นที่ 2 ที่ซ่อนอยู่ 6 ชั้น

สามขั้นตอน ซึ่งมีป้ายกำกับ &quot;ระยะ 1&quot; &quot;ระยะ 2&quot; และ &quot;ระยะ 3&quot;
          แต่ละขั้นตอนมีจำนวนเลเยอร์ต่างกัน ขั้นที่ 1 มี 3 เลเยอร์ ระยะที่ 2 มี 6 เลเยอร์ และขั้นที่ 3 มี 12 เลเยอร์
          3 เลเยอร์จากระยะที่ 1 จะกลายเป็น 3 เลเยอร์แรกของระยะที่ 2
          ในทำนองเดียวกัน 6 เลเยอร์จากขั้นที่ 2 จะกลายเป็น 6 เลเยอร์แรกของ
          ขั้นที่ 3

ดูไปป์ไลน์

T

T5

#language

โมเดลการเรียนรู้ของการโอนจากการแปลงข้อความเป็นข้อความ ซึ่งเปิดตัวโดย Google AI ในปี 2020 T5 คือโมเดลโปรแกรมเปลี่ยนไฟล์ตัวถอดรหัสตามสถาปัตยกรรม Transformer โดยได้รับการฝึกจากชุดข้อมูลที่มีขนาดใหญ่มาก โดยมีประสิทธิภาพสูงสำหรับงานด้านการประมวลผลภาษาธรรมชาติต่างๆ เช่น การสร้างข้อความ การแปลภาษา และการตอบคำถามในลักษณะการสนทนา

T5 ได้ชื่อมาจาก T ทั้ง 5 ตัวใน "Text-to-Text Transfer Transformer"

T5X

#language

เฟรมเวิร์กแมชชีนเลิร์นนิงแบบโอเพนซอร์สที่ออกแบบมาเพื่อสร้างและฝึกโมเดลการประมวลผลภาษาธรรมชาติ (NLP) ขนาดใหญ่ T5 ใช้งานบนฐานของโค้ด T5X (ซึ่งสร้างขึ้นบน JAX และ Flax)

อุณหภูมิ

#language
#image
#generativeAI

hyperparameter ที่ควบคุมระดับความสุ่มของเอาต์พุตของโมเดล อุณหภูมิที่สูงขึ้นจะส่งผลให้มีเอาต์พุตแบบสุ่มมากขึ้น ส่วนอุณหภูมิที่ต่ำลงจะทำให้เอาต์พุตแบบสุ่มน้อยลง

การเลือกอุณหภูมิที่ดีที่สุดขึ้นอยู่กับแอปพลิเคชันเฉพาะและคุณสมบัติที่ต้องการของเอาต์พุตโมเดล เช่น คุณอาจเพิ่มอุณหภูมิเมื่อสร้างแอปพลิเคชันที่สร้างเอาต์พุตครีเอทีฟโฆษณา ในทางกลับกัน คุณอาจลดอุณหภูมิลงเมื่อสร้างโมเดลที่แยกประเภทรูปภาพหรือข้อความเพื่อปรับปรุงความแม่นยำและความสอดคล้องของโมเดล

อุณหภูมิมักจะใช้กับ softmax

ช่วงข้อความ

#language

ช่วงดัชนีอาร์เรย์ที่เชื่อมโยงกับส่วนย่อยที่เฉพาะเจาะจงของสตริงข้อความ ตัวอย่างเช่น คำว่า good ในสตริง Python s="Be good now" จะใช้ช่วงของข้อความตั้งแต่ 3 ถึง 6

โทเค็น

#language

ในโมเดลภาษา หน่วยขนาดเล็กที่โมเดลกำลังฝึกและทำการคาดการณ์ โทเค็นมีลักษณะอย่างใดอย่างหนึ่งต่อไปนี้

  • คำ ตัวอย่างเช่น วลี "สุนัขอย่างแมว" ประกอบด้วยโทเค็น 3 คำ ได้แก่ "สุนัข" "ชอบ" และ "แมว"
  • ตัวละคร เช่น วลี "ปลาจักรยาน" ประกอบด้วยโทเค็นอักขระ 9 ตัว (โปรดทราบว่าพื้นที่ว่างจะนับเป็นโทเค็น)
  • คำย่อยที่คำเดียวอาจเป็นโทเค็นเดียวหรือหลายโทเค็นก็ได้ คำย่อยประกอบด้วยคําราก คํานําหน้า หรือคําต่อท้าย ตัวอย่างเช่น โมเดลภาษาที่ใช้คำย่อยเป็นโทเค็นอาจมองคำว่า "สุนัข" เป็นโทเค็น 2 ตัว (คำราก "สุนัข" และคำต่อท้ายพหูพจน์ "s") โมเดลภาษาเดียวกันนั้นอาจมองคำเดียวว่า "taller" เป็น 2 คำย่อย (คำราก "tall" และคำต่อท้าย "er")

ในโดเมนนอกโมเดลภาษา โทเค็นอาจเป็นตัวแทนของหน่วยอะตอมประเภทอื่นๆ เช่น ในคอมพิวเตอร์วิทัศน์ โทเค็นอาจเป็นชุดย่อยของรูปภาพ

หม้อแปลง

#language

สถาปัตยกรรมโครงข่ายระบบประสาทเทียมที่พัฒนาที่ Google ซึ่งอาศัยกลไกการจดจ่อด้วยตนเองเพื่อเปลี่ยนลำดับของการฝังอินพุตเป็นลำดับการฝังเอาต์พุตโดยไม่ต้องใช้คอนโวลูชันหรือโครงข่ายประสาทแบบเกิดซ้ำ Transformer อาจดูเหมือนเป็นเลเยอร์ซ้อนกันของชั้นสนใจตัวเอง

หม้อแปลงสามารถแสดงสิ่งต่อไปนี้

โปรแกรมเปลี่ยนไฟล์จะเปลี่ยนลำดับการฝังเป็นลำดับใหม่ที่มีความยาวเท่าเดิม โปรแกรมเปลี่ยนไฟล์จะมีเลเยอร์ที่เหมือนกัน N เลเยอร์ โดยแต่ละเลเยอร์จะมีเลเยอร์ย่อย 2 เลเยอร์ เลเยอร์ย่อย 2 ชั้นนี้จะใช้ที่แต่ละตำแหน่งของลำดับการฝังอินพุต ซึ่งจะเปลี่ยนองค์ประกอบแต่ละรายการของลำดับเป็นการฝังใหม่ ชั้นย่อยของโปรแกรมเปลี่ยนไฟล์แรกจะรวบรวมข้อมูลจากลำดับอินพุตต่างๆ ชั้นย่อยของโปรแกรมเปลี่ยนไฟล์ที่สองจะเปลี่ยนข้อมูลแบบรวมเป็นการฝังเอาต์พุต

เครื่องมือถอดรหัสจะเปลี่ยนลำดับของการฝังอินพุตเป็นลำดับการฝังเอาต์พุต โดยอาจมีความยาวต่างกันไป เครื่องมือถอดรหัสยังมีเลเยอร์ที่เหมือนกัน N เลเยอร์ที่มีเลเยอร์ย่อย 3 เลเยอร์ ซึ่งมี 2 เลเยอร์คล้ายกับเลเยอร์ย่อยของโปรแกรมเปลี่ยนไฟล์ ชั้นย่อยถอดรหัสที่ 3 จะใช้เอาต์พุตของโปรแกรมเปลี่ยนไฟล์และใช้กลไกการจัดการตนเองในการรวบรวมข้อมูล

บล็อกโพสต์ Transformer: A Novel Neural Network Architecture for Language Understanding แนะนำให้รู้จัก Transformers ไว้เป็นอย่างดี

Trigram

#seq
#language

N-gram ที่มี N=3

U

แบบทางเดียว

#language

ระบบที่ประเมินเฉพาะข้อความที่อยู่ข้างหน้าข้อความส่วนเป้าหมายเท่านั้น ในทางตรงกันข้าม ระบบแบบ 2 ทิศทางจะประเมินทั้งข้อความที่อยู่ข้างหน้าและตามด้วยส่วนเป้าหมายของข้อความ ดูรายละเอียดเพิ่มเติมได้ที่แบบแบบ 2 ทิศทาง

รูปแบบภาษาแบบทิศทางเดียว

#language

รูปแบบภาษาที่อิงความน่าจะเป็นจากโทเค็นที่ปรากฏก่อนไม่ใช่หลังโทเค็นเป้าหมายเท่านั้น คอนทราสต์กับรูปแบบภาษาแบบ 2 ทิศทาง

V

เครื่องเข้ารหัสอัตโนมัติรูปแบบต่างๆ (VAE)

#language

ประเภทของ autoencoder ที่ใช้ประโยชน์จากความคลาดเคลื่อนระหว่างอินพุตและเอาต์พุตเพื่อสร้างอินพุตเวอร์ชันที่มีการปรับเปลี่ยน โปรแกรมเปลี่ยนไฟล์อัตโนมัติรูปแบบต่างๆ มีประโยชน์สำหรับ generative AI

VAE จะอิงตามการอนุมานตัวแปร ซึ่งเป็นเทคนิคในการประมาณพารามิเตอร์ของรูปแบบความน่าจะเป็น

W

การฝังคำ

#language

แสดงแต่ละคำในชุดคำภายในเวกเตอร์การฝัง ซึ่งก็คือการแสดงแต่ละคำเป็นเวกเตอร์ของค่าจุดลอยตัวระหว่าง 0.0 ถึง 1.0 คำที่มีความหมายคล้ายคลึงกัน จะมีการนำเสนอที่คล้ายกันมากกว่าคำที่มีความหมายต่างกัน เช่น แครอท คึ่นช่าย และแตงกวาจะมีการนำเสนอที่ค่อนข้างคล้ายกัน ซึ่งแตกต่างอย่างมากจากการนำเสนอเครื่องบิน แว่นกันแดด และยาสีฟัน

Z

ข้อความแจ้ง Zero-shot

#language
#generativeAI

ข้อความแจ้งที่ไม่แสดงตัวอย่างวิธีที่คุณต้องการให้รูปแบบภาษาขนาดใหญ่ตอบสนอง เช่น

ส่วนต่างๆ ของข้อความแจ้ง Notes
สกุลเงินอย่างเป็นทางการของประเทศที่ระบุคืออะไร คำถามที่ต้องการให้ LLM ตอบ
อินเดีย: ข้อความค้นหาจริง

โมเดลภาษาขนาดใหญ่อาจตอบกลับด้วยสิ่งต่อไปนี้

  • รูปี
  • INR
  • รูปีอินเดีย
  • รูปี
  • รูปีอินเดีย

ถูกทุกข้อ แต่คุณอาจต้องการรูปแบบที่เจาะจง

เปรียบเทียบความเหมือนและความต่างของการแสดงข้อความแจ้งแบบภาพศูนย์กับข้อความต่อไปนี้