อภิธานศัพท์เกี่ยวกับแมชชีนเลิร์นนิง: การประเมินภาษา

หน้านี้มีคําศัพท์ในอภิธานศัพท์การประเมินภาษา สําหรับอภิธานศัพท์ทั้งหมด คลิกที่นี่

โปรดทราบ

#language

กลไกที่ใช้ในเครือข่ายระบบประสาทซึ่งแสดงถึงความสําคัญของคําบางคําหรือบางส่วนของคํา ความสนใจจะบีบอัดจํานวนข้อมูลที่โมเดลต้องการเพื่อคาดการณ์โทเค็น/คําถัดไป กลไกความสนใจทั่วไปอาจประกอบด้วยผลรวมถ่วงน้ําหนักในชุดอินพุต โดยน้ําหนักสําหรับอินพุตแต่ละรายการจะคํานวณด้วยส่วนอื่นๆ ของเครือข่ายระบบประสาท

และดูการดูแลตัวเองและการดูแลตนเองแบบหลายศีรษะ ซึ่งเป็นองค์ประกอบสําคัญของหม้อแปลง

ตัวเข้ารหัสอัตโนมัติ

#language
#image

ระบบที่เรียนรู้การดึงข้อมูลที่สําคัญที่สุดจากอินพุต โปรแกรมเปลี่ยนไฟล์อัตโนมัติเป็นการรวมโปรแกรมเปลี่ยนไฟล์และเครื่องมือถอดรหัสเข้าด้วยกัน ตัวเข้ารหัสอัตโนมัติจะใช้กระบวนการ 2 ขั้นตอนดังต่อไปนี้

  1. โปรแกรมเปลี่ยนไฟล์จะจับคู่อินพุตกับรูปแบบ (ระดับกลาง) แบบไม่สูญเสียข้อมูล (ระหว่างกลาง)
  2. เครื่องมือถอดรหัสจะสร้างเวอร์ชันดั้งเดิมของอินพุตต้นฉบับโดยการแมปรูปแบบมิติข้อมูลต่ํากว่ากับอินพุตอินพุตที่มีมิติข้อมูลสูงกว่า

ตัวเข้ารหัสอัตโนมัติจะได้รับการฝึกจากต้นทางถึงปลายทางโดยการถอดรหัสจะถอดรหัสอินพุตเดิมจากรูปแบบกลางของโปรแกรมเปลี่ยนไฟล์ให้ใกล้เคียงที่สุด เนื่องจากรูปแบบขั้นกลางมีขนาดเล็กกว่า (มิติที่ต่ํากว่า) กว่ารูปแบบดั้งเดิม เครื่องมือเข้ารหัสอัตโนมัติจึงถูกบังคับให้เรียนรู้ว่าข้อมูลใดเป็นอินพุตที่จําเป็น และเอาต์พุตจะไม่เหมือนกับอินพุตทุกประการ

เช่น

  • หากข้อมูลที่ป้อนเป็นกราฟิก สําเนาที่ไม่เหมือนกันทุกประการ จะเหมือนกับกราฟิกต้นฉบับ แต่ค่อนข้างได้รับการแก้ไข เช่น สําเนาที่ไม่เหมือนกันอาจนํานอยส์ออกจากกราฟิกต้นฉบับหรือเติมพิกเซลที่หายไปบางส่วน
  • หากข้อมูลที่ป้อนเป็นข้อความ โปรแกรมเข้ารหัสอัตโนมัติจะสร้างข้อความใหม่ที่เลียนแบบ (แต่เหมือนกับ) ข้อความต้นฉบับ

ดูตัวเข้ารหัสอัตโนมัติแบบหลายตัวแปร

โมเดลการถดถอยอัตโนมัติ

#language
#image
#สร้างด้วย AI

โมเดลที่อนุมานการคาดการณ์โดยอิงจากการคาดการณ์ก่อนหน้า ตัวอย่างเช่น โมเดลการเกิดปัญหาซ้ําอัตโนมัติจะคาดการณ์โทเค็นถัดไปโดยอิงตามโทเค็นที่คาดคะเนไว้ก่อนหน้านี้ โมเดลภาษาขนาดใหญ่ที่ใช้ Transformer ทั้งหมดจะทํางานโดยอัตโนมัติ

ในทางตรงกันข้าม โมเดลรูปภาพแบบ GAN มักจะไม่ถดถอยโดยอัตโนมัติ เนื่องจากสร้างรูปภาพในการส่งต่อครั้งเดียวและไม่ทําซ้ําหลายครั้ง อย่างไรก็ตาม โมเดลการสร้างรูปภาพบางโมเดลจะถดถอยโดยอัตโนมัติเนื่องจากโมเดลจะสร้างรูปภาพในขั้นตอน

ถุงคําศัพท์

#language

การแทนคําในวลีหรือวลี โดยไม่คํานึงถึงลําดับของคํา ตัวอย่างเช่น กลุ่มคําจะแสดงวลี 3 วลีต่อไปนี้ที่เหมือนกัน

  • หมากระโดด
  • กระโดดสุนัขตัวนั้น
  • สุนัขกระโดด

คําแต่ละคําจะจับคู่กับดัชนีในเวกเตอร์บางส่วน ซึ่งเวกเตอร์จะมีดัชนีสําหรับทุกคําในคําศัพท์ เช่น วลี dogsjump จะกลายเป็นเวกเตอร์เวกเตอร์ที่มีค่าไม่เท่ากับ 0 ที่ดัชนี 3 ดัชนีซึ่งตรงกับคําว่า the, dog และ jumps ค่าที่ไม่ใช่ 0 อาจเป็นค่าใดก็ได้ต่อไปนี้

  • เลข 1 จะใช้ระบุคํา
  • จํานวนครั้งที่คําปรากฏในกระเป๋า เช่น หากวลีคือสุนัขสีน้ําตาลแดงเป็นสุนัขขนฟู ทั้งสีน้ําตาลแดงและสุนัขจะแทนค่าเป็น 2 ขณะที่คําอื่นๆ จะแทนเป็น 1
  • ค่าอื่นๆ เช่น ลอการิทึมของจํานวนครั้งที่คําปรากฏในกระเป๋า

BERT (โปรแกรมเปลี่ยนไฟล์แบบ 2 ทิศทาง จาก Transformers)

#language

สถาปัตยกรรมโมเดลสําหรับการนําเสนอของข้อความ โมเดล BERT ที่ฝึกแล้วจะทํางานเป็นส่วนหนึ่งของโมเดลขนาดใหญ่ขึ้นสําหรับการจัดประเภทข้อความหรืองาน ML อื่นๆ ได้

BERT มีลักษณะต่อไปนี้

ตัวแปรของ BERT ได้แก่

  • ALBERT ซึ่งเป็นตัวย่อของ A Light BERT
  • LaBSE

ดูโอเพ่นซอร์สของ BERT: การฝึกอบรมศิลปะขั้นสูงสําหรับการประมวลผลภาษาธรรมชาติสําหรับภาพรวมของ BERT

Bigram

#seq
#language

N-gram ซึ่ง N=2

แบบ 2 ทิศทาง

#language

คําที่ใช้อธิบายระบบซึ่งประเมินข้อความที่ทั้งอยู่ก่อนและตามส่วนเป้าหมายของข้อความ ในทางตรงกันข้าม ระบบแบบทิศทางเดียวจะประเมินเฉพาะข้อความที่มาก่อนส่วนของข้อความเป้าหมาย

ตัวอย่างเช่น ลองใช้โมเดลภาษาที่มาสก์ ซึ่งต้องกําหนดความน่าจะเป็นของคํานั้นๆ หรือคําที่เป็นตัวแทนการขีดเส้นใต้ในคําถามต่อไปนี้

_____ กับคุณคืออะไร

โมเดลของภาษาใดภาษาหนึ่งจะต้องมีพื้นฐานความน่าจะเป็นของตัวเองเฉพาะในบริบทของคําว่า "What", "is" และ "the" เท่านั้น ในทางกลับกัน โมเดลภาษา 2 ทิศทางอาจได้รับบริบทจาก "with" และ "you" ซึ่งอาจช่วยให้โมเดลสร้างการคาดการณ์ที่ดีขึ้นได้

โมเดลภาษาแบบ 2 ทิศทาง

#language

โมเดลภาษาที่กําหนดความน่าจะเป็นที่โทเค็นที่ระบุจะปรากฏในตําแหน่งที่กําหนดในข้อความที่ตัดตอนมาตามข้อความก่อนหน้าและกําลังติดตาม

BLEU (การประเมินการประเมินผลสองภาษา)

#language

มีคะแนนระหว่าง 0.0 ถึง 1.0 ซึ่งแสดงคุณภาพของการแปลระหว่างภาษามนุษย์ 2 ภาษา (เช่น ระหว่างภาษาอังกฤษและรัสเซีย) คะแนน BLEU 1.0 แสดงว่าเป็นคําแปลที่สมบูรณ์แบบ คะแนน BLEU 0.0 หมายถึงคําแปลยอดเยี่ยม

รูปแบบเชิงเหตุผล

#language

คําพ้องความหมายสําหรับรูปแบบภาษาสากล

ดูโมเดลภาษาแบบ 2 ทิศทาง เพื่อสร้างคอนทราสต์ในแนวทางต่างๆ ในการประมาณภาษา

กระตุ้นความคิด

#language
#สร้างด้วย AI

เทคนิควิศวกรรมข้อความแจ้งที่สนับสนุนโมเดลภาษาขนาดใหญ่ (LLM) ให้อธิบายเหตุผลไปทีละขั้นตอน ตัวอย่างเช่น พิจารณาข้อความต่อไปนี้โดยให้ความสนใจเป็นพิเศษกับประโยคที่ 2

รถยนต์ 1 คันจะได้รับประสบการณ์ขับกี่ g ภายใน 7 วินาทีต่อชั่วโมงจาก 0 เป็น 60 ไมล์ต่อชั่วโมง ในคําตอบ ให้แสดงการคํานวณที่เกี่ยวข้องทั้งหมด

การตอบสนองของ LLM มีความเป็นไปได้ดังนี้

  • แสดงลําดับของสูตรฟิสิกส์ โดยการบวกค่า 0, 60 และ 7 ในตําแหน่งที่เหมาะสม
  • อธิบายว่าเหตุใดจึงเลือกสูตรเหล่านั้นและความหมายของตัวแปรต่างๆ

การกระตุ้นความคิดอย่างมีประสิทธิภาพจะบังคับให้ LLM ทําการคํานวณทั้งหมด ซึ่งอาจนําไปสู่คําตอบที่ถูกต้องมากขึ้น นอกจากนี้ การคิดเชิงห่วงโซ่ ความคิดจะเปิดโอกาสให้ผู้ใช้ตรวจสอบขั้นตอนของ LLM เพื่อตัดสินว่าคําตอบใดมีความเหมาะสม

การแยกวิเคราะห์เขตเลือกตั้ง

#language

การแบ่งประโยคออกเป็นโครงสร้างไวยากรณ์ขนาดเล็ก ("องค์ประกอบ") ส่วนถัดไปของระบบ ML เช่น โมเดลการทําความเข้าใจภาษาธรรมชาติ จะแยกวิเคราะห์องค์ประกอบต่างๆ ได้ง่ายกว่าประโยคเดิม ตัวอย่างเช่น ลองพิจารณาประโยคต่อไปนี้

เพื่อนรับเลี้ยงแมว 2 ตัว

โปรแกรมแยกวิเคราะห์เขตเลือกตั้งนี้สามารถแบ่งประโยคออกเป็นสองส่วนดังนี้:

  • เพื่อนของฉันเป็นคํานาม
  • ใช้แมว 2 ตัวเป็นวลีคํากริยา

เขตเลือกตั้งเหล่านี้สามารถแบ่งย่อยออกเป็นองค์ประกอบย่อยๆ ได้ ตัวอย่างเช่น วลีที่มีคํากริยา

รับเลี้ยงแมว 2 ตัว

สามารถแยกย่อยเพิ่มเติมเป็น:

  • นํามาใช้งานเป็นคํากริยา
  • แมวสองตัว เป็นคํานามอีกคําหนึ่ง

ดอกไม้ตก

#language

ประโยคหรือประโยคที่มีความหมายกํากวม ดอกไม้บานสะเทือนใจนําเสนอปัญหาร้ายแรงในการทําความเข้าใจภาษาธรรมชาติ ตัวอย่างเช่น บรรทัดแรก Red Tape Holds Up Skyscraper เป็นดอกไม้บานเนื่องจากโมเดล NLU สามารถตีความบรรทัดแรกได้ในทันทีหรือโดยการไ่ม่

เครื่องมือถอดรหัส

#language

โดยทั่วไป ระบบ ML ใดๆ ที่แปลงจากตัวแทนที่ผ่านการประมวลผล หนาแน่น หรือภายในเป็นข้อมูลดิบ ข้อมูลน้อย หรือเป็นการนําเสนอภายนอก

เครื่องมือถอดรหัสมักเป็นส่วนประกอบของโมเดลที่ใหญ่กว่า ซึ่งมักจะจับคู่กับโปรแกรมเปลี่ยนไฟล์

ในงานลําดับผลลัพธ์ตามลําดับ เครื่องมือถอดรหัสจะเริ่มต้นด้วยสถานะภายในที่โปรแกรมเปลี่ยนไฟล์สร้างขึ้นเพื่อคาดคะเนลําดับถัดไป

โปรดดู Transformer สําหรับคําจํากัดความของเครื่องมือถอดรหัสในสถาปัตยกรรมของ Transformer

กําลังลดเสียง

#language

วิธีทั่วไปในการเรียนรู้ด้วยตนเองมีดังนี้

  1. Noise จะถูกเพิ่มลงในชุดข้อมูล
  2. รุ่นจะพยายามนําเสียงรบกวนออก

การลดเสียงรบกวนช่วยให้เรียนรู้จากตัวอย่างที่ไม่มีป้ายกํากับ ชุดข้อมูลเดิมทําหน้าที่เป็นเป้าหมายหรือป้ายกํากับ และข้อมูลเสียงรบกวนเป็นอินพุต

โมเดลภาษาที่มาสก์บางรายการจะใช้การลดเสียง ดังนี้

  1. ระบบจะเพิ่มเสียงรบกวนในประโยคที่ไม่มีป้ายกํากับด้วยวิธีปลอมโดยการมาสก์โทเค็นบางส่วน
  2. โมเดลจะพยายามคาดการณ์โทเค็นเดิม

ข้อความแจ้งโดยตรง

#language
#สร้างด้วย AI

คําพ้องความหมายสําหรับข้อความเตือนแบบ 0 ภาพ

แก้ไขระยะทาง

#language

การวัดความคล้ายคลึงกันของสตริงข้อความ 2 สตริง ในแมชชีนเลิร์นนิง ระยะทางการแก้ไขมีประโยชน์เพราะสามารถคํานวณได้ง่ายและสะดวก แถมยังเป็นวิธีที่มีประสิทธิภาพในการเปรียบเทียบสตริง 2 สตริงที่เป็นที่คล้ายกันหรือหาสตริงที่คล้ายกับสตริงที่กําหนด

ระยะทางการแก้ไขมีอยู่หลายคําจํากัดความ แต่ละสตริงใช้การดําเนินการของสตริงที่ต่างกัน เช่น ระยะทางเลเวนทรี จะพิจารณาถึงการลบ แทรก และการแทนที่น้อยที่สุด

ตัวอย่างเช่น ระยะทาง Levenshtein ระหว่างคําว่า "หัวใจ" และ "ลูกดอก" เท่ากับ 3 เนื่องจากการแก้ไข 3 รายการต่อไปนี้เป็นการเปลี่ยนแปลงที่น้อยที่สุดในการเปลี่ยนคําหนึ่งเป็นอีกคํา

  1. หัวใจ → ลดระดับ (แทน "h" ด้วย "d")
  2. deart → ลูกดอก (ลบ "e")
  3. ลูกดอก → ลูกดอก (แทรก "s")

การฝังเลเยอร์

#language
#fundamentals

เลเยอร์ที่ซ่อนอยู่แบบพิเศษที่ฝึกบนฟีเจอร์เชิงหมวดหมู่แบบมิติสูงเพื่อค่อยๆ เรียนรู้เวกเตอร์ที่ฝังมิติข้อมูล เลเยอร์การฝังช่วยให้เครือข่ายระบบประสาทฝึกได้มีประสิทธิภาพมากกว่าการฝึกเฉพาะในคุณลักษณะเชิงหมวดหมู่เชิงมิติสูง

ตัวอย่างเช่น ปัจจุบัน Earth สนับสนุนต้นไม้ประมาณ 73,000 สายพันธุ์ สมมติว่าโครงสร้างต้นไม้เป็นฟีเจอร์ในโมเดลของคุณ ดังนั้นเลเยอร์อินพุตของโมเดลมีเวกเตอร์แบบหนึ่งร้อนยาว 73,000 องค์ประกอบ ตัวอย่างเช่น baobab อาจจะเป็นในลักษณะนี้:

อาร์เรย์ขององค์ประกอบ 73,000 รายการ องค์ประกอบ 6,232 แรกจะมีค่าเป็น 0 องค์ประกอบถัดไปมีค่า 1 องค์ประกอบ 66,767 สุดท้ายมีค่า
     เป็น 0

อาร์เรย์ที่มี 73,000 องค์ประกอบมีความยาวมาก หากไม่เพิ่มเลเยอร์ที่ฝังลงในโมเดล การฝึกจะใช้เวลานานมากเนื่องจากคูณเลขศูนย์ 72,999 ตัว บางทีคุณอาจเลือกเลเยอร์แบบฝัง ให้มีมิติข้อมูล 12 รายการ ดังนั้น เลเยอร์การฝังจะค่อยๆ เรียนรู้ เวกเตอร์การฝังใหม่สําหรับต้นไม้แต่ละชนิด

ในบางสถานการณ์ การแฮชเป็นทางเลือกที่สมเหตุสมผลในเลเยอร์แบบฝัง

การฝัง Space

#language

ระบบจะแมปพื้นที่เวกเตอร์ขนาด d มิติจากพื้นที่เวกเตอร์ที่มีมิติสูงกว่า ตามหลักการแล้ว ช่องว่างที่ฝังมีโครงสร้างที่ให้ผลทางคณิตศาสตร์ที่สําคัญ เช่น ในพื้นที่ฝังอุดมคติที่เหมาะสม การบวกและลบการฝังจะช่วยแก้ปัญหางานเปรียบเทียบได้

ผลิตภัณฑ์จุดของการฝัง 2 รายการเป็นเครื่องวัดความคล้ายคลึงกัน

เวกเตอร์การฝัง

#language

พูดกว้างๆ ก็คืออาร์เรย์จํานวนตัวเลขลอยตัวซึ่งมาจากทุก เลเยอร์ที่ซ่อนอยู่ ซึ่งอธิบายอินพุตของเลเยอร์ที่ซ่อนอยู่ หลายครั้งที่เวกเตอร์การฝัง คืออาร์เรย์ของจํานวนจุดลอยตัวที่ได้รับการฝึกในเลเยอร์แบบฝัง ตัวอย่างเช่น สมมติว่าเลเยอร์ฝังต้องเรียนรู้ เวกเตอร์การฝังสําหรับต้นไม้แต่ละชนิด 73,000 สายพันธุ์ใน Earth อาร์เรย์ต่อไปนี้เป็นเวกเตอร์การฝังสําหรับต้นเบาบับ

อาร์เรย์ขององค์ประกอบ 12 รายการ แต่ละรายการจะมีจํานวนจุดลอยตัวระหว่าง 0.0 ถึง 1.0

เวกเตอร์การฝังไม่ใช่ตัวเลขแบบสุ่มจํานวนมาก ชั้นที่ฝังจะกําหนดค่าเหล่านี้ผ่านการฝึก ซึ่งคล้ายกับวิธีที่เครือข่ายระบบประสาทเรียนรู้น้ําหนักอื่นๆ ระหว่างการฝึก องค์ประกอบของอาร์เรย์แต่ละองค์ประกอบ คือการให้คะแนนตามลักษณะบางอย่างของสายพันธุ์ต้นไม้ องค์ประกอบใดเป็นตัวแทนของลักษณะเฉพาะของต้นไม้ เป็นสิ่งที่ยากต่อการ ตัดสิน

ส่วนที่น่าสนใจทางคณิตศาสตร์ของเวกเตอร์การฝังคือ รายการที่คล้ายกัน จะมีชุดจํานวนจุดลอยที่คล้ายกัน เช่น ต้นไม้ที่มีต้นไม้คล้ายๆ กันจะมีจํานวนคะแนนลอยสูงกว่า ต้นเรดวูดและซีคัวยาเป็นสายพันธุ์ต้นไม้ที่สัมพันธ์กัน ตัวเลขในเวกเตอร์การฝังจะเปลี่ยนแปลง ทุกครั้งที่คุณฝึกโมเดลใหม่ แม้ว่าคุณจะฝึกโมเดล ใหม่โดยใช้อินพุตที่เหมือนกันก็ตาม

โปรแกรมเปลี่ยนไฟล์

#language

โดยทั่วไป ระบบ ML ที่แปลงจากการนําเสนอแบบ Raw ข้อมูลที่มีอยู่น้อยนิด หรือมีตัวแทนภายนอกเป็นรูปแบบการนําเสนอภายในที่ประมวลผลที่เข้มงวดกว่าหรือหนาแน่นกว่า

โปรแกรมเปลี่ยนไฟล์มักเป็นส่วนประกอบของโมเดลที่ใหญ่กว่า ซึ่งมักจะจับคู่กับตัวถอดรหัส Transformers บางตัวจับคู่โปรแกรมเปลี่ยนไฟล์กับตัวถอดรหัส แม้ว่าหม้อแปลงอื่นๆ จะใช้เพียงโปรแกรมเปลี่ยนไฟล์หรือเฉพาะตัวถอดรหัสเท่านั้น

บางระบบใช้เอาต์พุตของโปรแกรมเปลี่ยนไฟล์เป็นอินพุตสําหรับเครือข่ายการแยกประเภทหรือการถดถอย

ในงานลําดับงานต่องาน โปรแกรมเปลี่ยนไฟล์จะนําลําดับอินพุตและแสดงสถานะภายใน (เวกเตอร์) กลับมา จากนั้น ตัวถอดรหัสจะใช้สถานะภายในนี้เพื่อคาดการณ์ลําดับถัดไป

โปรดดูคํานิยามของโปรแกรมเปลี่ยนไฟล์ในสถาปัตยกรรมของ Transformer ที่ Transformer

F

แจ้งเตือนเพียงไม่กี่วินาที

#language
#สร้างด้วย AI

ข้อความแจ้งที่มีตัวอย่างมากกว่า 1 ตัวอย่าง ("น้อย") แสดงให้เห็นว่าโมเดลภาษาขนาดใหญ่ควรตอบสนองอย่างไร เช่น ข้อความแจ้งแบบยาวต่อไปนี้มี 2 ตัวอย่างที่แสดงรูปแบบขนาดใหญ่ของภาษาในการตอบคําถาม

ส่วนหนึ่งของข้อความแจ้ง หมายเหตุ
สกุลเงินอย่างเป็นทางการของประเทศที่ระบุคือเท่าใด คําถามที่ต้องการให้ LLM ตอบ
ฝรั่งเศส: EUR ตัวอย่างหนึ่ง
สหราชอาณาจักร: GBP อีกตัวอย่างหนึ่ง
อินเดีย: ข้อความค้นหาจริง

โดยทั่วไปแล้ว ข้อความแจ้งที่ถ่ายจากกล้องเพียงไม่กี่ภาพจะให้ผลลัพธ์ที่เป็นที่ต้องการมากกว่าข้อความเตือนแบบ 1 ภาพและข้อความแจ้งสําหรับการถ่ายภาพครั้งเดียว แต่การยิงปืนไม่กี่ครั้ง ต้องอาศัยการพรอมต์ที่ยาวนานขึ้น

การแจ้งเตือนแบบ 2-3 ช็อตคือรูปแบบหนึ่งของการเรียนรู้เมื่อเกิดเหตุการณ์เล็กน้อย ซึ่งใช้กับการเรียนรู้จากข้อความแจ้ง

ฟิดเดิล

#language

ไลบรารีการกําหนดค่า Python แรกที่ตั้งค่าฟังก์ชันและคลาสโดยไม่มีโค้ดหรือโครงสร้างพื้นฐานแบบล่วงล้ํา ในกรณีของ Pax และฐาน ML อื่นๆ ฟังก์ชันและคลาสเหล่านี้แสดงถึงโมเดลและการฝึกไฮเปอร์พารามิเตอร์

Fiddle ถือว่าฐานของแมชชีนเลิร์นนิงมักจะแบ่งเป็น

  • รหัสไลบรารี ซึ่งระบุเลเยอร์และเครื่องมือเพิ่มประสิทธิภาพ
  • โค้ด "glue" ของชุดข้อมูล ซึ่งเรียกไลบรารีและต่อสายเข้าด้วยกัน

Fiddle บันทึกโครงสร้างการเรียกของโค้ด Glue ในรูปแบบที่ไม่มีการประเมินและเปลี่ยนแปลงได้

การปรับแต่งอย่างละเอียด

#language
#image
#สร้างด้วย AI

การฝึกอบรมครั้งที่ 2 แบบเฉพาะงานจะดําเนินการในโมเดลก่อนการฝึกเพื่อปรับแต่งพารามิเตอร์สําหรับ Use Case ที่เฉพาะเจาะจง เช่น ลําดับการฝึกแบบเต็มสําหรับโมเดลภาษาขนาดใหญ่บางส่วนมีดังนี้

  1. การฝึกล่วงหน้า: ฝึกโมเดลภาษาขนาดใหญ่ในชุดข้อมูลทั่วไปขนาดใหญ่ เช่น หน้า Wikipedia ภาษาอังกฤษทั้งหมด
  2. การปรับแต่ง: ฝึกโมเดลก่อนการฝึกเพื่อทํางานที่เฉพาะเจาะจง เช่น การตอบสนองต่อคําค้นหาทางการแพทย์ การปรับแต่งโดยทั่วไป มีตัวอย่างหลายร้อยหรือหลายพันรายการที่มุ่งเน้นที่งานที่เฉพาะเจาะจง

อีกตัวอย่างหนึ่งก็คือลําดับการฝึกแบบเต็มสําหรับรูปแบบรูปภาพขนาดใหญ่มีดังนี้

  1. การฝึกล่วงหน้า: ฝึกโมเดลรูปภาพขนาดใหญ่ด้วยชุดข้อมูลรูปภาพทั่วไปขนาดใหญ่ เช่น รูปภาพทั้งหมดใน Wikimedia ทั่วไป
  2. การปรับแต่ง: ฝึกโมเดลก่อนการฝึกเพื่อทํางานที่เฉพาะเจาะจง เช่น การสร้างรูปภาพวาฬเพชฌฆาต

การปรับแต่งจะต้องประกอบด้วยการผสมผสานกลยุทธ์ต่อไปนี้

  • การแก้ไขทั้งหมด ของโมเดลก่อนการฝึกของโมเดล พารามิเตอร์ ซึ่งบางครั้งเรียกว่าการปรับแต่งทั้งหมด
  • การปรับเปลี่ยนเฉพาะพารามิเตอร์ที่มีอยู่แล้วบางรูปแบบของโมเดลก่อนการฝึก (โดยทั่วไปจะเป็นเลเยอร์ที่อยู่ใกล้กับเลเยอร์เอาต์พุตมากที่สุด) ในขณะเดียวกันก็ไม่ทําให้พารามิเตอร์อื่นๆ ที่มีอยู่เปลี่ยนแปลง (โดยทั่วไปเลเยอร์จะอยู่ใกล้กับเลเยอร์อินพุต)
  • การเพิ่มเลเยอร์อื่นๆ โดยทั่วไปจะวางไว้ด้านบนของเลเยอร์ที่มีอยู่ใกล้กับเลเยอร์เอาต์พุตมากที่สุด

การปรับแต่งคือการโอนการเรียนรู้ ด้วยเหตุนี้ การปรับแต่งจึงอาจใช้ฟังก์ชันการสูญเสียหรือโมเดลต่างไปจากฟังก์ชันที่ใช้ฝึกโมเดลก่อนการฝึก ตัวอย่างเช่น คุณสามารถปรับแต่งโมเดลรูปภาพขนาดใหญ่ที่ผ่านการฝึกล่วงหน้า เพื่อสร้างโมเดลการถดถอยซึ่งจะแสดงผลจํานวนนกในภาพอินพุต

เปรียบเทียบและปรับคอนทราสต์กับคําต่อไปนี้

ป่าน

#language

ไลบรารี โอเพนซอร์สประสิทธิภาพสูงสําหรับการเรียนรู้เชิงลึกที่สร้างขึ้นจาก JAX Flax เสนอฟังก์ชันสําหรับการฝึกอบรม เครือข่ายระบบประสาท รวมถึงวิธีการประเมินประสิทธิภาพ

น้ํายาระบาย

#language

ไลบรารีTransformer แบบโอเพนซอร์ส ที่สร้างใน Flax ซึ่งออกแบบมาสําหรับการประมวลผลภาษาธรรมชาติและการวิจัยในหลายโมเดิร์นเป็นหลัก

G

AI ในการสร้างข้อมูล

#language
#image
#สร้างด้วย AI

ช่องที่กําลังพัฒนาที่เกิดขึ้นใหม่ซึ่งไม่มีคําจํากัดความอย่างเป็นทางการ อย่างไรก็ตาม ผู้เชี่ยวชาญส่วนใหญ่เห็นด้วยว่าโมเดล AI ที่ให้ความรู้ความเข้าใจจะสามารถ สร้าง ("สร้าง") เนื้อหาที่เกี่ยวข้องกับสิ่งต่อไปนี้ได้ทั้งหมด

  • ซับซ้อน
  • สอดคล้องกัน
  • เดิม

ตัวอย่างเช่น โมเดล AI ที่สร้างในยุคใหม่สามารถสร้างเรียงความหรือรูปภาพที่ซับซ้อนได้

เทคโนโลยีก่อนหน้านี้บางอย่าง รวมถึง LSTM และ RNN จะสร้างเนื้อหาต้นฉบับและเนื้อหาที่สอดคล้องกันได้ด้วย ผู้เชี่ยวชาญบางคนมองว่าเทคโนโลยีเหล่านี้เป็นเรื่องของ AI ที่ทันสมัย ในขณะที่เทคโนโลยีอื่นๆ รู้สึกว่า AI ที่แท้จริงจําเป็นต้องใช้เอาต์พุตที่ซับซ้อนกว่าเทคโนโลยีก่อนหน้านี้

ตรงข้ามกับ การคาดการณ์ ML

GPT (หม้อแปลงที่ฝึกล่วงหน้า Generative)

#language

ตระกูลของโมเดลภาษาขนาดใหญ่จาก Transformer ซึ่งพัฒนาโดย OpenAI

รูปแบบ GPT ใช้ได้กับรูปแบบต่างๆ ดังนี้

  • การสร้างรูปภาพ (เช่น ImageGPT)
  • การสร้างข้อความเป็นรูปภาพ (เช่น DALL-E)

H

ประสาทหลอน

#language

การผลิตเอาต์พุตจริงที่เป็นไปได้แต่ไม่ถูกต้องตามข้อเท็จจริงโดยโมเดล generative AI ที่อ้างว่าจะสร้างสมมติฐานเกี่ยวกับโลกจริง ตัวอย่างเช่น โมเดล AI ในยุคปฏิวัติที่กล่าวอ้างว่าบารัก โอบามาเสียชีวิตในปี 1865 กําลังหลอน

I

การเรียนรู้ในบริบท

#language
#สร้างด้วย AI

คําพ้องสําหรับข้อความแจ้งเล็กน้อย

L

LaMDA (โมเดลภาษาสําหรับแอปพลิเคชัน Dialogue)

#language

ตัวเปลี่ยนรูปแบบ โมเดลภาษาขนาดใหญ่ซึ่งพัฒนาโดยบทสนทนาขนาดใหญ่ที่ฝึกบทสนทนาซึ่งสมจริงโดยบทสนทนาที่ได้รับการฝึกโดย Google ซึ่งสร้างการสนทนาที่สมจริง

LaMDA: เทคโนโลยีการสนทนา อันยิ่งใหญ่ของเราจะแสดงภาพรวม

โมเดลภาษา

#language

โมเดลที่ประมาณความน่าจะเป็นของโทเค็นหรือลําดับของโทเค็นที่เกิดขึ้นตามลําดับโทเค็นที่ยาวกว่า

โมเดลภาษาขนาดใหญ่

#language

คําศัพท์ที่ไม่เป็นทางการซึ่งไม่มีคําจํากัดความที่เข้มงวดซึ่งโดยปกติจะหมายถึงโมเดลภาษาที่มีพารามิเตอร์จํานวนมาก โมเดลภาษาขนาดใหญ่บางรุ่นมีพารามิเตอร์มากกว่า 1 แสนล้านรายการ

M

รูปแบบภาษาที่มาสก์

#language

โมเดลภาษาที่คาดการณ์ว่าความน่าจะเป็นของโทเค็นที่จะกรอกจะเติมคําในช่องว่างตามลําดับ ตัวอย่างเช่น โมเดลภาษาที่มาสก์จะคํานวณความน่าจะเป็นสําหรับคําที่เป็นตัวเลือกเพื่อแทนที่การขีดเส้นใต้ในประโยคต่อไปนี้

____ ในหมวกมาแล้ว

โดยปกติแล้ววรรณคดีใช้สตริง "MASK" แทนการขีดเส้นใต้ เช่น

"MASK" ในหมวกกลับมาแล้ว

รูปแบบมาสก์สมัยใหม่ส่วนใหญ่เป็นแบบสองทิศทาง

การเรียนรู้แบบเมตา

#language

ชุดย่อยของแมชชีนเลิร์นนิงที่ค้นพบหรือปรับปรุงอัลกอริทึมการเรียนรู้ ระบบการเรียนรู้เมตะยังตั้งเป้าหมายในการฝึกโมเดลให้เรียนรู้งานใหม่อย่างรวดเร็วจากข้อมูลจํานวนเล็กน้อยหรือจากประสบการณ์ที่ได้รับในงานก่อนหน้า โดยทั่วไปอัลกอริทึมของ Meta Learning จะพยายามบรรลุเป้าหมายต่อไปนี้

  • ปรับปรุง/เรียนรู้คุณลักษณะที่พัฒนาขึ้นเองโดยมือ (เช่น เครื่องมือเริ่มต้นหรือเครื่องมือเพิ่มประสิทธิภาพ)
  • ใช้ข้อมูลอย่างมีประสิทธิภาพและประสิทธิผลมากขึ้น
  • ปรับปรุงข้อมูลทั่วไป

Meta Learning เกี่ยวข้องกับการเรียนรู้บางส่วน

รูปแบบ

#language

หมวดหมู่ข้อมูลระดับสูง ตัวอย่างเช่น ตัวเลข ข้อความ รูปภาพ วิดีโอ และเสียง มีรูปแบบที่แตกต่างกัน 5 แบบ

การโหลดพร้อมกันของโมเดล

#language

วิธีปรับขนาดหรืออนุมานการฝึกอบรมที่แสดงส่วนต่างๆ ของโมเดลที่แตกต่างกันในอุปกรณ์ต่างๆ การทํางานพร้อมกันขนานกันไป ช่วยให้โมเดลที่ใหญ่เกินพอดีใส่ในอุปกรณ์เดียวได้

ในการใช้งานแบบขนานของโมเดล โดยทั่วไประบบจะดําเนินการดังต่อไปนี้

  1. ชาร์ด (แยก) โมเดลออกเป็นส่วนย่อย
  2. กระจายการฝึกส่วนเล็กๆ เหล่านั้นในตัวประมวลผลหลายตัว โปรเซสเซอร์แต่ละตัวจะฝึกโมเดลของตัวเอง
  3. รวมผลลัพธ์เข้าด้วยกันเพื่อสร้างโมเดลเดียว

การเรียนรู้จากโมเดลพร้อมกันทําให้การฝึกช้าลง

ดูการโหลดข้อมูลพร้อมกัน

การดูแลตัวเองแบบหลายศีรษะ

#language

ส่วนขยายของความสนใจของตนเองที่ใช้กลไกการดึงดูดตนเองหลายครั้งสําหรับแต่ละตําแหน่งในลําดับอินพุต

Transformers เปิดตัวความสนใจแบบมัลติเท็กซ์

โมเดลแบบหลายโมดัล

#language

โมเดลที่มีอินพุตและ/หรือเอาต์พุตมีรูปแบบมากกว่า 1 รายการ ตัวอย่างเช่น พิจารณาโมเดลที่นําทั้งรูปภาพและคําอธิบายภาพข้อความ (โมเดล 2 แบบ) มาใช้เป็นฟีเจอร์ และแสดงคะแนนที่บ่งบอกว่าคําบรรยายข้อความมีความเหมาะสมต่อรูปภาพมากน้อยเพียงใด ดังนั้น อินพุตของโมเดลนี้จึงมีหลายโมดัลและเอาต์พุตจะเป็นแบบโมดัล

N

ความเข้าใจภาษาธรรมชาติ

#language

การพิจารณาเจตนาของผู้ใช้ตามสิ่งที่ผู้ใช้พิมพ์หรือพูด ตัวอย่างเช่น เครื่องมือค้นหาจะใช้ความเข้าใจภาษาธรรมชาติในการระบุสิ่งที่ผู้ใช้กําลังค้นหาโดยพิจารณาจากสิ่งที่ผู้ใช้พิมพ์หรือพูด

N-G-ram

#seq
#language

ลําดับของคํา N ลําดับ เช่น โกรธจริงขนาด 2 กรัม เนื่องจากคําสั่งซื้อมีความเกี่ยวข้องกันอย่างเห็นได้ชัดเลยทีเดียวเป็น 2 กรัมที่แตกต่างจากโมโหสุดๆ

N ชื่อสําหรับ N-gram ประเภทนี้ ตัวอย่าง
2 Bigram หรือ 2 กรัม จะไปที่นั่น กินข้าวเที่ยง กินข้าวเย็น
3 รูปสามเหลี่ยมหรือ 3 กรัม กินหนูตาบอด 3 ตัว กับตากระดิ่งมากเกินไป
4 4 กรัม เดินในสวน ฝุ่นละอองในลม เด็กชายกินถั่วเลนทิล

โมเดลการทําความเข้าใจภาษาธรรมชาติจํานวนมากจะใช้ N-grams เพื่อคาดคะเนคําถัดไปที่ผู้ใช้จะพิมพ์หรือพูด ตัวอย่างเช่น สมมติว่าผู้ใช้พิมพ์สามตาบอด โมเดล NLU ที่ใช้รูปสามเหลี่ยมมีแนวโน้มที่จะคาดการณ์ว่าผู้ใช้จะพิมพ์เมาส์ต่อไป

ตรงข้ามกับ N-grams กับ bag of word ซึ่งก็คือชุดคําที่ไม่ได้เรียงลําดับ

NLU

#language

ตัวย่อของความเข้าใจภาษาธรรมชาติ

O

ข้อความแจ้งเพียงครั้งเดียว

#language
#สร้างด้วย AI

ข้อความแจ้งที่มีตัวอย่าง 1 รูปแบบที่แสดงให้เห็นว่าโมเดลภาษาขนาดใหญ่ควรตอบสนองอย่างไร ตัวอย่างเช่น ข้อความแจ้งต่อไปนี้มีตัวอย่างหนึ่งที่แสดงรูปแบบภาษาขนาดใหญ่ว่าควรจะตอบคําถามอย่างไร

ส่วนหนึ่งของข้อความแจ้ง หมายเหตุ
สกุลเงินอย่างเป็นทางการของประเทศที่ระบุคือเท่าใด คําถามที่ต้องการให้ LLM ตอบ
ฝรั่งเศส: EUR ตัวอย่างหนึ่ง
อินเดีย: ข้อความค้นหาจริง

เปรียบเทียบคอนทราสต์ในข้อความแจ้งเกี่ยวกับการถ่ายภาพครั้งเดียวกับคําต่อไปนี้

P

การปรับแต่งประสิทธิภาพตามพารามิเตอร์

#language
#สร้างด้วย AI

ชุดเทคนิคในการปรับแต่งโมเดลภาษาก่อนฝึก (PLM) ขนาดใหญ่อย่างมีประสิทธิภาพมากกว่าการปรับแต่งแบบเต็มรูปแบบ การปรับแต่งพารามิเตอร์ให้มีประสิทธิภาพนั้น โดยปกติแล้วจะปรับแต่งพารามิเตอร์ได้น้อยกว่าการปรับแต่งแบบเต็มรูปแบบ แต่โดยทั่วไปแล้ว จะสร้างโมเดลภาษาขนาดใหญ่ซึ่งทํางานได้ดีเช่นกัน (หรือเกือบได้เช่นกัน) ในฐานะโมเดลภาษาขนาดใหญ่ที่สร้างจากการปรับแต่งอย่างละเอียดทั้งหมด

เปรียบเทียบและเปรียบต่างการปรับจูนพารามิเตอร์ให้มีประสิทธิภาพดังนี้

การปรับแต่งที่มีผลกับพารามิเตอร์เรียกอีกอย่างว่าการปรับแต่งแบบเพิ่มประสิทธิภาพพารามิเตอร์

ไปป์ไลน์

#language

รูปแบบการทํางานพร้อมกันขนานที่การประมวลผลของโมเดลแบ่งเป็นช่วงต่อเนื่องกัน และแต่ละขั้นตอนจะทํางานในอุปกรณ์อื่น ขณะที่ขั้นตอนกําลังประมวลผล 1 กลุ่ม ระยะก่อนหน้าจะทํางานในกลุ่มถัดไปได้

ดูการฝึกอบรมแบบทีละขั้น

แบบ PLM

#language
#สร้างด้วย AI

ตัวย่อของโมเดลภาษาก่อนการฝึก

การเข้ารหัสจากตําแหน่ง

#language

เทคนิคในการเพิ่มข้อมูลเกี่ยวกับตําแหน่งของโทเค็นตามลําดับของการฝังของโทเค็น โมเดลหม้อแปลงใช้การเข้ารหัสตามตําแหน่งเพื่อทําความเข้าใจความสัมพันธ์ระหว่างส่วนต่างๆ ของผลลัพธ์ให้ดียิ่งขึ้น

การใช้งานการเข้ารหัสตําแหน่งโดยทั่วไปจะใช้ฟังก์ชันไซนัสด์ (กล่าวอย่างเจาะจงคือ ความถี่และแอมพลิจูดของฟังก์ชันไซนอยด์จะกําหนดโดยตําแหน่งของโทเค็นในลําดับ) เทคนิคนี้ทําให้โมเดล Transformer เรียนรู้การเข้าร่วมส่วนต่างๆ ของลําดับตามตําแหน่งของตน

โมเดลก่อนการฝึก

#language
#image
#สร้างด้วย AI

โมเดลหรือคอมโพเนนต์ของโมเดล (เช่น เวกเตอร์การฝัง) ที่ได้รับการฝึกแล้ว บางครั้ง คุณจะป้อนเวกเตอร์การฝังภาพก่อนการฝึกลงในเครือข่ายระบบประสาท ในบางครั้ง โมเดลจะฝึกเวกเตอร์การฝังเอง แทนที่จะใช้การฝังแบบฝึกล่วงหน้า

คําว่ารูปแบบก่อนการฝึกหมายถึงรูปแบบภาษาขนาดใหญ่ซึ่งผ่านการฝึกอบรมล่วงหน้าแล้ว

การฝึกอบรมเบื้องต้น

#language
#image
#สร้างด้วย AI

การฝึกโมเดลเบื้องต้นในชุดข้อมูลขนาดใหญ่ โมเดลก่อนการฝึกบางรุ่นเป็นยักษ์ใหญ่ที่เกะกะ และมักจะต้องปรับแต่งผ่านการฝึกอบรมเพิ่มเติม เช่น ผู้เชี่ยวชาญ ML อาจฝึกโมเดลภาษาขนาดใหญ่ในชุดข้อมูลข้อความขนาดใหญ่ไว้ล่วงหน้า เช่น หน้าภาษาอังกฤษทั้งหมดใน Wikipedia หลังจากการฝึกล่วงหน้าแล้ว โมเดลผลลัพธ์อาจมีการปรับแต่งเพิ่มเติมโดยใช้เทคนิคใดก็ได้ต่อไปนี้

ข้อความแจ้ง

#language
#สร้างด้วย AI

ข้อความใดๆ ที่ป้อนเป็นอินพุตของโมเดลภาษาขนาดใหญ่ เพื่อกําหนดเงื่อนไขของโมเดลให้ทํางานในลักษณะใดลักษณะหนึ่ง ข้อความเตือนอาจสั้นกระชับ หรือข้อความอย่างอิสระ (เช่น ข้อความทั้งหมดของนิยาย) ข้อความแจ้งแบ่งออกเป็นหลายหมวดหมู่ ซึ่งรวมถึงหมวดหมู่ที่แสดงในตารางต่อไปนี้

หมวดหมู่ของข้อความแจ้ง ตัวอย่าง หมายเหตุ
คำถาม นกพิราบบินได้เร็วแค่ไหน
โรงเรียนฝึกอบรม แต่งกลอนตลกๆ เกี่ยวกับการหากําไร ข้อความแจ้งขอให้โมเดลภาษาขนาดใหญ่ทําอะไรบางอย่าง
ตัวอย่าง แปลโค้ด Markdown เป็น HTML เช่น
มาร์กดาวน์: * รายการ
HTML: <ul> <li>รายการ</li> </ul>
ประโยคแรกในข้อความแจ้งตัวอย่างนี้คือวิธีการ ส่วนที่เหลือของข้อความแจ้งคือตัวอย่าง
บทบาท อธิบายว่าทําไมการใช้การไล่ระดับสีจึงลดลงในการฝึกแมชชีนเลิร์นนิงกับปริญญาเอกสาขาฟิสิกส์ ส่วนแรกของประโยคคือคําแนะนํา วลี "ถึงปริญญาเอกในฟิสิกส์" คือบทบาทหน้าที่
อินพุตบางส่วนสําหรับโมเดลนี้ นายกรัฐมนตรีสหราชอาณาจักรอยู่ที่ ข้อความแจ้งอินพุตบางส่วนอาจลงท้ายด้วยฉับพลัน (ตามตัวอย่างนี้) หรือลงท้ายด้วยขีดล่าง

โมเดล generative AI สามารถตอบสนองต่อข้อความแจ้งที่มีข้อความ, โค้ด, รูปภาพ, การฝัง วิดีโอ และอื่นๆ อีกมากมาย

การเรียนรู้จากข้อความแจ้ง

#language
#สร้างด้วย AI

ความสามารถของโมเดลบางรายการที่ช่วยให้ปรับเปลี่ยนลักษณะการทํางานเพื่อตอบสนองต่อการป้อนข้อความได้ (ข้อความแจ้ง) ในกระบวนทัศน์การเรียนรู้แบบใช้ข้อความแจ้งทั่วไป โมเดลภาษาขนาดใหญ่จะตอบสนองต่อพรอมต์ด้วยการสร้างข้อความ ตัวอย่างเช่น สมมติว่าผู้ใช้ป้อนข้อความแจ้งต่อไปนี้

สรุปกฎข้อที่ 3 ของนิวตัน

โมเดลที่เรียนรู้ตามข้อความแจ้งไม่ได้ผ่านการฝึกอบรมมาเพื่อตอบคําถามก่อนหน้านี้เท่านั้น โมเดล "รู้" ข้อเท็จจริงเกี่ยวกับฟิสิกส์ได้หลายข้อ ส่วนใหญ่แล้วเกี่ยวกับกฎภาษาทั่วไป และส่วนใหญ่เกี่ยวกับคําตอบที่เป็นประโยชน์ ความรู้ที่ได้นั้นเพียงพอที่จะให้ คําตอบ (หวังว่าจะ) มีประโยชน์ การตอบสนองของมนุษย์เพิ่มเติม ("คําตอบนั้นซับซ้อนเกินไป" หรือ "ปฏิกิริยาคืออะไร") ช่วยให้ระบบการเรียนรู้แบบอาศัยข้อความแจ้งบางระบบค่อยๆ เพิ่มประโยชน์ของคําตอบ

การออกแบบข้อความแจ้ง

#language
#สร้างด้วย AI

คําพ้องความหมายสําหรับวิศวกรรมข้อความแจ้ง

วิศวกรรมที่รวดเร็ว

#language
#สร้างด้วย AI

ศิลปะการสร้างข้อความแจ้งเพื่อกระตุ้นการตอบสนองที่ต้องการจากโมเดลภาษาขนาดใหญ่ มนุษย์ต้องทําวิศวกรรมที่รวดเร็ว การเขียนข้อความแจ้งที่มีโครงสร้างที่ดีเป็นส่วนสําคัญที่จะทําให้แน่ใจถึงคําตอบที่เป็นประโยชน์จากโมเดลภาษาขนาดใหญ่ วิศวกรรมที่กะทันหันขึ้นอยู่กับ หลายปัจจัย ได้แก่

ดูบทนําเกี่ยวกับการออกแบบข้อความแจ้ง สําหรับรายละเอียดเพิ่มเติมเกี่ยวกับการเขียนข้อความแจ้งที่เป็นประโยชน์

การออกแบบข้อความแจ้งเป็นคําเหมือนสําหรับวิศวกรรมข้อความแจ้ง

จูนเสียง

#language
#สร้างด้วย AI

กลไกการปรับแต่งประสิทธิภาพพารามิเตอร์ ที่เรียนรู้ "คํานําหน้า" ที่ระบบเพิ่มไว้ข้างหน้าข้อความแจ้งจริง

การปรับแต่งรูปแบบหนึ่งที่บางครั้งเรียกว่าการปรับแต่งคํานําหน้าคือการแทรกคํานําหน้าที่ทุกเลเยอร์ ในทางตรงกันข้าม การปรับแต่งข้อความแจ้งส่วนใหญ่จะเพิ่มคํานําหน้าลงในเลเยอร์อินพุตเท่านั้น

ขวา

การแสดงบทบาท

#language
#สร้างด้วย AI

ส่วนที่ไม่บังคับของข้อความแจ้งที่ระบุกลุ่มเป้าหมายสําหรับการตอบสนองของโมเดล AI ยุคใหม่ หากไม่มีข้อความแจ้งบทบาท โมเดลภาษาขนาดใหญ่ก็มีคําตอบที่อาจเป็นประโยชน์สําหรับผู้ถาม เมื่อมีข้อความแจ้งบทบาท โมเดลภาษาขนาดใหญ่จะตอบด้วยวิธีที่เหมาะสมและเป็นประโยชน์มากขึ้นสําหรับกลุ่มเป้าหมายที่เฉพาะเจาะจง ตัวอย่างเช่น ส่วนของข้อความแจ้งบทบาทที่แสดงข้อความต่อไปนี้จะเป็นตัวหนา

  • สรุปบทความนี้เพื่อจบปริญญาเอกด้านเศรษฐศาสตร์
  • อธิบายวิธีการทํางานของกระแสไฟฟ้าสําหรับเด็กอายุ 10 ปี
  • อธิบายวิกฤติทางการเงินปี 2008 พูดกับลูกๆ ว่า หรือลูกสุนัขขี่ทองคํา

S

การดูแลตัวเอง (หรือเรียกว่าเลเยอร์การทํางานด้วยตนเอง)

#language

ชั้นโครงข่ายระบบประสาทที่เปลี่ยนลําดับการฝัง (ตัวอย่างเช่น การฝังโทเค็น) เป็นฝังชั้นอื่น การฝังแต่ละรายการในลําดับเอาต์พุตจะสร้างขึ้นโดยการรวมข้อมูลจากองค์ประกอบของลําดับอินพุตผ่านกลไกความสนใจ

ส่วนที่สนใจด้วยตัวเองคือความสนใจของตนเองคือลําดับที่เข้าร่วมด้วยตนเองแทนที่จะเป็นบริบทอื่นๆ ความสนใจของตนเองเป็นหนึ่งในองค์ประกอบหลักในตัวเปลี่ยนรูปแบบและใช้คําศัพท์การค้นหาจากพจนานุกรม เช่น "คําค้นหา" "คีย์" และ "ค่า"

เลเยอร์ดึงดูดความสนใจด้วยตัวเองเริ่มต้นด้วยลําดับของการแสดงอินพุต หนึ่งรายการสําหรับแต่ละคํา การป้อนข้อมูลด้วยคําอาจเป็น การฝังที่ไม่ซับซ้อน สําหรับแต่ละคําในลําดับการป้อนข้อมูล เครือข่ายจะให้คะแนนความเกี่ยวข้องของคํากับทุกองค์ประกอบในลําดับทั้งหมดของคํา คะแนนความเกี่ยวข้องจะเป็นตัวกําหนดว่าการนําเสนอคําท้ายสุด จะแทนการแสดงคําอื่นๆ ได้มากเพียงใด

ตัวอย่างเช่น ลองพิจารณาประโยคต่อไปนี้

สัตว์ไม่ได้ข้ามถนนเพราะเหนื่อยเกินไป

ภาพประกอบต่อไปนี้ (จาก Transformer: สถาปัตยกรรมเครือข่ายระบบนิวเคลียร์สําหรับการทําความเข้าใจภาษา) แสดงรูปแบบความสนใจของเลเยอร์ความสนใจตนเองสําหรับคําสรรพนาม it พร้อมด้วยความเข้มของเส้นที่ระบุแต่ละเส้นที่มีผลต่อการนําเสนอ

ประโยคต่อไปนี้ปรากฏขึ้น 2 ครั้ง: &quot;สัตว์ไม่ข้ามถนนเพราะเหนื่อยเกินไป&quot;  บรรทัดจะเชื่อมคําว่า &quot;it&quot; ในประโยคหนึ่งกับโทเค็นห้ารายการ (&quot;The&quot;, &quot;animal&quot;, &quot;street&quot;, &quot;it&quot; และเครื่องหมายจุด) ในอีกประโยค  เส้นแบ่งระหว่าง &quot;it&quot; และ &quot;animal&quot; รัดกุมที่สุด

เลเยอร์แบบดึงดูดความสนใจด้วยตัวเองจะไฮไลต์คําที่เกี่ยวข้องกับคําว่า "ชั้น" ในกรณีนี้ ชั้นความสนใจได้เรียนรู้วิธีการไฮไลต์คําที่ชั้นอาจอ้างอิง โดยกําหนดน้ําหนักสูงสุดให้กับสัตว์

สําหรับลําดับ n โทเค็น ความสนใจของตนเองจะเปลี่ยนลําดับของการฝัง n ครั้งแยกกัน โดยให้แสดงที่ตําแหน่งแต่ละลําดับในลําดับ

โปรดดูข้อมูลเพิ่มเติมที่หัวข้อการดึงดูดความสนใจและการดึงดูดความสนใจจากผู้ชมจํานวนมาก

การวิเคราะห์ความเห็น

#language

การใช้อัลกอริทึมของแมชชีนเลิร์นนิงหรือสถิติเพื่อพิจารณาว่ามีทัศนคติโดยรวม (เชิงบวก) ของกลุ่มในด้านบริการ ผลิตภัณฑ์ องค์กร หรือหัวข้อ ตัวอย่างเช่น การใช้การทําความเข้าใจภาษาธรรมชาติ อัลกอริทึมจะทําการวิเคราะห์ความเห็นเกี่ยวกับความคิดเห็นที่เป็นข้อความจากหลักสูตรมหาวิทยาลัยเพื่อกําหนดระดับความชอบที่นักเรียนจะชอบหรือไม่ชอบในหลักสูตรนั้นๆ

งานต่อเนื่องไปจนถึงตามลําดับ

#language

งานที่แปลงลําดับอินพุตของโทเค็นเป็นผลลัพธ์เอาต์พุตของโทเค็น ตัวอย่างเช่น งานต่อเนื่องตามลําดับที่ได้รับความนิยม 2 ประเภทคือ

  • นักแปล
    • ตัวอย่างลําดับอินพุต: "ฉันรักเธอ"
    • ตัวอย่างลําดับเอาต์พุต: "Je t'aime"
  • ตอบคําถาม:
    • ตัวอย่างลําดับอินพุต: "ฉันต้องใช้รถในนิวยอร์กซิตี้ไหม"
    • ตัวอย่างลําดับเอาต์พุต: "ไม่ โปรดเก็บรถไว้ที่บ้าน"

คุณลักษณะแยกวิเคราะห์

#language
#fundamentals

ฟีเจอร์ที่มีค่าเป็นศูนย์หรือว่างเปล่า เช่น ฟีเจอร์ที่มีค่า 1 ค่าเดียวและมีค่าเป็น 0 หลายล้านรายการ ในทางตรงกันข้าม คุณลักษณะที่หนาแน่น มีค่าส่วนใหญ่ที่ไม่ใช่ศูนย์หรือว่างเปล่า

ในแมชชีนเลิร์นนิง มีฟีเจอร์มากมายอย่างไม่น่าเชื่อ ฟีเจอร์เชิงหมวดหมู่มักจะเป็นฟีเจอร์ที่มีจํานวนน้อย เช่น ต้นไม้ 300 ชนิดในป่า 1 ตัวอย่างอาจบ่งชี้ถึงต้นเมเปิลเท่านั้น หรือจากวิดีโอนับล้าน ในไลบรารีวิดีโอ ตัวอย่างหนึ่งอาจระบุแค่ "คาซาบลังกา"

ในรูปแบบต่างๆ ตามปกติแล้วคุณมักจะแสดงฟีเจอร์ที่ไม่กระตุกด้วยการเข้ารหัสแบบ Hot-hot หากการเข้ารหัสแบบ Hot-hot มีขนาดใหญ่ คุณอาจวางเลเยอร์การฝังลงไปบนการเข้ารหัสแบบ One-Hot เพื่อประสิทธิภาพที่ดีขึ้น

ตัวแทนบางส่วน

#language
#fundamentals

การจัดเก็บเฉพาะตําแหน่งขององค์ประกอบที่ไม่ใช่ 0 ในฟีเจอร์ที่มีข้อมูลน้อย

เช่น สมมติว่าฟีเจอร์ตามหมวดหมู่ที่ชื่อ species เป็นต้นไม้ 36 สายพันธุ์ในป่าแห่งใดแห่งหนึ่ง ให้สมมติว่าตัวอย่างแต่ละรายการระบุเพียงสปีชีส์เดียวเท่านั้น

คุณสามารถใช้เวกเตอร์แบบ 1 ทิศทางในการแสดงถึงสายพันธุ์ต้นไม้ในแต่ละตัวอย่าง เวกเตอร์ 1 ทิศทางจะมี 1 1 ชุด (เพื่อแทนต้นไม้สายพันธุ์ที่เฉพาะเจาะจงในตัวอย่างนั้น) และ 35 0 (เพื่อแสดงถึงต้นไม้ 35 สายพันธุ์ไม่ในตัวอย่าง) การนําเสนอ maple แบบเผ็ดร้อนอาจมีลักษณะเช่นนี้

เวกเตอร์ที่ตําแหน่ง 0 ถึง 23 จะเก็บค่า 0, ตําแหน่ง 24 จะเก็บค่า 1 และตําแหน่งที่ 25 ถึง 35 จะเก็บค่า 0

อีกวิธีหนึ่งคือ การแจกแจงแบบแคบเพียงแค่กําหนดตําแหน่งของชนิดที่เจาะจง ถ้า maple อยู่ในอันดับ 24 การนําเสนอ maple แบบกระจัดกระจายจะเป็นดังนี้:

24

โปรดสังเกตว่าการนําเสนอแบบกระจัดกระจายนั้นมีขนาดน้อยกว่าการนําเสนอแบบครั้งเดียว

การฝึกอบรมแบบเป็นขั้น

#language

กลยุทธ์การฝึกโมเดลตามลําดับที่ต่อเนื่องกัน เป้าหมายอาจเป็นการเพิ่มความเร็วให้กับกระบวนการฝึก หรือเพื่อให้ได้คุณภาพของโมเดลที่ดีขึ้น

ภาพของกระบวนการกองซ้อนแสดงด้านล่าง

  • ขั้นที่ 1 มีเลเยอร์ที่ซ่อนอยู่ 3 ชั้น ขั้นที่ 2 มีเลเยอร์ที่ซ่อนอยู่ 6 ชั้น และ ขั้นที่ 3 มีเลเยอร์ที่ซ่อนอยู่ 12 ชั้น
  • ขั้นที่ 2 เริ่มฝึกด้วยน้ําหนักที่เรียนรู้ใน 3 เลเยอร์ที่ซ่อนอยู่ของระยะที่ 1 ขั้นที่ 3 เริ่มฝึกด้วยน้ําหนักที่เรียนรู้ใน 6 ชั้นที่ซ่อนอยู่ของระยะที่ 2

ขั้นตอน 3 ขั้นตอน ได้แก่ &quot;ขั้นที่ 1&quot; &quot;ขั้นที่ 2&quot; และ &quot;ขั้นที่ 3&quot;
          แต่ละขั้นตอนจะมีเลเยอร์ต่างๆ กัน กล่าวคือ ขั้นที่ 1 มี 3 เลเยอร์ ระยะที่ 2 มี 6 เลเยอร์ และขั้นที่ 3 มี 12 เลเยอร์
          เลเยอร์ 3 จากขั้นที่ 1 จะกลายเป็น 3 ชั้นแรกของขั้นตอนที่ 2
          ในทํานองเดียวกัน ทั้ง 6 เลเยอร์จากขั้นตอนที่ 2 ได้กลายเป็น 6 ชั้นแรกของพื้นที่งาน 3

ดูไปป์ไลน์เพิ่มเติม

T

T5

#language

แบบจําลอง การเรียนรู้จาก SMS เป็นข้อความที่แนะนําโดย Google AI ในปี 2020 T5 เป็นโมเดลโปรแกรมเปลี่ยนไฟล์-ตัวถอดรหัสที่ใช้สถาปัตยกรรม Transformer ซึ่งฝึกบนชุดข้อมูลขนาดใหญ่มาก ซึ่งมีประสิทธิภาพในงานด้านภาษาธรรมชาติที่หลากหลาย เช่น การสร้างข้อความ การแปลภาษา และตอบคําถามในลักษณะการสนทนา

T5 ได้รับชื่อมาจากตัวอักษร T จํานวน 5 ตัวใน "ตัวแปลงข้อความเป็นข้อความ"

T5 เท่า

#language

เฟรมเวิร์กแบบโอเพนซอร์ส แมชชีนเลิร์นนิงเฟรมเวิร์กที่ออกแบบมาเพื่อ สร้างและฝึกโมเดลขนาดใหญ่-ภาษาธรรมชาติ-NLP-. T5 ทํางานบนฐานโค้ด T5X (ซึ่งสร้างบน JAX และ Flax)

อุณหภูมิ

#language
#image
#สร้างด้วย AI

ไฮเปอร์พารามิเตอร์ที่ควบคุมระดับการสุ่มเอาต์พุตของโมเดล อุณหภูมิที่สูงขึ้นทําให้เอาต์พุตแบบสุ่มมากขึ้น ขณะอุณหภูมิต่ํากว่าปกติจะทําให้เกิดเอาต์พุตแบบสุ่มน้อยลง

การเลือกอุณหภูมิที่ดีที่สุดจะขึ้นอยู่กับแอปพลิเคชันที่เฉพาะเจาะจง และคุณสมบัติที่ต้องการของเอาต์พุตโมเดล ตัวอย่างเช่น คุณอาจเพิ่มอุณหภูมิเมื่อสร้างแอปพลิเคชันที่สร้างเอาต์พุตโฆษณา ในทางกลับกัน คุณอาจลดอุณหภูมิลงเมื่อสร้างโมเดลที่จัดประเภทรูปภาพหรือข้อความเพื่อปรับปรุงความแม่นยําและความสอดคล้องของโมเดล

อุณหภูมิมักใช้ร่วมกับ softmax

Span ข้อความ

#language

ช่วงดัชนีของอาร์เรย์ที่เชื่อมโยงกับส่วนย่อยที่เฉพาะเจาะจงของสตริงข้อความ ตัวอย่างเช่น คําว่า good ในสตริง Python s="Be good now" จะใช้พื้นที่ตั้งแต่ 3 ถึง 6

โทเค็น

#language

ในโมเดลภาษา หน่วยอะตอมที่โมเดลฝึกอยู่และคาดการณ์ โทเค็นมักมีลักษณะอย่างใดอย่างหนึ่งต่อไปนี้

  • คํา เช่น วลี "สุนัขอย่างแมว" ประกอบด้วยคํา 3 คํา ได้แก่ "สุนัข" "ชอบ" และ "แมว"
  • อักขระ - วลี "ปลาจักรยาน" ประกอบด้วยโทเค็นอักขระ 9 ตัว (โปรดทราบว่าพื้นที่ว่างจะนับเป็นหนึ่งในโทเค็น)
  • คําย่อย ซึ่งคําเดี่ยวอาจเป็นโทเค็นเดียวหรือหลายโทเค็น คําย่อยประกอบด้วยคํารูท คํานําหน้า หรือคําต่อท้าย ตัวอย่างเช่น โมเดลภาษาที่ใช้คําย่อยเป็นโทเค็นอาจดูคําว่า "สุนัข" เป็นโทเค็น 2 คํา (คําว่าราก "สุนัข" และคําต่อท้ายพหูพจน์ "s") โมเดลภาษาเดียวกันนี้อาจดูคําเดี่ยว "สูง" เป็นคําย่อย 2 คํา ("ราก" "สูง" และคําต่อท้าย "er")

ในโดเมนที่อยู่นอกโมเดลภาษา โทเค็นอาจเป็นหน่วยอะตอมประเภทอื่นๆ ได้ ตัวอย่างเช่น ในคอมพิวเตอร์วิทัศน์ โทเค็นอาจเป็นชุดย่อยของรูปภาพ

หม้อแปลง

#language

สถาปัตยกรรมโครงข่ายระบบประสาทเทียมที่พัฒนาโดย Google ซึ่งใช้กลไกการสนใจด้วยตัวเองเพื่อเปลี่ยนผลลัพธ์ของการฝังอินพุตให้เป็นลําดับการฝังเอาต์พุตตามลําดับโดยไม่ต้องอาศัยการปฏิวัติหรือโครงข่ายระบบประสาทเทียม หม้อแปลงสามารถ เห็นซ้อนชั้นชั้นที่สนใจได้ด้วยตัวเอง

หม้อแปลงรวมสิ่งใดสิ่งหนึ่งต่อไปนี้ได้

โปรแกรมเปลี่ยนไฟล์จะเปลี่ยนลําดับการฝังเป็นลําดับใหม่ที่มีความยาวเท่าๆ กัน โปรแกรมเปลี่ยนไฟล์ประกอบด้วย N เลเยอร์ซึ่งแต่ละเลเยอร์มีเลเยอร์ย่อย 2 ชั้น เลเยอร์ย่อยทั้ง 2 เลเยอร์นี้จะถูกนํามาใช้ในตําแหน่งของลําดับการฝัง แต่ละตําแหน่ง โดยแปลงแต่ละองค์ประกอบของลําดับให้เป็น การฝังใหม่ เลเยอร์ย่อยของโปรแกรมเปลี่ยนไฟล์แรกจะรวบรวมข้อมูลจากลําดับอินพุตทั้งหมด ชั้นย่อยที่ 2 ของโปรแกรมเปลี่ยนไฟล์จะแปลงข้อมูลที่รวบรวมไว้ให้เป็นการฝังเอาต์พุต

ตัวถอดรหัสจะเปลี่ยนลําดับของการฝังอินพุตตามลําดับของการฝังเอาต์พุต ที่อาจมีความยาวต่างกัน เครื่องมือถอดรหัสยังรวมถึง เลเยอร์ที่เหมือนกัน N เลเยอร์ที่มีเลเยอร์ย่อย 3 ชั้นซึ่งสองชั้นคล้ายกับเลเยอร์ย่อยของโปรแกรมเปลี่ยนไฟล์ ชั้นย่อยที่ 3 ของตัวถอดรหัสจะดึงเอาต์พุตจากโปรแกรมเปลี่ยนไฟล์และนํากลไกการสนใจด้วยตนเองมาใช้เพื่อรวบรวมข้อมูล

บทความในบล็อก Transformer: A Novel Neural Network Architecture for Language การทําความเข้าใจ จะให้คําแนะนําที่ดีเกี่ยวกับการเปลี่ยนรูปแบบ

Trigram

#seq
#language

N-gram ซึ่ง N=3

U

แบบทิศทางเดียว

#language

ระบบที่ประเมินเฉพาะข้อความที่อยู่ก่อนส่วนเป้าหมายของข้อความ ในทางกลับกัน ระบบแบบ 2 ทิศทางจะประเมินทั้งข้อความที่นําหน้าและติดตามส่วนเป้าหมายของข้อความ ดูรายละเอียดเพิ่มเติมได้ที่แบบ 2 ทิศทาง

โมเดลภาษาสากล

#language

โมเดลภาษาที่อ้างอิงความน่าจะเป็นเท่านั้นบนโทเค็นที่ปรากฏก่อนไม่ใช่หลังโทเค็นเป้าหมาย ตรงข้ามกับรูปแบบภาษา 2 ทิศทาง

V

ตัวเข้ารหัสอัตโนมัติรูปแบบใหม่ (VAE)

#language

autoencoder ประเภทหนึ่งที่ใช้ความคลาดเคลื่อนระหว่างอินพุตกับเอาต์พุตเพื่อสร้างอินพุตเวอร์ชันที่แก้ไขแล้ว ตัวเข้ารหัสอัตโนมัติรูปแบบต่างๆ มีประโยชน์สําหรับ AI ยุคใหม่

VAE อิงตามค่าอนุมานที่ผันแปร: เทคนิคในการประมาณพารามิเตอร์ของโมเดลความน่าจะเป็น

W

การฝังคํา

#language

การแสดงคําแต่ละคําในชุดคําที่อยู่ภายใน เวกเตอร์การฝัง กล่าวคือ แสดงแต่ละคําเป็นเวกเตอร์ของค่าทศนิยมระหว่าง 0.0 และ 1.0 คําที่มีคําคล้ายกัน จะมีคําที่คล้ายๆ กันสําหรับคําที่มีความหมายต่างกัน เช่น แครอท คึ่นช้อย และแตงกวา ทั้งหมดจะมีตัวอย่างที่คล้ายกันซึ่งแตกต่างจากการนําเสนอเครื่องบิน แว่นกันแดด และฟันปลอม

Z

การแจ้งเตือนแบบ 0 ช็อต

#language
#สร้างด้วย AI

ข้อความแจ้งที่ไม่ได้ให้ตัวอย่างวิธีที่คุณต้องการให้โมเดลภาษาขนาดใหญ่ตอบสนอง เช่น

ส่วนหนึ่งของข้อความแจ้ง หมายเหตุ
สกุลเงินอย่างเป็นทางการของประเทศที่ระบุคือเท่าใด คําถามที่ต้องการให้ LLM ตอบ
อินเดีย: ข้อความค้นหาจริง

โมเดลภาษาขนาดใหญ่อาจตอบสนองด้วยเงื่อนไขใดๆ ต่อไปนี้

  • รูปี
  • INR
  • รูปีอินเดีย
  • รูปี
  • รูปีอินเดีย

ถูกทุกข้อ คุณอาจต้องการใช้รูปแบบใดรูปแบบหนึ่ง

เปรียบเทียบความคมชัดของการแจ้งให้ถ่ายไปที่ศูนย์ด้วยคําต่อไปนี้