โมเดลภาษาขนาดใหญ่

โมเดลภาษาคืออะไร

โมเดลภาษา ประมาณความน่าจะเป็นของโทเค็น หรือลำดับโทเค็นที่เกิดขึ้นภายในลำดับโทเค็นที่ยาวกว่า โทเค็น อาจเป็นคำ คำย่อย (ส่วนย่อยของคำ) หรือแม้แต่อักขระเดี่ยว

พิจารณาประโยคต่อไปนี้และโทเค็นที่อาจเติมข้อความให้สมบูรณ์

When I hear rain on my roof, I _______ in my kitchen.

โมเดลภาษาจะกำหนดความน่าจะเป็นของโทเค็นหรือลำดับโทเค็นต่างๆ เพื่อเติมช่องว่างนั้น ตัวอย่างเช่น URL ต่อไปนี้ ตารางความน่าจะเป็นจะระบุโทเค็นและความน่าจะเป็นที่เป็นไปได้ ดังนี้

Probability โทเค็น
9.4% ทำซุป
5.2% อุ่นกาต้มน้ำ
3.6% ว้าว
2.5% งีบ
2.2% ผ่อนคลาย

ในบางกรณี ลำดับของโทเค็นอาจเป็นประโยคทั้งประโยค ย่อหน้าหนึ่งๆ หรือเขียนเรียงความทั้งหมดเลยก็ได้

แอปพลิเคชันสามารถใช้ตารางความน่าจะเป็นเพื่อทำการคาดการณ์ การคาดการณ์อาจเป็นความเป็นไปได้สูงสุด (เช่น "ซุป") หรือการสุ่มเลือกจากโทเค็นที่มีความน่าจะเป็นมากกว่า

การประมาณความน่าจะเป็นของสิ่งที่จะเติมลงในช่องว่างของลำดับข้อความสามารถขยายไปใช้กับงานที่ซับซ้อนมากขึ้นได้ ซึ่งรวมถึง

  • กำลังสร้างข้อความ
  • การแปลข้อความจากภาษาหนึ่งเป็นอีกภาษา
  • การสรุปเอกสาร

โมเดลภาษาสมัยใหม่พัฒนาโดยสร้างแบบจำลองทางสถิติของโทเค็น ภาษาภายในที่ทรงพลัง และสามารถสร้าง ภาษาที่สมเหตุสมผล

โมเดลภาษา N-gram

N-grams คือลำดับคำตามลำดับ ใช้ในการสร้างโมเดลภาษา โดยที่ N คือจำนวนคำในลำดับ ตัวอย่างเช่น เมื่อ N คือ 2 N-gram จะเรียกว่า 2 กรัม (หรือ bigram); เมื่อ N คือ 5 เครื่องหมาย N คือ ที่เรียกว่า 5 กรัม ได้รับวลีต่อไปนี้ในเอกสารการฝึกอบรม:

you are very nice

ผลที่ได้คือ 2 กรัม

  • คุณ
  • มาก
  • ดีมาก

เมื่อ N เท่ากับ 3 ไวยากรณ์ N จะเรียกว่า 3 กรัม (หรือ trigram) เมื่อพิจารณาวลีเดียวกันนี้ 3-gram ที่ได้จะเป็นดังนี้

  • คุณ
  • แจ่มมาก

หากคำ 2 คำเป็นอินพุต โมเดลภาษาขนาด 3 กรัมจะสามารถคาดการณ์ แนวโน้มของคำที่สาม ตัวอย่างเช่น ระบุคำ 2 คำต่อไปนี้

orange is

โมเดลภาษาจะตรวจสอบ 3 กรัมทั้งหมดที่ได้จากการฝึก คลังข้อมูลที่ขึ้นต้นด้วย orange is เพื่อหาคำที่น่าจะเป็นคำที่ 3 3-gram หลายร้อยรายการอาจเริ่มต้นด้วยคํา orange is 2 คํานี้ แต่คุณมุ่งเน้นที่ 2 โอกาสต่อไปนี้ได้

orange is ripe
orange is cheerful

ความเป็นไปได้แรก (orange is ripe) หมายถึงส้มที่เป็นผลไม้ ส่วนความเป็นไปได้ที่ 2 (orange is cheerful) หมายถึงสีส้ม

บริบท

มนุษย์สามารถรักษาบริบทที่ค่อนข้างยาวได้ ขณะที่ดูละครเวที Act 3 คุณ ยังคงทราบความรู้เกี่ยวกับตัวละครที่นำมาใช้ในองก์ 1 ในทำนองเดียวกัน มุกตลกยาวๆ จะทำให้คุณหัวเราะได้เพราะคุณจำบริบทจากฉากเปิดของมุกตลกนั้นได้

ในโมเดลภาษา บริบทคือข้อมูลที่เป็นประโยชน์ก่อนหรือหลังโทเค็นเป้าหมาย บริบทช่วยให้โมเดลภาษาระบุได้ว่าเป็น "สีส้ม" หรือไม่ หมายถึงผลไม้ตระกูลส้มหรือสีหนึ่ง

บริบทช่วยให้โมเดลภาษาคาดการณ์ได้ดีขึ้น แต่ 3 กรัมให้บริบทเพียงพอหรือไม่ แต่บริบทเดียวที่ 3-gram ให้คือ 2 คำแรก ตัวอย่างเช่น สองคำ orange is ไม่ ให้บริบทที่เพียงพอสำหรับโมเดลภาษาในการคาดเดาคำที่สาม เนื่องจากขาดบริบท โมเดลภาษาขนาด 3 กรัมจึงทำผิดพลาดได้มาก

N-gram ที่ยาวกว่าจะให้บริบทได้มากกว่า N-gram ที่สั้นกว่า อย่างไรก็ตาม เมื่อ N เพิ่มขึ้น การเกิดสัมพัทธ์ของแต่ละอินสแตนซ์จะลดลง เมื่อ N ใหญ่ขึ้นมาก โมเดลภาษาโดยทั่วไปจะมีเพียง อินสแตนซ์ของโทเค็น N แต่ละรายการ ซึ่งไม่มีประโยชน์มากนัก คาดการณ์โทเค็นเป้าหมาย

โครงข่ายประสาทแบบเกิดซ้ำ

ประสาทเทียมที่เกิดซ้ำ เครือข่าย ให้บริบทมากกว่า N-gram โครงข่ายประสาทแบบเกิดซ้ำเป็น โครงข่ายระบบประสาทเทียมที่ฝึก ตามลำดับของโทเค็น ตัวอย่างเช่น โครงข่ายระบบประสาทเทียมแบบซ้ำจะสามารถเรียนรู้ (และเรียนรู้ที่จะไม่สนใจ) บริบทที่เลือกจากแต่ละคำในประโยคทีละน้อย คล้ายกับที่คุณทำเมื่อฟังคนพูด โครงข่ายประสาทแบบเกิดซ้ำขนาดใหญ่สามารถรับบริบทได้จากหลายข้อความ ประโยค

แม้ว่าโครงข่ายประสาทแบบเกิดซ้ำจะเรียนรู้บริบทมากกว่าหน่วยกรัม แต่ปริมาณ ของโครงข่ายระบบประสาทเทียมแบบทำซ้ำที่มีบริบทที่เป็นประโยชน์ อาจจะยังถือว่า แบบจำกัด เครือข่ายประสาทแบบซ้ำจะประเมินข้อมูล "ทีละโทเค็น" ในทางกลับกัน โมเดลภาษาขนาดใหญ่ ซึ่งเป็นหัวข้อถัดไป สามารถประเมินบริบททั้งหมดได้ในครั้งเดียว

โปรดทราบว่าการฝึกโครงข่ายประสาทแบบเกิดซ้ำสําหรับบริบทที่ยาวนานจะถูกจํากัดโดย การไล่ระดับสีที่หายตัวไป

แบบฝึกหัด: ตรวจสอบความเข้าใจ

โมเดลภาษาใดทำการคาดคะเนข้อความภาษาอังกฤษได้ดีกว่า
  • โมเดลภาษาขนาด 6 กรัม
  • โมเดลภาษาขนาด 5 กรัม
คำตอบขึ้นอยู่กับขนาดและความหลากหลายของชุดการฝึก
หากชุดการฝึกมีเอกสารที่หลากหลายหลายล้านรายการ โมเดลที่อิงตาม 6-gram อาจมีประสิทธิภาพดีกว่าโมเดลที่อิงตาม 5-gram
โมเดลภาษาที่อิงตาม 6-grams
โมเดลภาษานี้มีบริบทมากกว่า แต่เว้นแต่ว่าโมเดลนี้จะได้รับการฝึกด้วยเอกสารจํานวนมาก รูปแบบ 6 พยางค์ส่วนใหญ่จะพบได้น้อย
โมเดลภาษาจากน้ำหนัก 5 กรัม
โมเดลภาษานี้มีบริบทน้อยกว่า จึงไม่น่าจะ มีประสิทธิภาพสูงกว่าโมเดลภาษาตรง 6 กรัม