ข้อมูลเบื้องต้นเกี่ยวกับโมเดลภาษาขนาดใหญ่

โมเดลภาษาคืออะไร

โมเดลภาษา จะประมาณความน่าจะเป็นของโทเค็น หรือลำดับของโทเค็นที่เกิดขึ้นภายในลำดับโทเค็นที่ยาวกว่า โทเค็น อาจเป็นคำ คำย่อย (คำย่อยของคำ) หรือแม้แต่อักขระตัวเดียว

ลองพิจารณาประโยคต่อไปนี้และโทเค็นที่อาจเติมเต็มประโยค

When I hear rain on my roof, I _______ in my kitchen.

โมเดลภาษาจะกำหนดความน่าจะเป็นของโทเค็นต่างๆ หรือ ลำดับของโทเค็นเพื่อเติมคำในช่องว่างนั้น ตัวอย่างเช่น ตารางความน่าจะเป็นต่อไปนี้ ระบุโทเค็นที่เป็นไปได้บางรายการและความน่าจะเป็นของโทเค็นเหล่านั้น

Probability โทเค็น
9.4% ทำซุป
5.2% อุ่นกาต้มน้ำ
3.6% ซุกตัว
2.5% งีบ
2.2% ผ่อนคลาย

ในบางสถานการณ์ ลำดับของโทเค็นอาจเป็นทั้งประโยค ย่อหน้า หรือแม้แต่เรียงความทั้งฉบับ

แอปพลิเคชันสามารถใช้ตารางความน่าจะเป็นเพื่อทำการคาดการณ์ได้ การคาดการณ์อาจเป็นความน่าจะเป็นสูงสุด (เช่น "ทำซุป") หรือการเลือกแบบสุ่มจากโทเค็นที่มีความน่าจะเป็นมากกว่าเกณฑ์ ที่กำหนด

การประมาณความน่าจะเป็นของสิ่งที่เติมในช่องว่างในลำดับข้อความสามารถ ขยายไปสู่งานที่ซับซ้อนมากขึ้นได้ ซึ่งรวมถึง

  • กำลังสร้างข้อความ
  • การแปลข้อความจากภาษาหนึ่งเป็นอีกภาษาหนึ่ง
  • สรุปเอกสาร

การสร้างรูปแบบทางสถิติของโทเค็นทำให้โมเดลภาษาที่ทันสมัยพัฒนา การแสดงภาษาภายในที่ทรงพลังอย่างยิ่งและสร้าง ภาษาที่สมเหตุสมผลได้

โมเดลภาษาแบบ N-gram

N-gram คือลำดับคำที่เรียงตามลำดับ ซึ่งใช้สร้างโมเดลภาษา โดย N คือจำนวนคำในลำดับ เช่น เมื่อ N เป็น 2 N-gram จะเรียกว่า 2-gram (หรือ bigram) เมื่อ N เป็น 5 N-gram จะเรียกว่า 5-gram เมื่อมีวลีต่อไปนี้ในเอกสารการฝึก

you are very nice

โดย 2-gram ที่ได้มีดังนี้

  • คุณ
  • มีความ
  • ดีมาก

เมื่อ N เป็น 3 เราจะเรียก N-gram ว่า 3-gram (หรือ trigram) เมื่อพิจารณาวลีเดียวกันนี้ 3-แกรมที่ได้คือ

  • คุณ
  • ดีมาก

เมื่อป้อนคำ 2 คำ โมเดลภาษาที่อิงตามไตรแกรมจะคาดการณ์ความเป็นไปได้ของคำที่ 3 ได้ ตัวอย่างเช่น หากมีคำ 2 คำต่อไปนี้

orange is

โมเดลภาษาจะตรวจสอบ 3-แกรมที่แตกต่างกันทั้งหมดซึ่งได้มาจากการฝึก คลังข้อความที่ขึ้นต้นด้วย orange is เพื่อพิจารณาคำที่ 3 ที่มีแนวโน้มมากที่สุด คำ 3 พยางค์หลายร้อยคำอาจขึ้นต้นด้วยคำ 2 คำ orange is แต่คุณสามารถ มุ่งเน้นเฉพาะ 2 ความเป็นไปได้ต่อไปนี้

orange is ripe
orange is cheerful

ความเป็นไปได้แรก (orange is ripe) เกี่ยวกับส้มที่เป็นผลไม้ ส่วนความเป็นไปได้ที่ 2 (orange is cheerful) เกี่ยวกับสี ส้ม

บริบท

มนุษย์สามารถจดจำบริบทที่ค่อนข้างยาวได้ ขณะดูองก์ที่ 3 ของละคร คุณจะ ยังคงมีความรู้เกี่ยวกับตัวละครที่เปิดตัวในองก์ที่ 1 ในทำนองเดียวกัน มุกตลกยาวๆ จะทำให้คุณหัวเราะได้เพราะคุณจำบริบท จากการปูมุกได้

ในโมเดลภาษา บริบทคือข้อมูลที่เป็นประโยชน์ก่อนหรือหลังโทเค็นเป้าหมาย บริบทช่วยให้โมเดลภาษาพิจารณาได้ว่า "ส้ม" หมายถึงผลไม้รสเปรี้ยวหรือสี

บริบทช่วยให้โมเดลภาษาคาดการณ์ได้ดีขึ้น แต่ 3-gram ให้บริบทเพียงพอหรือไม่ น่าเสียดายที่บริบทเดียวที่ 3-gram ให้คือ 2 คำแรก เช่น คำ 2 คำorange is ไม่ได้ ให้บริบทเพียงพอสำหรับโมเดลภาษาในการคาดการณ์คำที่ 3 โมเดลภาษาที่อิงตาม 3-gram จึงมีข้อผิดพลาดมากมายเนื่องจากขาดบริบท

แน่นอนว่า N-gram ที่ยาวกว่าจะให้บริบทมากกว่า N-gram ที่สั้นกว่า อย่างไรก็ตาม เมื่อ N เพิ่มขึ้น ความถี่สัมพัทธ์ของแต่ละอินสแตนซ์จะลดลง เมื่อ N มีขนาดใหญ่มาก โดยปกติแล้วโมเดลภาษาจะมีอินสแตนซ์เดียวของโทเค็น N แต่ละรายการ ซึ่งไม่ค่อยมีประโยชน์ในการคาดการณ์โทเค็นเป้าหมาย

โครงข่ายประสาทแบบเกิดซ้ำ

เครือข่าย ประสาทแบบเกิดซ้ำ ให้บริบทมากกว่า N-gram โครงข่ายประสาทเทียมแบบเกิดซ้ำเป็นโครงข่ายประสาทเทียมประเภทหนึ่งที่ฝึกกับลำดับโทเค็น เช่น เครือข่ายประสาทแบบเกิดซ้ำ สามารถเรียนรู้ (และเรียนรู้ที่จะไม่สนใจ) บริบทที่เลือกจากแต่ละคำในประโยคทีละน้อย คล้ายกับที่คุณทำเมื่อฟังผู้อื่นพูด โครงข่ายประสาทเทียมแบบเกิดซ้ำขนาดใหญ่สามารถรับบริบทจากข้อความที่มีหลายประโยคได้

แม้ว่าโครงข่ายประสาทแบบเกิดซ้ำจะเรียนรู้บริบทได้มากกว่า N-gram แต่ปริมาณบริบทที่มีประโยชน์ที่โครงข่ายประสาทแบบเกิดซ้ำสามารถคาดเดาได้ก็ยังค่อนข้างจำกัด โครงข่ายประสาทแบบเกิดซ้ำจะประเมินข้อมูล "โทเค็นต่อโทเค็น" ในทางตรงกันข้าม โมเดลภาษาขนาดใหญ่ซึ่งเป็นหัวข้อในส่วนถัดไปสามารถประเมินบริบททั้งหมดได้ในครั้งเดียว

โปรดทราบว่าการฝึกโครงข่ายประสาทเทียมแบบเกิดซ้ำสำหรับบริบทที่ยาวนั้นมีข้อจำกัดจากปัญหาการไล่ระดับสีที่หายไป

แบบฝึกหัด: ทดสอบความเข้าใจ

โมเดลภาษาใดที่คาดการณ์ข้อความภาษาอังกฤษได้ดีกว่า
  • โมเดลภาษาที่อิงตาม 6-แกรม
  • โมเดลภาษาที่อิงตาม 5-แกรม
คำตอบขึ้นอยู่กับขนาดและความหลากหลายของชุดข้อมูลการฝึก
หากชุดการฝึกครอบคลุมเอกสารที่หลากหลายหลายล้านฉบับ โมเดลที่อิงตาม 6-gram อาจมีประสิทธิภาพเหนือกว่าโมเดลที่อิงตาม 5-gram
โมเดลภาษาที่อิงตาม 6-gram
โมเดลภาษานี้มีบริบทมากกว่า แต่เว้นแต่ว่าโมเดลนี้ จะได้รับการฝึกจากเอกสารจำนวนมาก 6-gram ส่วนใหญ่ จะพบได้ยาก
โมเดลภาษาที่อิงตาม 5-grams
โมเดลภาษานี้มีบริบทน้อยกว่า จึงไม่น่าจะ มีประสิทธิภาพเหนือกว่าโมเดลภาษาที่อิงตาม 6-gram