โมเดลภาษาคืออะไร
โมเดลภาษา จะประมาณความน่าจะเป็นของโทเค็น หรือลำดับของโทเค็นที่เกิดขึ้นภายในลำดับโทเค็นที่ยาวกว่า โทเค็น อาจเป็นคำ คำย่อย (คำย่อยของคำ) หรือแม้แต่อักขระตัวเดียว
ลองพิจารณาประโยคต่อไปนี้และโทเค็นที่อาจเติมเต็มประโยค
When I hear rain on my roof, I _______ in my kitchen.
โมเดลภาษาจะกำหนดความน่าจะเป็นของโทเค็นต่างๆ หรือ ลำดับของโทเค็นเพื่อเติมคำในช่องว่างนั้น ตัวอย่างเช่น ตารางความน่าจะเป็นต่อไปนี้ ระบุโทเค็นที่เป็นไปได้บางรายการและความน่าจะเป็นของโทเค็นเหล่านั้น
| Probability | โทเค็น |
|---|---|
| 9.4% | ทำซุป |
| 5.2% | อุ่นกาต้มน้ำ |
| 3.6% | ซุกตัว |
| 2.5% | งีบ |
| 2.2% | ผ่อนคลาย |
ในบางสถานการณ์ ลำดับของโทเค็นอาจเป็นทั้งประโยค ย่อหน้า หรือแม้แต่เรียงความทั้งฉบับ
แอปพลิเคชันสามารถใช้ตารางความน่าจะเป็นเพื่อทำการคาดการณ์ได้ การคาดการณ์อาจเป็นความน่าจะเป็นสูงสุด (เช่น "ทำซุป") หรือการเลือกแบบสุ่มจากโทเค็นที่มีความน่าจะเป็นมากกว่าเกณฑ์ ที่กำหนด
การประมาณความน่าจะเป็นของสิ่งที่เติมในช่องว่างในลำดับข้อความสามารถ ขยายไปสู่งานที่ซับซ้อนมากขึ้นได้ ซึ่งรวมถึง
- กำลังสร้างข้อความ
- การแปลข้อความจากภาษาหนึ่งเป็นอีกภาษาหนึ่ง
- สรุปเอกสาร
การสร้างรูปแบบทางสถิติของโทเค็นทำให้โมเดลภาษาที่ทันสมัยพัฒนา การแสดงภาษาภายในที่ทรงพลังอย่างยิ่งและสร้าง ภาษาที่สมเหตุสมผลได้
โมเดลภาษาแบบ N-gram
N-gram คือลำดับคำที่เรียงตามลำดับ ซึ่งใช้สร้างโมเดลภาษา โดย N คือจำนวนคำในลำดับ เช่น เมื่อ N เป็น 2 N-gram จะเรียกว่า 2-gram (หรือ bigram) เมื่อ N เป็น 5 N-gram จะเรียกว่า 5-gram เมื่อมีวลีต่อไปนี้ในเอกสารการฝึก
you are very nice
โดย 2-gram ที่ได้มีดังนี้
- คุณ
- มีความ
- ดีมาก
เมื่อ N เป็น 3 เราจะเรียก N-gram ว่า 3-gram (หรือ trigram) เมื่อพิจารณาวลีเดียวกันนี้ 3-แกรมที่ได้คือ
- คุณ
- ดีมาก
เมื่อป้อนคำ 2 คำ โมเดลภาษาที่อิงตามไตรแกรมจะคาดการณ์ความเป็นไปได้ของคำที่ 3 ได้ ตัวอย่างเช่น หากมีคำ 2 คำต่อไปนี้
orange is
โมเดลภาษาจะตรวจสอบ 3-แกรมที่แตกต่างกันทั้งหมดซึ่งได้มาจากการฝึก
คลังข้อความที่ขึ้นต้นด้วย orange is เพื่อพิจารณาคำที่ 3 ที่มีแนวโน้มมากที่สุด
คำ 3 พยางค์หลายร้อยคำอาจขึ้นต้นด้วยคำ 2 คำ orange is แต่คุณสามารถ
มุ่งเน้นเฉพาะ 2 ความเป็นไปได้ต่อไปนี้
orange is ripe orange is cheerful
ความเป็นไปได้แรก (orange is ripe) เกี่ยวกับส้มที่เป็นผลไม้
ส่วนความเป็นไปได้ที่ 2 (orange is cheerful) เกี่ยวกับสี
ส้ม
บริบท
มนุษย์สามารถจดจำบริบทที่ค่อนข้างยาวได้ ขณะดูองก์ที่ 3 ของละคร คุณจะ ยังคงมีความรู้เกี่ยวกับตัวละครที่เปิดตัวในองก์ที่ 1 ในทำนองเดียวกัน มุกตลกยาวๆ จะทำให้คุณหัวเราะได้เพราะคุณจำบริบท จากการปูมุกได้
ในโมเดลภาษา บริบทคือข้อมูลที่เป็นประโยชน์ก่อนหรือหลังโทเค็นเป้าหมาย บริบทช่วยให้โมเดลภาษาพิจารณาได้ว่า "ส้ม" หมายถึงผลไม้รสเปรี้ยวหรือสี
บริบทช่วยให้โมเดลภาษาคาดการณ์ได้ดีขึ้น แต่ 3-gram ให้บริบทเพียงพอหรือไม่ น่าเสียดายที่บริบทเดียวที่ 3-gram
ให้คือ 2 คำแรก เช่น คำ 2 คำorange is ไม่ได้
ให้บริบทเพียงพอสำหรับโมเดลภาษาในการคาดการณ์คำที่ 3
โมเดลภาษาที่อิงตาม 3-gram จึงมีข้อผิดพลาดมากมายเนื่องจากขาดบริบท
แน่นอนว่า N-gram ที่ยาวกว่าจะให้บริบทมากกว่า N-gram ที่สั้นกว่า อย่างไรก็ตาม เมื่อ N เพิ่มขึ้น ความถี่สัมพัทธ์ของแต่ละอินสแตนซ์จะลดลง เมื่อ N มีขนาดใหญ่มาก โดยปกติแล้วโมเดลภาษาจะมีอินสแตนซ์เดียวของโทเค็น N แต่ละรายการ ซึ่งไม่ค่อยมีประโยชน์ในการคาดการณ์โทเค็นเป้าหมาย
โครงข่ายประสาทแบบเกิดซ้ำ
เครือข่าย ประสาทแบบเกิดซ้ำ ให้บริบทมากกว่า N-gram โครงข่ายประสาทเทียมแบบเกิดซ้ำเป็นโครงข่ายประสาทเทียมประเภทหนึ่งที่ฝึกกับลำดับโทเค็น เช่น เครือข่ายประสาทแบบเกิดซ้ำ สามารถเรียนรู้ (และเรียนรู้ที่จะไม่สนใจ) บริบทที่เลือกจากแต่ละคำในประโยคทีละน้อย คล้ายกับที่คุณทำเมื่อฟังผู้อื่นพูด โครงข่ายประสาทเทียมแบบเกิดซ้ำขนาดใหญ่สามารถรับบริบทจากข้อความที่มีหลายประโยคได้
แม้ว่าโครงข่ายประสาทแบบเกิดซ้ำจะเรียนรู้บริบทได้มากกว่า N-gram แต่ปริมาณบริบทที่มีประโยชน์ที่โครงข่ายประสาทแบบเกิดซ้ำสามารถคาดเดาได้ก็ยังค่อนข้างจำกัด โครงข่ายประสาทแบบเกิดซ้ำจะประเมินข้อมูล "โทเค็นต่อโทเค็น" ในทางตรงกันข้าม โมเดลภาษาขนาดใหญ่ซึ่งเป็นหัวข้อในส่วนถัดไปสามารถประเมินบริบททั้งหมดได้ในครั้งเดียว
โปรดทราบว่าการฝึกโครงข่ายประสาทเทียมแบบเกิดซ้ำสำหรับบริบทที่ยาวนั้นมีข้อจำกัดจากปัญหาการไล่ระดับสีที่หายไป
แบบฝึกหัด: ทดสอบความเข้าใจ
- โมเดลภาษาที่อิงตาม 6-แกรม
- โมเดลภาษาที่อิงตาม 5-แกรม