หน้านี้มีคําแนะนําเกี่ยวกับการให้ข้อมูลเสียงพูดแก่ Google Assistant API หลักเกณฑ์เหล่านี้ออกแบบมาเพื่อประสิทธิภาพและความถูกต้องแม่นยําที่มากขึ้น รวมถึงเวลาตอบสนองที่เหมาะสมจากบริการ
การประมวลผลเสียงล่วงหน้า
คุณควรใช้เสียงที่คมชัดที่สุดเท่าที่จะเป็นไปได้โดยใช้ไมโครโฟนที่มีคุณภาพดีและมีการจัดตําแหน่งอย่างเหมาะสม แต่การใช้การประมวลผลสัญญาณการลดเสียงรบกวนไปยังเสียงก่อนที่จะส่งไปยังบริการมักจะลดความแม่นยําในการจดจํา บริการนี้ออกแบบมาเพื่อจัดการกับเสียงที่ดังรบกวน
เพื่อให้ได้ภาพที่ดีที่สุด ให้ทำดังนี้
- วางไมโครโฟนให้ใกล้กับผู้ใช้มากที่สุด โดยเฉพาะเมื่อมีเสียงรบกวน
- หลีกเลี่ยงการตัดเสียง
- อย่าใช้การควบคุมค่าเกนอัตโนมัติ (AGC)
- ควรปิดใช้การลดเสียงรบกวนทั้งหมด
โดยหลักการแล้ว
- ควรปรับเทียบระดับสัญญาณเสียงเพื่อให้สัญญาณอินพุตไม่หลุด และระดับเสียงของเสียงสูงสุดถึงประมาณ -20 -10 dBFS
- อุปกรณ์ควรแสดงแอมพลิจูด "ราบ" โดยประมาณเทียบกับ ความถี่ (+- 3 dB 100 Hz ถึง 8000 Hz)
- ความผิดเพี้ยนของเสียงฮาร์โมนิกทั้งหมดควรต่ํากว่า 1% จาก 100 Hz ถึง 8000 Hz ที่ระดับอินพุต 90 dB SPL
อัตราการสุ่มตัวอย่าง
หากเป็นไปได้ ให้ตั้งค่าอัตราการสุ่มตัวอย่างแหล่งที่มาของเสียงเป็น 16000 Hz หรือตั้งค่า sample_rate_hertz
ให้ตรงกับอัตราตัวอย่างดั้งเดิมของแหล่งที่มาของเสียง (แทนที่จะสุ่มเสียงใหม่)
ขนาดเฟรม
Google Assistant จะจําเสียงแบบสดได้เพราะบันทึกจากไมโครโฟน
การสตรีมเสียงต้องแยกออกเป็นเฟรมและส่งในข้อความ AssistRequest
ติดต่อกัน ระบบยอมรับเฟรมทุกขนาด เฟรมที่มีขนาดใหญ่กว่าจะมีประสิทธิภาพมากกว่า
แต่เพิ่มเวลาในการตอบสนอง ขอแนะนําขนาดเฟรม 100 มิลลิวินาที
ซึ่งเป็นข้อดีข้อเสียของเวลาในการตอบสนองและประสิทธิภาพ