เราจะเลิกใช้งานการดําเนินการแบบบทสนทนาในวันที่ 13 มิถุนายน 2023 โปรดดูข้อมูลเพิ่มเติมที่หัวข้อการหยุดให้บริการการดําเนินการด้านการสนทนา

แนวทางปฏิบัติที่ดีที่สุดสําหรับเสียง

หน้านี้มีคําแนะนําเกี่ยวกับการให้ข้อมูลเสียงพูดแก่ Google Assistant API หลักเกณฑ์เหล่านี้ออกแบบมาเพื่อประสิทธิภาพและความถูกต้องแม่นยําที่มากขึ้น รวมถึงเวลาตอบสนองที่เหมาะสมจากบริการ

การประมวลผลเสียงล่วงหน้า

คุณควรใช้เสียงที่คมชัดที่สุดเท่าที่จะเป็นไปได้โดยใช้ไมโครโฟนที่มีคุณภาพดีและมีการจัดตําแหน่งอย่างเหมาะสม แต่การใช้การประมวลผลสัญญาณการลดเสียงรบกวนไปยังเสียงก่อนที่จะส่งไปยังบริการมักจะลดความแม่นยําในการจดจํา บริการนี้ออกแบบมาเพื่อจัดการกับเสียงที่ดังรบกวน

เพื่อให้ได้ภาพที่ดีที่สุด ให้ทำดังนี้

  • วางไมโครโฟนให้ใกล้กับผู้ใช้มากที่สุด โดยเฉพาะเมื่อมีเสียงรบกวน
  • หลีกเลี่ยงการตัดเสียง
  • อย่าใช้การควบคุมค่าเกนอัตโนมัติ (AGC)
  • ควรปิดใช้การลดเสียงรบกวนทั้งหมด

โดยหลักการแล้ว

  • ควรปรับเทียบระดับสัญญาณเสียงเพื่อให้สัญญาณอินพุตไม่หลุด และระดับเสียงของเสียงสูงสุดถึงประมาณ -20 -10 dBFS
  • อุปกรณ์ควรแสดงแอมพลิจูด "ราบ" โดยประมาณเทียบกับ ความถี่ (+- 3 dB 100 Hz ถึง 8000 Hz)
  • ความผิดเพี้ยนของเสียงฮาร์โมนิกทั้งหมดควรต่ํากว่า 1% จาก 100 Hz ถึง 8000 Hz ที่ระดับอินพุต 90 dB SPL

อัตราการสุ่มตัวอย่าง

หากเป็นไปได้ ให้ตั้งค่าอัตราการสุ่มตัวอย่างแหล่งที่มาของเสียงเป็น 16000 Hz หรือตั้งค่า sample_rate_hertz ให้ตรงกับอัตราตัวอย่างดั้งเดิมของแหล่งที่มาของเสียง (แทนที่จะสุ่มเสียงใหม่)

ขนาดเฟรม

Google Assistant จะจําเสียงแบบสดได้เพราะบันทึกจากไมโครโฟน การสตรีมเสียงต้องแยกออกเป็นเฟรมและส่งในข้อความ AssistRequest ติดต่อกัน ระบบยอมรับเฟรมทุกขนาด เฟรมที่มีขนาดใหญ่กว่าจะมีประสิทธิภาพมากกว่า แต่เพิ่มเวลาในการตอบสนอง ขอแนะนําขนาดเฟรม 100 มิลลิวินาที ซึ่งเป็นข้อดีข้อเสียของเวลาในการตอบสนองและประสิทธิภาพ