音訊最佳做法

本頁提供向 Google 助理 API 提供語音資料的建議。這些規範的用意在於提高效率和準確度,並為服務提供合理的回應時間。

音訊預先處理

建議使用品質良好且位置適當的麥克風,以提供盡可能清晰的音訊。但是,在將音訊傳送至服務之前,對音訊進行雜訊抑制訊號處理通常會降低辨識準確性。服務主要是用來處理吵雜音訊。

為確保最佳成效:

  • 盡可能將麥克風靠近使用者,特別是在有背景噪音的時候。
  • 避免音訊剪輯。
  • 請勿使用自動增益控制功能 (AGC)。
  • 應停用所有雜訊抑制處理。

理想情況:

  • 音訊層級必須進行校正,讓輸入信號不會剪輯,且語音語音音量最高峰值約為 -20 至 -10 dBFS。
  • 本裝置應呈現大約「固定」振幅與頻率特徵 (+-3 dB 100 Hz 至 8000 Hz) 之間的差異。
  • 100 Hz 和 9000 Hz 的 10 Hz 失真變焦比 90 dB SPL 輸入等級

取樣率

請盡可能將音訊來源的取樣率設為 16000 Hz。否則,請設定 sample_rate_hertz 以與音訊來源的原生取樣率相符 (而非重新取樣)。

影格大小

Google 助理會識別從麥克風擷取的即時音訊。 音訊串流必須分割成影格,並傳送連續 AssistRequest 訊息。可接受任何頁框大小。大型影格會更有效率,但會增加延遲時間。建議使用 100 毫秒的影格大小,做為延遲時間與效率之間的最佳平衡。