音频最佳实践

本页包含有关如何向 Google Assistant API 提供语音数据的建议。这些准则旨在提高操作效率和准确性,同时保证服务的合理响应时间。

音频预处理

最好使用品质良好的麦克风并将其放置在适当位置,以便提供尽可能纯净的音频。但是,在将音频发送到服务之前对其应用降噪信号处理通常会降低识别准确性。该服务旨在处理嘈杂音频。

为了达到最佳效果,请注意以下事项:

  • 将麦克风放置在尽可能靠近用户的位置,尤其是当存在背景噪声时。
  • 避免音频剪辑。
  • 不要使用自动增益控制 (AGC)。
  • 应停用所有降噪处理。

理想情况下:

  • 应校准音频电平,以使输入信号不会裁剪,并且峰值语音音频电平达到大约 -20 到 -10 dBFS。
  • 设备应表现出大致“平坦”的幅频特性(+-3 dB,100 Hz 到 8000 Hz)。
  • 当输入等级为 90 dB SPL 时,从 100 Hz 到 8000 Hz 时,总谐波畸变率应小于 1%。

采样率

如果可能,请将音频源的采样率设置为 16000 Hz。否则,请将 sample_rate_hertz 设置为与音频源的原生采样率一致(而不是重新采样)。

帧大小

Google 助理会在从麦克风捕获音频时识别实时音频。音频流必须拆分为帧并以连续的 AssistRequest 消息的形式发送。任何帧大小都可以接受。较大的帧效率更高,但会增加延迟时间。为了在延迟时间和效率之间取得较好的平衡,建议使用 100 毫秒的帧大小。