Best Practices für Audioinhalte

Auf dieser Seite finden Sie Empfehlungen zur Bereitstellung von Sprachdaten für die Google Assistant API. Diese Richtlinien sorgen für mehr Effizienz und Genauigkeit sowie angemessene Antwortzeiten des Dienstes.

Vorverarbeitung von Audios

Es empfiehlt sich, Audios bereitzustellen, die so sauber wie möglich sind und eine gute Qualität haben. Außerdem sollten Sie für ein gut positioniertes Mikrofon sorgen. Wenn Sie eine das Rauschen reduzierende Signalverarbeitung auf das Audio anwenden, bevor Sie dieses an den Dienst senden, wird dadurch in den meisten Fällen die Erkennungsgenauigkeit reduziert. Der Dienst wurde so entwickelt, dass Rauschen im Audio automatisch behandelt wird.

Für optimale Ergebnisse:

  • Positionieren Sie das Mikrofon so nah wie möglich am Nutzer, insbesondere wenn Hintergrundgeräusche vorhanden sind.
  • Vermeiden Sie das Übersteuern von Audiosignalen.
  • Verwenden Sie keine automatische Verstärkungsregelung (automatic gain control = AGC).
  • Alle Verarbeitungsmethoden zur Rauschunterdrückung sollten deaktiviert werden.

Idealerweise:

  • Die Lautstärke sollte so kalibriert sein, dass das Eingabesignal nicht überspringt und die Audio-Lautstärke bei Spitzenwerten ungefähr -20 bis -10 dBFS erreicht.
  • Das Gerät sollte ungefähr eine „flache“ Amplitude im Vergleich zu Frequenzeigenschaften haben (+-3 dB 100 Hz bis 8.000 Hz).
  • Die gesamte harmonische Verzerrung sollte von 100 Hz bis 8.000 Hz bei einem Eingangspegel von 90 dB unter 1% liegen.

Abtastrate

Legen Sie für die Abtastrate der Audioquelle nach Möglichkeit 16.000 Hz fest. Andernfalls legen Sie für sample_rate_hertz fest, dass sie mit der nativen Abtastrate der Audioquelle übereinstimmt (statt einer neuen Abtastrate).

Framegröße

Google Assistant erkennt Live-Audio, wenn es in einem Mikrofon aufgenommen wird. Der Audiostream muss in Frames aufgeteilt und in aufeinanderfolgenden AssistRequest-Nachrichten gesendet werden. Jede beliebige Framegröße ist zulässig. Größere Frames sind effizienter, sorgen aber für zusätzliche Latenz. Eine Framegröße von 100 Millisekunden wird als guter Kompromiss zwischen Latenz und Effizienz empfohlen.