Sprawdzone metody dotyczące dźwięku

Na tej stronie znajdziesz zalecenia dotyczące przekazywania danych o mowie do interfejsu Google Assistant API. Opracowaliśmy te wskazówki z myślą o większej skuteczności i dokładności, a także z rozsądnym czasem odpowiedzi.

Wstępne przetwarzanie dźwięku

Najlepiej jest, gdy dźwięk jest jak najczystszy, a używany do tego mikrofon wysokiej jakości. Jednak zastosowanie przetwarzania sygnału redukcji szumów przed przesłaniem dźwięku do usługi zazwyczaj zmniejsza dokładność rozpoznawania. Usługa została zaprojektowana w celu obsługi hałaśliwych dźwięków.

Aby uzyskać najlepsze rezultaty:

  • Ustaw mikrofon jak najbliżej użytkownika, szczególnie wtedy, gdy w tle występuje szum.
  • Unikaj tworzenia klipów audio.
  • Nie używaj automatycznej kontroli wzmocnienia (AGC).
  • Całe przetwarzanie redukcji szumów powinno być wyłączone.

Idealnie:

  • Poziom dźwięku należy skalibrować tak, aby sygnał wejściowy nie był zacinany, a szczytowe poziomy głośności mowy wynoszą około -20–10 dBFS.
  • Urządzenie powinno wykazywać w przybliżeniu „płaską” amplitudę w porównaniu z częstotliwością (+-3 dB w zakresie 100–8000 Hz).
  • Całkowite zniekształcenie harmoniczne powinno być mniejsze niż 1% w zakresie od 100 Hz do 8000 Hz przy poziomie wejściowego 90 dB SPL.