Bu sayfada, Google Asistan API'sine konuşma verilerinin nasıl sağlanacağıyla ilgili öneriler yer almaktadır. Bu yönergeler, daha yüksek verimlilik ve doğruluk ile hizmetin makul yanıt süreleri için tasarlanmıştır.
Ses ön işlemesi
Yüksek kaliteli ve iyi konumlandırmalı bir mikrofon kullanarak mümkün olduğunca temiz bir ses sunmanız en iyisidir. Ancak sesin hizmete gönderilmesinden önce gürültü azaltma sinyal işlemesinin uygulanması genellikle tanıma doğruluğunu azaltır. Hizmet, gürültülü sesleri işleyecek şekilde tasarlanmıştır.
En iyi sonuçlar için:
- Mikrofonu, özellikle de arka plan gürültüsü olduğunda kullanıcıya mümkün olduğunca yakın konumlandırın.
- Ses kırpmadan kaçının.
- Otomatik kazanç kontrolünü (AGC) kullanmayın.
- Tüm gürültü azaltma işlemleri devre dışı bırakılmalıdır.
İdeal olarak:
- Ses sinyalinin kalibre edilmesi gerekir. Böylece, giriş sinyali kırpılmaz ve en yüksek konuşma sesi düzeyleri yaklaşık olarak -20 ila -10 dBFS'ye ulaşır.
- Cihaz, yaklaşık olarak "düz" genlik ve sıklık özelliklerini (+- 3 dB 100 Hz ila 8.000 Hz) göstermelidir.
- Toplam harmonik bozulma, 100 Hz ile 8000 Hz arasında 90 dB SPL giriş düzeyinde% 1'den az olmalıdır.
Örnekleme hızı
Mümkünse ses kaynağının örnekleme hızını 16.000 Hz olarak ayarlayın. Aksi takdirde sample_rate_hertz
seçeneğini, ses kaynağının yerel örnek hızıyla eşleşecek şekilde ayarlayın (yeniden örnekleme yerine).
Kare boyutu
Google Asistan, mikrofondan yakalanan canlı sesleri tanır.
Ses akışı karelere bölünmeli ve ardışık AssistRequest
mesajlar halinde gönderilmelidir. Tüm kare boyutları kabul edilebilir. Büyük kareler daha verimlidir ancak daha fazla gecikme sağlar. Gecikme ve verimlilik arasında iyi bir denge için 100 milisaniyelik kare boyutu önerilir.