आवाज़ की तीव्रता

LUFS (फ़ुल स्केल के सापेक्ष लॉडनेस यूनिट) एक ऐसा स्टैंडर्ड है जो कई शैलियों और प्रोडक्शन स्टाइल में वॉल्यूम को नॉर्मलाइज़ करने की सुविधा देता है. LUFS एक जटिल एल्गोरिदम है जो एक सहज आवाज़ पर आधारित इंसान की सुनने की क्षमता पर आधारित है. इससे ऑडियो प्रोड्यूसर अपने एक्सप्लिसिट फ़्लो से बचने की सुविधा देते हैं. इस वजह से, उपयोगकर्ताओं को लगातार आवाज़ कम या ज़्यादा करनी पड़ती है. एलयूएफ़एस को एलकेएफ़एस भी कहा जाता है. तेज़ आवाज़, के-वेटेड, फ़ुल स्केल की तुलना में

एसएसएमएल की मदद से ऑडियो फ़ाइलें चलाते समय, स्टीरियो ऑडियो कॉन्टेंट के लिए औसत आवाज़ की औसत आवाज़ -16 LUFS (लाउडनेस यूनिट फ़ुल स्केल) होनी चाहिए, जो Google Assistant टीटीएस आउटपुट की औसत आवाज़ के बराबर हो. इस लेवल से, Google Assistant की तुलना में, आवाज़ से चालू होने वाले स्पीकर की आवाज़ को कंट्रोल करने और बदलने वाली डाइनैमिक रेंज वाले कॉन्टेंट के लिए ज़्यादा हेडरूम में अच्छा संतुलन मिलता है.

मोनो ऑडियो कॉन्टेंट के लिए, आवाज़ की औसत आवाज़ -16 एलयूएफ़एस के बजाय -19 एलयूएफ़एस होनी चाहिए. मोनो ऑडियो कॉन्टेंट के लिए, तेज़ आवाज़ का टारगेट स्टीरियो ऑडियो कॉन्टेंट के मुकाबले अलग होता है. ऐसा इसलिए, क्योंकि जब मोनो ऑडियो कॉन्टेंट को स्टीरियो सिग्नल के दोनों चैनलों पर डुप्लीकेट करके, स्टीरियो में बदला जाता है, तो सिग्नल की एनर्जी दोगुनी हो जाती है. इस सिग्नल की वैल्यू, 3.01 आवाज़ की इकाई (एलयू) के LUFS मेज़रमेंट से जुड़ी है. वहीं, जब एक स्पीकर पर चलाने के लिए स्टीरियो सिग्नल को मोनो में बदला जाता है, तो मोनो सिग्नल आम तौर पर हर चैनल से मिले सिग्नल का औसत करके बनाया जाता है. इस ट्रांसफ़ॉर्मेशन से, एलयूएफ़एस मेज़रमेंट को भी 3.01 LU के बराबर कम कर दिया जाता है. मोनो और स्टीरियो कॉन्टेंट के लिए, तेज़ आवाज़ के मेज़रमेंट की सीधे तौर पर तुलना नहीं की जा सकती है. हालांकि, इसे 3.01 एलयूएफ़एस होना चाहिए.

तापमान मापने वाले कुछ मीटर में, इस अंतर को ठीक करने के विकल्प मौजूद हैं. उदाहरण के लिए, अगर ffmpeg (नीचे देखें) का इस्तेमाल किया जा रहा है, तो नीचे बताए गए तरीके से dual_mono (या dualmono) विकल्प इस्तेमाल किया जा सकता है. अगर ऐसे विकल्प के साथ आवाज़ को तेज़ करने वाले मीटर का इस्तेमाल किया जा रहा है और आपने उस विकल्प को चालू किया है, तो तेज़ आवाज़ का टारगेट -16 LUFS होना चाहिए. इस बात से कोई फ़र्क़ नहीं पड़ता कि कॉन्टेंट स्टीरियो या मोनो है.

आवाज़ की आवाज़ को मापने और उसे अडजस्ट करने के लिए, हम दो विकल्पों का सुझाव देते हैं:

डीएडब्ल्यू और LUFS मीटर का इस्तेमाल करना

आपका ऑडियो, -16 LUFS सुझाव के मुताबिक है, इसे पक्का करने का तरीका यहां बताया गया है:

  1. पूरे ऑडियो में सभी ऑडियो को लगातार तेज़ और संतुलित (समान) लेवल पर बनाएँ, ताकि तेज़ आवाज़ में कोई भी उतार-चढ़ाव न आए.
  2. Google टीटीएस रेफ़रंस की तुलना में, आवाज़ की तीव्रता मापने के लिए डिजिटल ऑडियो वर्कस्टेशन (डीएडब्ल्यू) और एलयूएफ़एस मीटर सेट अप करें.
  3. अपने ऑडियो की आवाज़ का लेवल मापें और उसे कम या ज़्यादा करें, ताकि इसमें औसत रूप से करीब -16 एलयूएफ़एस (या अगर कॉन्टेंट मोनो है, तो -19 LUFS) है.
  4. अपने ऑडियो की कान की जांच करें. इसके लिए, आवाज़ की तुलना Google टीटीएस के तेज़ आवाज़ के रेफ़रंस से करें.

डीएडब्ल्यू और एलयूएफ़एस मीटर सेट अप करें

कई डीएडब्ल्यू और एलयूएफ़एस मीटर, फ़्रीवेयर और व्यावसायिक प्रॉडक्ट के तौर पर उपलब्ध हैं. अगर आपके पास पहले से ही एक पसंदीदा डीएडब्ल्यू और एलयूएफ़एस मीटर है, तो उसका इस्तेमाल किया जा सकता है. अगर ऐसा नहीं है, तो हमारा सुझाव है कि आप Windows और Linux के लिए Audacity और Mac के लिए Reaper DAWs के लिए और LUFS मीटर के लिए TBProAudio dpMeter II का सुझाव दें. नीचे दिए गए सेक्शन में यह माना गया है कि इन टूल का इस्तेमाल किया जा रहा है.

फ़ाइलें पाएं

  1. डीएडब्ल्यू डाउनलोड और इंस्टॉल करें:
    • Windows या Linux के लिए: Audacity
    • Mac के लिए: Reaper
  2. अपने ओएस के लिए dpMeter II डाउनलोड और इंस्टॉल करें. यह टूल, Audacity और Reaper, दोनों के साथ वीएसटी (वर्चुअल स्टूडियो टेक्नोलॉजी) प्लगिन के तौर पर काम करता है.
  3. Google टीटीएस की आवाज़ का रेफ़रंस ऑडियो फ़ाइल डाउनलोड करें. टीटीएस ऑडियो में लिखा है: "इस वाक्य में करीब -16 एलयूएफ़एस" है. यह फ़ाइल मीटर के लिए टेस्ट ऑडियो के साथ-साथ कान की जांच करने वाले रेफ़रंस का काम करती है.

Audacity (Windows/Linux) के लिए dpMeter II कॉन्फ़िगर करें

  1. Audacity में Google TTS की आवाज़ की पहचान वाली ऑडियो फ़ाइल खोलें.
  2. इफ़ेक्ट टैब पर क्लिक करके और प्लग-इन जोड़ें/हटाएं चुनकर dpMeter II प्लगिन खोलें.
  3. सूची में dpMeter2 ढूंढें. इसके बाद, चालू करें पर क्लिक करें. इसके बाद, ठीक है पर क्लिक करें. dpMeter II प्लगिन अब इफ़ेक्ट ड्रॉप-डाउन मेन्यू में दिखेगा.
  4. प्लग इन खोलने के लिए, Effect ड्रॉप-डाउन मेन्यू में dpMeter2 पर क्लिक करें. dpMeter II, RMS मोड (नारंगी कलर स्कीम) पर डिफ़ॉल्ट रूप से क्लिक करती है. LUFS मापने के लिए मोड को EBU r128 (नीले रंग की स्कीम) में बदलें.

रीपर (Mac) के लिए dpMeter II कॉन्फ़िगर करना

  1. शामिल करें > मीडिया फ़ाइल.... पर क्लिक करके Google टीटीएस की आवाज़ की पहचान करने वाला ऑडियो खोलें.
  2. ऑडियो लेयर के बाएं पैनल में मौजूद हरे रंग के FX बटन (इमेज में नंबर 1) पर क्लिक करके dpMeter II प्लगिन खोलें. एक FX विंडो दिखती है.

  3. सूची में dpMeter2 पर क्लिक करें. dpMeter II, आरएमएस मोड (नारंगी रंग स्कीम) पर डिफ़ॉल्ट रूप से काम करती है. LUFS मापने के लिए, मोड को EBU r128 (नीले रंग की स्कीम) में बदलें.

आवाज़ को मापना और उसमें बदलाव करना

अलग-अलग डीएडब्ल्यू में अलग-अलग मीटर से अलग-अलग रीडिंग मिलती है. ऑडसिटी, Google टीटीएस से जुड़े तेज़ आवाज़ के रेफ़रंस को -15.1 एलयूएफ़एस पर मापती है, जबकि रीपर, -16.0 एलयूएफ़एस दिखाता है. जब तक आपका डीएडब्ल्यू, -16 के +/-2 एलयूएफ़एस के अंदर Google टीटीएस के तेज़ आवाज़ के रेफ़रंस को मापता है, तब तक आपके ऑडियो की तीव्रता को सेट करने में यह ठीक से काम करता है.

आवाज़ को मापने और उसे अडजस्ट करने के बुनियादी चरण ये हैं:

  1. Google टीटीएस की तीव्रता को मापने के लिए dpMeter II का इस्तेमाल करें बेसलाइन LUFS रीडिंग को स्थापित करने के लिए संदर्भ. अगर Google टीटीएस रेफ़रंस के लिए, आपका डीएडब्ल्यू -16 एलयूएफ़एस से ज़्यादा या कम माप रहा है, तो अपने ऑडियो का मिलान डीएडब्ल्यू की बेसलाइन से करें. उदाहरण के लिए, Audacity में, dpMeter II 15.1 LUFS को इंटिग्रेट करके, 15.1 LUFS को मापता है. इसलिए, आपके प्रोग्राम के लिए, टारगेट की आवाज़ -15.1 LUFS होनी चाहिए.
  2. बेसलाइन तय करने के बाद, अपने ऑडियो को बेसलाइन रीडिंग से मैच करने के लिए उसमें बदलाव करें.

Google टीटीएस के तेज़ आवाज़ के संदर्भ को मापना

फ़ाइल की तीव्रता मापने के लिए, dpMeter II में हरे रंग के 'चलाएं' बटन पर क्लिक करें या अपने डीएडब्ल्यू (नीचे संख्या 4) में 'चलाएं' (स्पेसबार) दबाएं.

नीचे दी गई सूची में उन मुख्य सुविधाओं के बारे में बताया गया है जिनका इस्तेमाल आप dpMeter II में कर सकते हैं:

  1. मोड: LUFS में तीव्रता मापने के लिए ईबीयू (आरएमएस के बजाय) पर सेट करें
  2. कंट्रोल पाएं: पक्का करें कि यह 0.0 पर सेट हो, जब तक कि आप अपने प्रोग्राम की आवाज़ को बढ़ाने के लिए तैयार न हों.
  3. इंटिग्रेट की गई तेज़ आवाज़: यह आवाज़ की औसत तीव्रता का माप है, जिसका विश्लेषण प्लग-इन ने रीसेट बटन (5) पर क्लिक करने के बाद किया है. आवाज़ के हर बार आवाज़ को मापने से पहले, 'रीसेट करें' बटन (5) पर क्लिक करें. इससे यह पक्का हो जाएगा कि आवाज़ को सिर्फ़ मौजूदा आवाज़ से मापा जा रहा है.
  4. चलाएं: इससे ऑडियो फ़ाइल की तेज़ आवाज़ का विश्लेषण शुरू हो जाता है. (यह बटन सभी डीएडब्ल्यू में नहीं दिखता है. आपके डीएडब्ल्यू में मुख्य प्ले बटन (स्पेस बार) पर क्लिक करने से वहीं से असर पड़ता है.
  5. रीसेट करें: आवाज़ को तेज़ करने की हर माप के बीच में, इस बटन पर क्लिक करें.
  6. लागू करें: जब आप अपने प्रोग्राम के कॉन्टेंट की आवाज़ को Google टीटीएस रेफ़रंस के साउंड के हिसाब से सेट करने के लिए तैयार हों, तब यह बटन गेन कंट्रोल (2) के सेट किए गए आवाज़ के बदलाव को लागू करता है.

Google टीटीएस के तेज़ आवाज़ के संदर्भ से मिलान करना

आपने Google टीटीएस के तहत, आवाज़ की आवाज़ को रिकॉर्ड कर लिया है. इसके बाद, ऑडियो की आवाज़ को मापा और उसमें बदलाव किया जा सकता है:

  1. ऑडियो फ़ाइल खोलें और इफ़ेक्ट मेन्यू से dpMeter2 पर क्लिक करें.
  2. चलाएं बटन पर क्लिक करें और इंटीग्रेट की गई तेज़ आवाज़ की वैल्यू को अपनी ऑडियो फ़ाइल की औसत वैल्यू पर सेट होने दें.
  3. अगर आवाज़ की मौजूदा आवाज़ और Google टीटीएस की तेज़ आवाज़ में अंतर है, तो पहचान फ़ाइल से मिलते-जुलते ऑडियो की आवाज़ को अडजस्ट करें. उदाहरण के लिए, अगर आपके ऑडियो में इंटिग्रेट की गई -12 की आवाज़ को मापा जाता है, तो इसकी आवाज़ बहुत तेज़ है. इसलिए, गेन कंट्रोल को -4डीबी पर सेट करके मुनाफ़े को कम करें. इसके बाद, लागू करें पर क्लिक करके इसे Google टीटीएस, लाउडनेस रेफ़रंस (-16 LUFS) की टारगेट रेंज पर लाएं. टारगेट की आवाज़ को बढ़ाने के लिए, आपको ऑडियो के वॉल्यूम को मापना और उसमें बदलाव करना पड़ सकता है, क्योंकि 'गेन' सिर्फ़ LUFS का अनुमान लगाता है.

ffmpeg का इस्तेमाल करना

FFmpeg एक मीडिया फ़्रेमवर्क है, जिसमें मीडिया कन्वर्ज़न के लिए, कमांड लाइन टूल मौजूद है. इस टूल में, तेज़ आवाज़ को सामान्य बनाने के लिए loudnorm नाम का एक फ़िल्टर शामिल होता है. ड्यूअल-पास मोड का इस्तेमाल करके, अपनी ऑडियो फ़ाइल के वर्शन को -16 LUFS तेज़ आवाज़ पर आउटपुट करने के लिए, तेज़ आवाज़ का इस्तेमाल करें.

  1. FFmpeg डाउनलोड और इंस्टॉल करें.
  2. इंस्टॉलेशन डायरेक्ट्री पर जाएं और अपनी इनपुट फ़ाइल पर, तेज़ आवाज़ वाले फ़िल्टर की मदद से FFmpeg चलाएं. dual_mono विकल्प को ज़रूर चालू करें.

    ./ffmpeg -i /path/to/input.wav \
        -af loudnorm=I=-16:dual_mono=true:TP=-1.5:LRA=11:print_format=summary \
        -f null -
    

    यह FFmpeg को आउटपुट फ़ाइल बनाए बिना, आपकी मीडिया फ़ाइल की ऑडियो वैल्यू मापने का तरीका बताता है. आपको वैल्यू की एक सीरीज़ दिखेगी, जो इस तरह दिखेगी:

    Input Integrated:    -27.2 LUFS
    Input True Peak:     -14.4 dBTP
    Input LRA:             0.1 LU
    Input Threshold:     -37.7 LUFS
    
    Output Integrated:   -15.5 LUFS
    Output True Peak:     -2.7 dBTP
    Output LRA:            0.0 LU
    Output Threshold:    -26.2 LUFS
    
    Normalization Type:   Dynamic
    Target Offset:        -0.5 LU
    

    ऊपर दिए गए नमूना मान आने वाले मीडिया के बारे में अहम जानकारी दिखाते हैं. उदाहरण के लिए, Input Integrated वैल्यू से पता चलता है कि ऑडियो की आवाज़ बहुत तेज़ है. Output Integrated वैल्यू -16.0 के काफ़ी करीब है. Input True Peak और Input LRA, दोनों या तेज़ आवाज़ की रेंज, हमारी बताई गई छत से ज़्यादा है. सामान्य वर्शन में इन वैल्यू को कम कर दिया जाएगा. आखिर में, Target Offset आउटपुट में इस्तेमाल किए गए ऑफ़सेट गेन को दिखाता है.

  3. तेज़ आवाज़ वाले फ़िल्टर का दूसरा पास चलाएं और पहले चरण की वैल्यू को तेज़ आवाज़ के विकल्पों में "मेज़र किए गए" वैल्यू के तौर पर डालें.

    ./ffmpeg -i /path/to/input.wav -af loudnorm=I=-16:TP=-1.5:LRA=11:measured_I=-27.2:measured_TP=-14.4:measured_LRA=0.1:measured_thresh=-37.7:offset=-0.5:linear=true:print_format=summary output.wav
    

    output.wav फ़ाइल बनाई जाती है, जिसमें आपकी इनपुट फ़ाइल का तेज़ आवाज़ वाला वर्शन होता है.

यह टूल कैसे काम करता है, यह जानने के लिए ffmpeg तेज़ आवाज़ सामान्य करने से पहले और बाद में ऑडियो फ़ाइल के इन उदाहरणों को सुनें.

पहले

बाद में

अपने ऑडियो की जांच करें

कान की जांच करके यह पक्का करें कि Google टीटीएस के मुकाबले, आवाज़ अच्छी सुनाई दे. इसके लिए, फ़ाइलों को सुनने और ध्यान से आवाज़ या बैलेंस बढ़ाने के बीच टॉगल करें. अगर ज़रूरी हो, तो आवाज़ को सुनने से होने वाले रेवेन्यू में बदलाव करें.

बोले गए शब्दों को -16 एलयूएफ़एस (स्टीरियो) या -19 एलयूएफ़एस (मोनो) पर आवाज़ एक जैसी होनी चाहिए. हालांकि, अगर आपके ऑडियो की फ़्रीक्वेंसी रेंज बहुत ज़्यादा है (जैसे कि चिड़ियों की आवाज़) या बहुत कम (जैसे बादलों की आवाज़), तो -16 एलयूएफ़एस (स्टीरियो) या -19 एलयूएफ़एस (मोनो) के लेवल को -19 एलयूएफ़एस (मोनो) पर सेट करने से, इस ऑडियो की क्वालिटी, Google टीटीएस के लिए आवाज़ के रेफ़रंस से मेल नहीं खाती. इस मामले में, कान की जाँच की सुविधा ख़ास तौर पर आपके प्रोग्राम में पूरे ऑडियो को संतुलित करने में मददगार होगी.