עוצמת הקול

LUFS (יחידות עוצמת קול ביחס לקנה מידה מלא) הוא תקן שמאפשר נירמול של עוצמת הקול בז'אנרים ובסגנונות ייצור רבים. ה-LUFS הוא אלגוריתם מורכב, שמבוסס על עוצמה ברורה של שמיעה אנושית בעוצמת קול נוחה להאזנה, ומאפשר למפיקי אודיו להימנע מקפיצות במשרעת שיחייבו את המשתמשים לכוונן את עוצמת הקול כל הזמן. מודל LUFS נקרא גם LKFS (עוצמת קול, שקלול K, ביחס לקנה מידה מלא)

כשמשמיעים קובצי אודיו באמצעות SSML, עוצמת הקול הממוצעת צריכה להיות -16 LUFS (Loudness Units Full Scale) כדי לתוכן אודיו בסטריאו, שמתאים לעוצמת הקול הממוצעת של פלט Google Assistant TTS. הרמה הזו מספקת איזון טוב בין בקרת עוצמת הקול הכוללת ברמקול המופעל באמצעות הקול, לבין שטח גדול מספיק לחומר עם טווח דינמי משתנה, בהשוואה ל-Google Assistant.

בתוכן אודיו במונו, עוצמת הקול הממוצעת צריכה להיות -19 LUFS, ולא -16 LUFS. יעד עוצמת הקול בתוכן של אודיו במונו שונה מזה של תוכן באודיו בסטריאו. הסיבה לכך היא שכאשר ממירים תוכן אודיו במונו לסטריאו, על ידי הכפלה של הטראק של אודיו במונו בשני הערוצים של אות סטריאו, מכפילים את אנרגיית האות, דבר ביחס לעלייה במדידת LUFS של 3.01 יחידות עוצמת קול (LU). לעומת זאת, כשאות סטריאו מומר למונו להשמעת אודיו ברמקול יחיד, לרוב אות המונו נוצר על ידי חישוב הממוצע של האות מכל ערוץ, והטרנספורמציה הזו מקטינה את מדידת ה-LUFS בדיוק באותו כמות, 3.01 LU. לכן אי אפשר להשוות בין מדידות עוצמת הקול לתכנים של מונו וסטריאו, אבל צריך לקזז אותן בעזרת 3.01 LUFS.

בחלק ממדי עוצמת הקול יש אפשרויות לתיקון הפער הזה. לדוגמה, אם משתמשים בffmpeg (ראו בהמשך), אפשר להשתמש באפשרות dual_mono (או dualmono), כמו המומלץ בהמשך. אם משתמשים במד עוצמת קול עם אפשרות כזו והפעלתם, יעד עוצמת הקול צריך להיות -16 LUFS, גם אם התוכן הוא סטריאו או מונו.

אנחנו ממליצים על שתי אפשרויות למדידה ולכוונון של עוצמת הקול:

שימוש במד DAW ו-LUFS

בשלבים הבאים מוסבר איך לוודא שהאודיו עומד בהמלצות של -16 LUFS:

  1. אפשר ליצור את כל האודיו בעוצמת קול אחידה ומאוזן (שווה) באופן עקבי לכל אורך האודיו, כדי שלא יהיו עליות או ירידות חדות בעוצמת הקול.
  2. להגדיר תחנת עבודה של אודיו דיגיטלי (DAW) ומד LUFS כדי למדוד את עוצמת האודיו בהשוואה למידע על עוצמת הקול של Google TTS.
  3. למדוד ולכוונן את עוצמת הקול, כך שעוצמת הקול הממוצעת המשולבת היא כ- -16 LUFS (או -19 LUFS אם התוכן הוא מונו).
  4. כדאי לבדוק את האודיו על ידי השוואה של עוצמת הקול שלו לחומר העזר בנושא עוצמת הקול של Google TTS.

הגדרה של מד DAW ו-LUFS

יש הרבה תוכנות DAW ומכשירי LUFS שזמינים כמוצרים חינמיים ומסחריים. אם כבר יש לך מד DAW ו-LUFS מועדף, אפשר להשתמש בו. אחרת, מומלץ להשתמש ב-Audacity ל-Windows ול-Linux, או ב-Reaper ל-Mac ל-DAWs וב-TBProAudio dpMeter II למד LUFS. בקטעים הבאים נצא מנקודת הנחה שאתם משתמשים בכלים האלה.

להורדת הקבצים

  1. מורידים ומתקינים שירות DAW:
  2. מורידים ומתקינים dpMeter II למערכת ההפעלה. הכלי מתאים גם ל-Audacity וגם ל-Reaper בתור פלאגין VST (Virtual Studio Technology).
  3. מורידים את קובץ האודיו של Google TTS בנושא עוצמת הקול. באודיו של TTS כתוב: "עוצמת הקול המשולבת של המשפט הזה היא בערך -16 LUFS". הקובץ הזה משמש כאודיו לבדיקה של מכשיר המדידה, וגם כאזכור לבדיקת האוזניים.

הגדרת dpMeter II ל-Audacity (Windows/Linux)

  1. פתיחת קובץ האודיו בנושא עוצמת קול של Google TTS ב-Audacity.
  2. כדי לפתוח את הפלאגין dpMeter II, לוחצים על הכרטיסייה Effect ובוחרים באפשרות Add/Remove Plug-ins.
  3. מחפשים את dpMeter2 ברשימה, לוחצים על הפעלה ואז על אישור. הפלאגין של dpMeter II מופיע עכשיו בתפריט הנפתח אפקט.
  4. לוחצים על dpMeter2 בתפריט הנפתח Effect כדי לפתוח את הפלאגין. ברירת המחדל של dpMeter II היא מצב RMS (ערכת צבעים כתומה). משנים את המצב ל-EBU r128 (ערכת צבעים כחולים) כדי למדוד LUFS.

הגדרת dpMeter II עבור Reaper (Mac)

  1. כדי לפתוח את קובץ האודיו של עוצמת הקול של Google TTS, לוחצים על הוספה > קובץ מדיה....
  2. פותחים את הפלאגין dpMeter II על ידי לחיצה על לחצן FX הירוק (מספר 1 באיור) בחלונית השמאלית של שכבת האודיו. מופיע חלון FX.

  3. ברשימה, לוחצים על dpMeter2. ברירת המחדל של dpMeter II היא מצב RMS (ערכת צבעים כתומה). משנים את המצב ל-EBU r128 (ערכת צבעים כחולים) כדי למדוד LUFS.

מדידה והתאמה של עוצמת הקול

מטרים שונים במשתני DAW שונים נותנים קריאות שונות במקצת. בדרך כלל, Audacity מודדת את עוצמת ה-LUFS של Google TTS קצת יותר חזק מאשר בכלי DAW אחרים, עם דירוג LUFS של -15.1, בעוד ש-Reaper נותן קריאה של -16.0 LUFS. כל עוד פעולת ה-DAW מודדת את עוצמת השמע של Google TTS ב-LUFS בערך -16, היא אמורה לפעול היטב כשמגדירים את עוצמת הקול.

השלבים הבסיסיים למדידה ולכוונון של עוצמת הקול הם:

  1. שימוש ב-dpMeter II כדי למדוד את עוצמת הקול של Google TTS הנחיות ליצירת קריאה בסיסית של LUFS. אם המדידה של מכשיר ה-DAW גבוהה או נמוכה מ- -16 LUFS ב-Google TTS של עוצמת הקול, עליכם להתאים את האודיו לערך הבסיס של DAW. לדוגמה, ב-Audacity, dpMeter II מודד עוצמת קול משולבת של -15.1 LUFS, כך שעוצמת היעד החדשה של התוכנית צריכה להיות -15.1 LUFS.
  2. אחרי שיוצרים נקודת בסיס, משנים את האודיו בהתאם להקראה של רמת הבסיס.

מדידת עוצמת הקול של Google TTS

לוחצים על לחצן ההפעלה הירוק ב-dpMeter II או לוחצים על מקש ההפעלה (מקש הרווח) ב-DAW (מספר 4 למטה) כדי למדוד את עוצמת הקובץ.

הרשימה הבאה מתארת את התכונות העיקריות שעשויות לשמש אותך ב-dpMeter II:

  1. מצב: צריך להגדיר ל-EBU (במקום ל-RMS) כדי למדוד את עוצמת הקול ב-LUFS
  2. Gain Control: כדי לשנות את עוצמת הקול של התוכנה, צריך לוודא שהיא מוגדרת ל-0.0.
  3. עוצמה משולבת: עוצמת הקול הממוצעת של כל קטעי האודיו שהפלאגין ניתח מאז הלחיצה על לחצן האיפוס (5). לוחצים על לחצן האיפוס (5) לפני כל מדידה של עוצמת הקול, כדי לוודא שאתם מודדים רק את עוצמת הקול שנבחרה.
  4. הפעלה: התחלת הניתוח של עוצמת הקול בקובץ האודיו. (הלחצן הזה לא מופיע בכל מאמרי ה-DAW. לחיצה על לחצן ההפעלה הראשי (מקש הרווח) ב-DAW אמורה לקבל את אותה האפקט.
  5. איפוס: לוחצים על הלחצן הזה בין כל אחת מהמדידות של עוצמת הקול.
  6. Apply (אישור): כשתהיו מוכנים לשנות את עוצמת הקול של התוכן בתוכנית כך שתתאים למידע על עוצמת הקול של Google TTS, הלחצן הזה יפעיל את שינוי עוצמת הקול שהוגדר על ידי פקד הגבר (2).

התאמת עוצמת הקול לעיון בעוצמת הקול של Google TTS

עכשיו, אחרי שמדדתם את עוצמת הקול של עוצמת הקול של Google TTS, תוכלו למדוד ולהתאים את עוצמת הקול:

  1. פותחים את קובץ האודיו ולוחצים על dpMeter2 בתפריט אפקט.
  2. לוחצים על הלחצן Play ונותנים לערך הממוצע של עוצמת הקול המשולבת בקובץ האודיו.
  3. אם עוצמת הקול המשולבת שונה מהחומר העזר בנושא 'עוצמת קול של Google TTS', עליכם להתאים את עוצמת השמע של האודיו בהתאם לקובץ העזר. לדוגמה, אם האודיו נמדד בעוצמה משולבת של -12, אז כדאי להקטין את עוצמת הקול על ידי הגדרת הערך Gain Control לערך -4db ולחיצה על Apply (אישור) כדי להגיע לטווח היעד של -16 LUFS ב-Google TTS Loudness Reference. יכול להיות שתצטרכו למדוד ולהתאים את הרווח כדי להגיע לעוצמת היעד, כי ההגדלה קרובה ל-LUFS בלבד.

שימוש ב-ffmpeg

FFmpeg הוא מסגרת מדיה עם כלי שורת פקודות להמרת מדיה. הכלי כולל מסנן בשם loudnorm לנירמול עוצמת הקול. אפשר להשתמש ב-Speaknorm כדי להפיק גרסה של קובץ האודיו בעוצמת הקול המתאימה של -16 LUFS באמצעות מצב מעבר כפול.

  1. מורידים ומתקינים את FFmpeg.
  2. מנווטים לספריית ההתקנה ומריצים את FFmpeg עם מסנן הרעם בקובץ הקלט. חשוב להפעיל את האפשרות dual_mono.

    ./ffmpeg -i /path/to/input.wav \
        -af loudnorm=I=-16:dual_mono=true:TP=-1.5:LRA=11:print_format=summary \
        -f null -
    

    הקוד הזה מורה ל-FFmpeg למדוד את ערכי האודיו של קובץ המדיה בלי ליצור קובץ פלט. תופיע סדרה של ערכים באופן הבא:

    Input Integrated:    -27.2 LUFS
    Input True Peak:     -14.4 dBTP
    Input LRA:             0.1 LU
    Input Threshold:     -37.7 LUFS
    
    Output Integrated:   -15.5 LUFS
    Output True Peak:     -2.7 dBTP
    Output LRA:            0.0 LU
    Output Threshold:    -26.2 LUFS
    
    Normalization Type:   Dynamic
    Target Offset:        -0.5 LU
    

    ערכי המדגם שלמעלה מציינים מידע חשוב על המדיה הנכנסת. לדוגמה, הערך Input Integrated שמוצג מציין אודיו חזק מדי. הערך של Output Integrated קרוב הרבה יותר ל-16.0-. גם ב-Input True Peak וגם ב-Input LRA, או בטווח עוצמת הקול, הערכים גבוהים מהתקרות שסופקו, והם יופחתו בגרסה המנורמלת. לבסוף, Target Offset מייצג את רווח ההיסט ששימש לפלט.

  3. מריצים מעבר שני של מסנן הרונורם, ומזינים את הערכים משלב 1 כערכים 'מדודים' באפשרויות של Speaknorm.

    ./ffmpeg -i /path/to/input.wav -af loudnorm=I=-16:TP=-1.5:LRA=11:measured_I=-27.2:measured_TP=-14.4:measured_LRA=0.1:measured_thresh=-37.7:offset=-0.5:linear=true:print_format=summary output.wav
    

    נוצר קובץ, output.wav, שמכיל גרסה של קובץ הקלט שעברו מנורמל עוצמה.

כדי לשמוע איך הכלי פועל, כדאי להאזין לדוגמאות הבאות של קובץ אודיו לפני ואחרי נירמול עוצמת הקול ב-ffmpeg.

לפני

אחרי

בדיקת האוזן

כדאי לבדוק את האוזניים כדי לוודא שהאודיו נשמע טוב בהשוואה ל-Google TTS – תיעוד עוצמת הקול. כדי לעשות את זה, עוברים מהאזנה לקבצים ושימו לב לקפיצה כלשהי בעוצמת הקול או באיזון, והתאימו את הסאונד לפי הצורך.

עוצמת הקול צריכה להישמע עקביים במילים שנאמרות בקול ב- -16 LUFS (סטריאו) או -19 LUFS (מונו). עם זאת, אם טווח התדרים של האודיו גבוה יתר על המידה (למשל, ציוצי ציפורים) או נמוך מדי (כמו רעמים), הגדרת רמות ל- -16 LUFS (סטריאו) או -19 LUFS (מונו) עשויה לגרום לצליל האודיו הזה שלא תואם את ה-Google עוצמת הקול. במקרה כזה, בדיקת האוזניים עוזרת במיוחד באיזון של כל האודיו בתוכנית.