オーディオの音量

LUFS(Loudness Units relative to Full Scale)は音量の正規化に使用される規格の一つで、さまざまなジャンルや制作現場で使用されています。LUFS は、人間の可聴音の大きさに基づいて、快適な音量で聴けるようにする複雑なアルゴリズムです。オーディオ プロデューサーは、ユーザーが絶えず音量を調整しなければならないような振幅の急増を回避できます。LUFS は LKFS(Loudness, K-weighted, relative to Full Scale(ラウドネス、K 重み付け、フルスケール比)ともいいます。

SSML を使用してオーディオ ファイルを再生する場合、ステレオ オーディオ コンテンツの平均ラウドネスは -16 LUFS(Loudness Units Full Scale)とするのが適当です。これは、Google アシスタントの TTS 出力の平均ラウドネスと一致します。さまざまなダイナミック レンジの素材で Google アシスタントと比較すると、このレベルは音声認識スピーカーの全体的な音量制御とヘッドルームとバランスが良くなります。

モノラル音声コンテンツの場合、平均ラウドネスは -16 LUFS ではなく -19 LUFS である必要があります。モノラル音声コンテンツのラウドネス目標は、ステレオ オーディオ コンテンツの場合とは異なります。モノラル音声コンテンツがステレオ信号に変換されると、ステレオ信号の両方のチャンネルでモノラル音声トラックが複製されるため、信号のエネルギーが 2 倍になり、LUFS 測定値が 3.01 の LUFS 測定値で増加します。逆に、1 台のスピーカーで再生するためにステレオ信号をモノラルに変換した場合、モノラル信号は通常、各チャンネルからの信号を平均化して構築され、その変換により LUFS 測定値がまったく同じ 3.01 LU 減少します。そのため、モノラル コンテンツとステレオ コンテンツのラウドネス測定を直接比較することはできませんが、3.01 LUFS オフセットする必要があります。

一部のラウドネス メーターには、この差異を修正するオプションがあります。たとえば、ffmpeg(以下を参照)を使用している場合は、下記のように dual_mono(または dualmono)オプションを使用できます。このようなオプションのあるラウドネス メーターを使用していて、そのオプションを有効にしている場合、コンテンツがステレオかモノラルかにかかわらず、ラウドネスの目標は -16 LUFS である必要があります。

音声のラウドネスを測定して調整するには、次の 2 つの方法があります。

DAW と LUFS メーターを使用する

オーディオが -16 LUFS の推奨を満たすようにするには、次の操作を行います。

  1. オーディオの再生時間全体にわたってラウドネスを一定にし(平準化)、急激な変化を避けます。
  2. Google TTS Loudness Reference と比較してオーディオのラウドネスを測定できるように、デジタル オーディオ ワークステーション(DAW)と LUFS メーターをセットアップします。
  3. 平均ラウドネスが -16 LUFS(モノラル コンテンツの場合は -19 LUFS)になるように、オーディオのラウドネスを測定し、調整します
  4. ラウドネスを Google TTS Loudness Reference と比較しながら、オーディオを耳で確認します

DAW と LUFS メーターを設定する

フリーウェアまたは有償プロダクトとして多くの DAW や LUFS メーターが公開されています。優先する DAW と LUFS メーターがすでにある場合は、それを使用できます。それ以外の場合は、Windows と Linux では Audacity を、DAW には Reaper for Mac を、LUFS メーターには TBProAudio dpMeter II をおすすめします。以下では、これらのツールを前提に説明をしていきます。

ファイルを入手する

  1. DAW をダウンロードしてインストールします。
  2. お使いの OS 用に dpMeter II をダウンロードしてインストールします。このツールは、VST(Virtual Studio Technology)プラグインとして Audacity と Reaper の両方に対応しています。
  3. Google TTS Loudness Reference オーディオ ファイルをダウンロードします。この TTS オーディオを再生すると、「The integrated loudness of this sentence is about -16 LUFS」という音声が流れます。このファイルは、メーターのテスト音声として使用します。また、耳で確認する際にも使用します。

Audacity 用に dpMeter II を構成する(Windows / Linux)

  1. Audacity で Google TTS Loudness Reference オーディオ ファイルを開きます。
  2. [Effect] タブをクリックして [Add/Remove Plug-ins] を選択し、dpMeter II プラグインを開きます。
  3. リストから dpMeter2 を探し、[有効にする]、[OK] の順にクリックします。dpMeter II プラグインが [Effect] プルダウン メニューに表示されます。
  4. [Effect] プルダウン メニューの [dpMeter2] をクリックして、プラグインを開きます。dpMeter II はデフォルトで RMS モード(オレンジ色のカラーパターン)に設定されています。LUFS を測定するため、モードを EBU r128(青色の配色)に変更します。

Reaper 用に dpMeter II を構成する(Mac)

  1. [Insert] > [Media file] の順にクリックして、Google TTS Loudness Reference オーディオ ファイルを開きます。
  2. オーディオ レイヤーの左ペインにある緑色の FX ボタン(図の 1)をクリックして、dpMeter II プラグインを開きます。[FX] ウィンドウが表示されます。

  3. リストの [dpMeter2] をクリックします。dpMeter II はデフォルトで RMS モード(オレンジ色の配色)になっています。LUFS を測定するため、モードを EBU r128(青色の配色)に変更します。

ラウドネスの測定と調整

DAW のメートルが異なれば、測定値は若干異なります。Audacity は Google TTS Loudness Reference を -15.1 LUFS で、他の DAW よりもやや大きく、測定する傾向がありますが、Reaper は -16.0 LUFS の測定値を示します。DAW が Google TTS Loudness Reference のラウドネスを -16 の +/-2 LUFS 以内で測定している限り、オーディオのラウドネスの設定に問題なく機能します。

ラウドネスを測定して調整する基本的な手順は次のとおりです。

  1. dpMeter II を使用して Google TTS Loudness Reference のラウドネスを測定し、ベースラインとする LUFS 測定値を決めます。DAW が Google TTS Loudness Reference の -16 LUFS より高い、または低い場合は、オーディオを DAW のベースラインに合わせます。たとえば、Audacity では、dpMeter II が -15.1 LUFS の統合ラウドネスを測定するため、プログラムの新しいターゲット ラウドネスを -15.1 LUFS にする必要があります。
  2. ベースラインを設定したら、ベースラインに合わせてオーディオを調整します。

Google TTS Loudness Reference の測定

dpMeter II の緑色の再生ボタンをクリックするか、DAW(下の番号 4)の再生(スペースバー)を押して、ファイルの音量を測定します。

dpMeter II で使用できる主な機能は次のとおりです。

  1. モード: ラウドネスを LUFS で測定する場合は、RMS ではなく、EBU に設定します。
  2. ゲイン コントロール: プログラムのラウドネスを変更する準備ができるまで、0.0 に設定します。
  3. 統合ラウドネス: リセットボタン(5)がクリックされた後にプラグインが解析したすべてのオーディオの平均ラウドネスの測定値です。ラウドネスの測定を行う前にリセットボタン(5)をクリックして、現在選択されている対象のラウドネスだけが測定されるようにします。
  4. 再生: オーディオ ファイルのラウドネス解析を開始します。このボタンがない DAW もあります。DAW のメインの再生ボタン(スペースバー)をクリックしても、同じ結果になります。
  5. リセット: 次のラウドネス測定を行う前に、このボタンをクリックします。
  6. 適用: Google TTS Loudness Reference に合わせてプログラム素材のラウドネスを変更する準備ができたら、このボタンを使用して、ゲイン コントロール(2)で設定したラウドネスの変更を適用します。

ラウドネスを Google TTS Loudness Reference に合わせる

Google TTS Loudness Reference のラウドネスを測定したので、オーディオのラウドネスを測定して調整します。

  1. オーディオ ファイルを開き、[Effect] メニューから [dpMeter2] をクリックします。
  2. [Play] ボタンをクリックして、統合ラウドネスの値にオーディオ ファイルの平均的なラウドネス値が反映されるようにします。
  3. 統合ラウドネスが Google TTS Loudness Reference と異なる場合は、この基準に合わせてオーディオのゲインを調整します。たとえば、オーディオで測定した統合ラウドネスが -12 の場合、ラウドネスが大きすぎるため、[ゲイン コントロール] を -4db に設定し、[適用] をクリックして Google TTS Loudness Reference の目標範囲(-16 LUFS)にします。ゲインは LUFS の概算にすぎないため、ターゲットのラウドネスに到達するには、ゲインを測定して調整する必要があります。

FFmpeg を使用する

FFmpeg は、メディア変換用のコマンドライン ツールを備えたメディア フレームワークです。このツールには、ラウドネスの正規化用に loudnorm というフィルタがあります。loudnorm でデュアル パスモードを使用すると、オーディオ ファイルのラウドネスを適切な -16 LUFS としたバージョンを出力できます。

  1. FFmpeg をダウンロードしてインストールします。
  2. インストール ディレクトリに移動し、loudnorm フィルタを指定して、入力ファイルに FFmpeg を実行します。dual_mono オプションを有効にします。

    ./ffmpeg -i /path/to/input.wav \
        -af loudnorm=I=-16:dual_mono=true:TP=-1.5:LRA=11:print_format=summary \
        -f null -
    

    これにより、FFmpeg は出力ファイルを生成せずに、メディア ファイルのオーディオ値を測定します。次のような値が表示されます。

    Input Integrated:    -27.2 LUFS
    Input True Peak:     -14.4 dBTP
    Input LRA:             0.1 LU
    Input Threshold:     -37.7 LUFS
    
    Output Integrated:   -15.5 LUFS
    Output True Peak:     -2.7 dBTP
    Output LRA:            0.0 LU
    Output Threshold:    -26.2 LUFS
    
    Normalization Type:   Dynamic
    Target Offset:        -0.5 LU
    

    このサンプル値は、入力メディアについて重要な情報を示しています。たとえば、Input Integrated の値は、音声が大きすぎることを示しています。Output Integrated の値は -16.0 にかなり近くなっています。Input True PeakInput LRA(ラウドネスの範囲)の値は、いずれも Google が提供する上限よりも高く、正規化バージョンでは小さくなります。最後に、Target Offset は出力で使用されるオフセット ゲインを表します。

  3. loudnorm オプションでステップ 1 の値を測定済みの値として指定し、loudnorm フィルタを再度実行します。

    ./ffmpeg -i /path/to/input.wav -af loudnorm=I=-16:TP=-1.5:LRA=11:measured_I=-27.2:measured_TP=-14.4:measured_LRA=0.1:measured_thresh=-37.7:offset=-0.5:linear=true:print_format=summary output.wav
    

    入力ファイルのラウドネスを正規化したバージョンを含む output.wav ファイルが作成されます。

ffmpeg でラウドネスを正規化する前と後のオーディオ ファイルを聞き比べてみましょう。

変更前

変更後

オーディオを耳で確認する

オーディオの音声を耳で聞いて、Google TTS Loudness Reference と比較して適切かどうか確認しましょう。ファイルを聞きながら、音量やバランスを変えてみてください。また、必要であればゲインを調整してください。

オーディオが人間の話す音声である場合、ラウドネスが -16 LUFS(ステレオ)または -19 LUFS(モノラル)であれば適切に聞こえるはずです。ただし、オーディオの周波数範囲が高すぎる場合(鳥の鳴き声など)や低すぎる場合(雷など)に、レベルを -16 LUFS(ステレオ)または -19 LUFS(モノラル)に設定すると、Google TTS Loudness Reference とは聞こえ方が異なることがあります。その場合、オーディオを耳で確認することで、プログラム全体でオーディオのバランスを調整できます。