کنش‌های مکالمه در 13 ژوئن 2023 منسوخ شد. برای اطلاعات بیشتر، غروب کنش‌های مکالمه را ببینید.

این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.

بلندی صدا

LUFS (واحدهای بلندی نسبت به مقیاس کامل) استانداردی است که نرمال سازی حجم را در بسیاری از ژانرها و سبک های تولید امکان پذیر می کند. LUFS یک الگوریتم پیچیده است که بر اساس بلندی درک شنوایی انسان در یک صدای گوش راحت است و به تولیدکنندگان صدا اجازه می‌دهد از پرش‌های دامنه‌ای که کاربران را ملزم به تنظیم مداوم صدا می‌کند اجتناب کنند. LUFS همچنین به عنوان LKFS (بلندی، K-weighted، نسبت به مقیاس کامل) شناخته می شود.

هنگام پخش فایل‌های صوتی با استفاده از SSML، متوسط بلندی صدا باید -16 LUFS (مقیاس کامل واحدهای بلندی صدا) برای محتوای صوتی استریو باشد، که با میانگین بلندی صدای خروجی TTS دستیار Google مطابقت دارد. در مقایسه با Google Assistant، این سطح تعادل خوبی بین کنترل کلی صدا در بلندگوی فعال‌شده با صدا و فضای بالای سر برای مواد با محدوده دینامیکی متغیر ایجاد می‌کند.

برای محتوای صوتی تک ، متوسط بلندی باید -19 LUFS، به جای -16 LUFS باشد. هدف بلندی برای محتوای صوتی مونو با محتوای صوتی استریو متفاوت است زیرا زمانی که محتوای صوتی مونو به استریو تبدیل می‌شود، با کپی کردن آهنگ صوتی مونو در هر دو کانال سیگنال استریو، انرژی سیگنال را دو برابر می‌کند که مطابق با یک سیگنال استریو است. افزایش در اندازه گیری LUFS 3.01 واحد بلندی صدا (LU). برعکس، وقتی یک سیگنال استریو برای پخش روی یک بلندگو به مونو تبدیل می‌شود، سیگنال مونو معمولاً با میانگین‌گیری سیگنال از هر کانال ساخته می‌شود و این تبدیل اندازه‌گیری LUFS را دقیقاً به همان میزان یعنی 3.01 LU کاهش می‌دهد. بنابراین اندازه گیری بلندی صدا برای محتوای مونو و استریو به طور مستقیم قابل مقایسه نیست، اما باید با 3.01 LUFS جبران شود.

برخی از بلندی سنج ها گزینه هایی برای تصحیح این نابرابری دارند. برای مثال، اگر از ffmpeg استفاده می‌کنید (به زیر مراجعه کنید)، می‌توانید از گزینه dual_mono (یا dualmono ) استفاده کنید، همانطور که در زیر توصیه می‌شود. اگر از یک بلندی سنج با چنین گزینه ای استفاده می کنید، و آن گزینه را فعال کرده اید، هدف بلندی صدا باید -16 LUFS باشد، صرف نظر از اینکه محتوا استریو یا مونو است.

ما دو گزینه را برای اندازه گیری و تنظیم بلندی صدا توصیه می کنیم:

از ایستگاه کاری صوتی دیجیتال (DAW) و متر LUFS استفاده کنید .
از FFmpeg، یک ابزار خط فرمان استفاده کنید .

با استفاده از متر DAW و LUFS

مراحل زیر نحوه اطمینان از اینکه صدای شما با توصیه LUFS -16 مطابقت دارد توضیح می دهد:

تمام صداها را در سطوح با صدای بلند و متعادل (برابر شده) برای کل مدت صدا ایجاد کنید، به طوری که هیچ افزایش یا کاهش بلندی وجود نداشته باشد.
یک ایستگاه کاری صوتی دیجیتال (DAW) و سنج LUFS برای اندازه گیری بلندی صدا در مقایسه با مرجع بلندی صدای Google TTS راه اندازی کنید.
بلندی صدای خود را اندازه گیری و تنظیم کنید تا میانگین بلندی یکپارچه آن در حدود -16 LUFS (یا -19 LUFS اگر محتوا مونو باشد) داشته باشد.
گوش صدای خود را با مقایسه بلندی آن با مرجع بلندی صدای Google TTS بررسی کنید .

یک متر DAW و LUFS را راه اندازی کنید

بسیاری از DAW و LUFS مترها به عنوان نرم افزار رایگان و محصولات تجاری در دسترس هستند. اگر قبلاً یک متر DAW و LUFS ترجیحی دارید، می توانید از آن استفاده کنید. در غیر این صورت، Audacity را برای ویندوز و لینوکس یا Reaper برای Mac برای DAWs و TBProAudio dpMeter II را برای LUFS متر توصیه می کنیم. در بخش های زیر فرض می شود که شما از این ابزارها استفاده می کنید.

فایل ها را دریافت کنید

یک DAW را دانلود و نصب کنید:
- برای ویندوز یا لینوکس: Audacity
- برای مک: Reaper
dpMeter II را برای سیستم عامل خود دانلود و نصب کنید . این ابزار با Audacity و Reaper به عنوان یک پلاگین VST (Virtual Studio Technology) کار می کند.
فایل صوتی Google TTS Loudness Reference را دانلود کنید. در صدای TTS آمده است: "بلندی یکپارچه این جمله حدود -16 LUFS است". این فایل به عنوان صدای تست کنتور و همچنین مرجع بررسی گوش است.

پیکربندی dpMeter II برای Audacity (ویندوز/لینوکس)

فایل صوتی Google TTS Loudness Reference را در Audacity باز کنید.
افزونه dpMeter II را با کلیک بر روی تب Effect و انتخاب Add/Remove Plug-ins باز کنید.
dpMeter2 را در لیست پیدا کنید، روی Enable و سپس OK کلیک کنید. پلاگین dpMeter II اکنون در منوی کشویی Effect ظاهر می شود.
از منوی کشویی Effect روی dpMeter2 کلیک کنید تا افزونه باز شود. dpMeter II به طور پیش فرض روی حالت RMS (طرح رنگ نارنجی) قرار می گیرد. برای اندازه گیری LUFS حالت را به EBU r128 (طرح رنگ آبی) تغییر دهید.

پیکربندی dpMeter II برای Reaper (Mac)

صدای مرجع Google TTS Loudness Reference را با کلیک کردن روی Insert > Media file.... .
پلاگین dpMeter II را با کلیک بر روی دکمه سبز رنگ FX (شماره 1 در شکل) در سمت چپ لایه صوتی باز کنید. یک پنجره FX ظاهر می شود.
در لیست روی dpMeter2 کلیک کنید. dpMeter II به طور پیش فرض روی حالت RMS (طرح رنگ نارنجی) قرار می گیرد. برای اندازه گیری LUFS حالت را به EBU r128 (طرح رنگ آبی) تغییر دهید.

اندازه گیری و تنظیم بلندی صدا

مترهای مختلف در DAW های مختلف، قرائت های کمی متفاوت دارند. Audacity تمایل دارد تا مرجع بلندی صدای Google TTS را کمی بلندتر از سایر DAW ها، در -15.1 LUFS اندازه گیری کند، در حالی که Reaper 16.0- LUFS را نشان می دهد. تا زمانی که DAW شما بلندی صدای مرجع بلندی صدای Google TTS را در +/-2 LUFS از -16 اندازه گیری می کند، باید برای تنظیم بلندی صدای شما خوب عمل کند.

مراحل اساسی برای اندازه گیری و تنظیم بلندی صدا عبارتند از:

از dpMeter II برای اندازه گیری بلندی صدای مرجع بلندی صدای Google TTS برای ایجاد یک خواندن پایه LUFS استفاده کنید. اگر DAW شما برای مرجع بلندی صدای Google TTS بالاتر یا کمتر از -16 LUFS اندازه گیری می کند، صدای خود را با خط پایه DAW خود مطابقت دهید. به عنوان مثال، در Audacity، dpMeter II بلندی یکپارچه -15.1 LUFS را اندازه گیری می کند، بنابراین بلندی هدف جدید برای برنامه شما باید -15.1 LUFS باشد.
پس از ایجاد خط مبنا، صدای خود را طوری تنظیم کنید که با خواندن پایه مطابقت داشته باشد.

اندازه گیری مرجع بلندی صدای گوگل TTS

روی دکمه پخش سبز رنگ در dpMeter II کلیک کنید یا برای اندازه‌گیری بلندی صدای فایل، Play (Spacebar) را در DAW خود (شماره 4 زیر) فشار دهید.

لیست زیر ویژگی های عمده ای را که ممکن است در dpMeter II استفاده کنید شرح می دهد:

حالت : برای اندازه گیری بلندی صدا در LUFS روی EBU (به جای RMS) تنظیم کنید
Gain Control : مطمئن شوید که این مقدار روی 0.0 تنظیم شده است تا زمانی که آماده تغییر بلندی صدای برنامه خود شوید.
بلندی یکپارچه : این معیار میانگین بلندی صدایی است که افزونه پس از کلیک روی دکمه تنظیم مجدد (5) آنالیز کرده است. قبل از هر اندازه‌گیری بلندی صدا، روی دکمه تنظیم مجدد (5) کلیک کنید تا مطمئن شوید که فقط بلندی صدای انتخاب فعلی را اندازه‌گیری می‌کنید.
پخش : این کار تجزیه و تحلیل بلندی صدای فایل صوتی را آغاز می کند. (این دکمه در همه DAW ها ظاهر نمی شود. کلیک کردن روی دکمه پخش اصلی (نوار فاصله) در DAW شما باید همان اثر را داشته باشد.)
تنظیم مجدد : این دکمه را بین هر اندازه گیری بلندی صدا کلیک کنید.
اعمال : هنگامی که آماده تغییر بلندی محتوای برنامه خود هستید تا با مرجع بلندی صدای Google TTS مطابقت داشته باشد، این دکمه تغییر بلندی صدا را که توسط کنترل افزایش (2) تنظیم شده است اعمال می کند.

مطابقت بلندی با مرجع بلندی صدای Google TTS

اکنون که بلندی مرجع بلندی صدای Google TTS را اندازه‌گیری کرده‌اید، می‌توانید بلندی صدای خود را اندازه‌گیری و تنظیم کنید:

فایل صوتی خود را باز کنید و از منوی افکت گزینه dpMeter2 را کلیک کنید.
روی دکمه Play کلیک کنید و اجازه دهید مقدار بلندی صدای یکپارچه به یک مقدار متوسط برای فایل صوتی شما برسد.
اگر بلندی یکپارچه با مرجع بلندی صدای Google TTS متفاوت است، افزایش صدای خود را مطابق با مرجع تنظیم کنید. برای مثال، اگر صدای شما با بلندی یکپارچه 12- اندازه می‌گیرد، خیلی بلند است، بنابراین با تنظیم Gain Control روی -4db و کلیک روی Apply ، آن را به محدوده هدف Google TTS Loudness Reference (-16 LUFS) کاهش دهید. ). ممکن است برای رسیدن به بلندی هدف نیاز به اندازه گیری و تنظیم بهره داشته باشید، زیرا بهره فقط LUFS را تقریب می کند.

با استفاده از ffmpeg

FFmpeg یک چارچوب رسانه ای با ابزار خط فرمان برای تبدیل رسانه است. این ابزار شامل فیلتری به نام loudnorm برای عادی سازی صدای بلند است. می توانید از loudnorm برای خروجی نسخه ای از فایل صوتی خود با بلندی صدای LUFS-16 مناسب با استفاده از حالت دو گذر استفاده کنید.

FFmpeg را دانلود و نصب کنید.
به دایرکتوری نصب بروید و FFmpeg را با فیلتر loudnorm روی فایل ورودی خود اجرا کنید. حتما گزینه dual_mono را فعال کنید.
```
./ffmpeg -i /path/to/input.wav \
    -af loudnorm=I=-16:dual_mono=true:TP=-1.5:LRA=11:print_format=summary \
    -f null -
```
این به FFmpeg دستور می دهد تا مقادیر صوتی فایل رسانه ای شما را بدون ایجاد فایل خروجی اندازه گیری کند. شما یک سری مقادیر به صورت زیر دریافت خواهید کرد:
```
Input Integrated:    -27.2 LUFS
Input True Peak:     -14.4 dBTP
Input LRA:             0.1 LU
Input Threshold:     -37.7 LUFS

Output Integrated:   -15.5 LUFS
Output True Peak:     -2.7 dBTP
Output LRA:            0.0 LU
Output Threshold:    -26.2 LUFS

Normalization Type:   Dynamic
Target Offset:        -0.5 LU
```
مقادیر نمونه بالا اطلاعات مهمی را در مورد رسانه ورودی نشان می دهد. به عنوان مثال، مقدار Input Integrated نشان داده شده صدایی را نشان می دهد که خیلی بلند است. مقدار Output Integrated بسیار نزدیک به -16.0 است. هم مقادیر Input True Peak و هم Input LRA یا محدوده بلندی صدا بالاتر از سقف های ارائه شده ما هستند و در نسخه عادی کاهش می یابد. در نهایت، Target Offset نشان دهنده بهره افست استفاده شده در خروجی است.
عبور دوم از فیلتر loudnorm را اجرا کنید و مقادیر مرحله 1 را به عنوان مقادیر "اندازه گیری شده" در گزینه های loudnorm ارائه کنید.
```
./ffmpeg -i /path/to/input.wav -af loudnorm=I=-16:TP=-1.5:LRA=11:measured_I=-27.2:measured_TP=-14.4:measured_LRA=0.1:measured_thresh=-37.7:offset=-0.5:linear=true:print_format=summary output.wav
```
فایلی با output.wav ایجاد می شود که حاوی یک نسخه نرمال شده با صدای بلند از فایل ورودی شما است.

به مثال‌های زیر از یک فایل صوتی قبل و بعد از نرمال‌سازی بلندی صدای ffmpeg گوش دهید تا نحوه عملکرد ابزار را بشنوید.

قبل از

بعد از

گوش صدای خود را بررسی کنید

گوش را چک کنید تا مطمئن شوید صدای شما در مقایسه با مرجع بلندی صدای Google TTS خوب است. برای انجام این کار، بین گوش دادن به فایل‌ها جابه‌جا شوید و متوجه هرگونه جهش در صدا یا تعادل شوید و در صورت لزوم میزان افزایش را با گوش تنظیم کنید.

بلندی صدا باید برای کلمات گفتاری در -16 LUFS (استریو) یا -19 LUFS (مونو) سازگار باشد. با این حال، اگر محدوده فرکانس صدای شما بیش از حد بالا باشد (مانند صدای پرندگان) یا بسیار کم (مانند رعد و برق)، تنظیم سطوح روی -16 LUFS (استریو) یا -19 LUFS (مونو) ممکن است این صدای صوتی را با Google ناسازگار کند. مرجع بلندی صدای TTS. در این مورد، چک کردن گوش به ویژه برای متعادل کردن تمام صدای برنامه شما مفید است.