作者：Mike Thornton
出处：https://www.production-expert.com/production-expert-1/subtitles-have-become-the-norm-for-hearing
翻译：安小匠

事情的起因是@deafgirly（网名Deafinitely Girly）的一条推文：

“字幕不只是给听障人士用的，我很多听力正常的朋友也在用。”

这条推文迅速走红，还被英国《卫报》报道了。对音频从业者来说，这话听着格外刺耳——毕竟，要是我们混出来的内容连对白都听不清，那岂不是本职工作都没做好？还是说背后另有隐情？本文将深入调查，并给出明确的答案。

字幕不只是给听障人士用的，我很多听力正常的朋友也在用。如果你听力正常，看Netflix和电视时也会开字幕，而且觉得电影院要是有字幕也挺好，请转发这条推文，让字幕的存在变得更平常！非常感谢！

——@deafgirly（Deafinitely Girly）

一切始于一条推文

借用一首著名歌曲的歌词来改编一下，这场关于清晰度的风波，正是由这条推文掀起的——截至撰稿时，它已获得超过7.4万点赞，被转发7万余次。

这位30岁的英国博主兼活动人士，更愿意用推特名接受采访，她告诉《卫报》：

“我当时正和妈妈在外面吃午饭，手机突然疯狂震动。不过我特别高兴，因为来自全球、各个年龄段的人都对字幕表示支持，反响热烈。就连那些说不太喜欢电影院字幕的人也表示，如果这意味着听障人士能多看几场电影，他们愿意忍受字幕。”

首先，让我们看看网友对Deafinitely Girly推文的部分回应……

Frances Robyn（@onelittlebird7）：我和男朋友在所有平台上都会开字幕。我们听力都正常，但觉得没有字幕经常会漏掉内容，特别是有些演员含混不清、笨嘴拙舌的时候！！我认为人人都能从中受益。
BrettWolf7（@BloodWolf7）：好家伙，我一直都用字幕。游戏、电视，什么都看。我不是聋人也没有听力障碍，只是单纯喜欢开着。如果我在忙别的（工作、和人聊天，或者背景噪音很大），字幕能帮我跟上对话内容，不至于错过。
Renée McTavish（@reneemctavish75）：没错！动作戏的配乐也是！电视剧在这方面也很糟糕。我喜欢那种烘托气氛、营造紧张感的音乐，但绝不能以听不清演员台词为代价！
Jeremy（@Jeremy0333）：太多影视剧的对白和“背景”音乐之间音量差异悬殊。我一直开着字幕，这样的话，大声的段落不至于太吵，同时还能知道在说什么。
Stickers（@StickersDrg）：我听力正常但我特别喜欢字幕。帮助太大了。没有字幕我觉得漏掉了一半内容。如果电影院也能提供字幕就太棒了。
Ian™️（@Geeko55）：我用字幕！我听力完全正常，但有时很难听懂在说什么，或者就是不想把音量开得太大。

那为何这么多听力正常的人也要靠字幕？我们对此坐视不管吗？

广播和流媒体内容的清晰度（intelligibility）下降，并非单一原因所致。与许多问题一样，这是多种因素交织的结果，最终使得听力正常的观众不得不打开字幕才能跟上剧情——这正是本文接下来要逐一剖析的。

在深入之前，我们先来仔细看看“清晰度”这个概念。词典对intelligibility的定义是……

“可被理解的品质或状态——能够被理解；可理解的；足够清晰以被理解。”

在非声调语言（西方语言）中，辅音至关重要。辅音（如k、p、s、t等）主要分布在500Hz以上的频段，更确切地说，是在2kHz～4kHz范围内。然而请看下图，辅音在这一频段的能量大小与其对清晰度的重要性之间，并没有直接的对应关系。

图 1 不同频段电平大小与清晰度（ineligibility）之间的关系。图片提供：DPA麦克风大学（DPA Microphone University）

更棘手的是，想让辅音变响非常困难。你自己试试就知道了，真的很难。当你提高音量或喊叫时，变响的是元音，辅音却基本维持原样。辅音能量的不足，也让它们更容易被音效（sound effects）、拟音（Foley）或音乐等其他声音掩蔽或淹没。

那么接下来，我们来看看究竟是哪些因素交织在一起，造成了如今听力正常者也要依赖字幕这一荒谬局面。

对真实感的追求

近年来，追求“真实感”的风气愈演愈烈。演员当然可以、也应该探索各种表演技巧来塑造角色。然而，如果这种“真实”意味着用“生活化”的方式说台词，而非确保剧院后排观众也能听清的演绎方式，那结果恐怕不会理想，导演们需要认清这一点。问题在于，一味追求真实感，对白就很可能无法完整传递至最终受众，让观众听得明白。

电视剧的制作，无论是纪录片还是剧情片，无论是棚拍还是外景，本身就毫无“真实”可言。那为何还要追求所谓的真实感？

可信，那是当然！真实，绝不可能！

在混音环节，我认为电视剧的对白不能保留自然动态。一旦这样处理，对白的可听度和可理解程度都会大打折扣。至于如何压缩对白的动态范围，推子、削波电平（clip level）或是压缩器，任君选择。但限制动态范围，这一步必不可少。

真实感本就无从谈起，而我对这股“真实风”的质疑更是层层深入。想想那灯光设计、镜头调度、叙事结构，哪一样是真切的？既然处处皆假，为何独独声音要追求真实，简直荒唐！

这种对“真实感”的执念还衍生出一个问题：演员的吐字越发含混不清。以英国二战题材剧《SSGB》为例，剧中有不少暗夜场景，叙事上需要表现角色窃窃私语以免暴露行踪，藏身暗处、夜间外出以避人耳目。然而这种写实手法的问题在于，观众看不清说话者的唇形，清晰度便大打折扣。轻声细语而仍能被听清，这是一门技艺。往昔称之为“舞台耳语（stage whisper）”，但如今戏剧院校似乎不再传授这些技巧，以至于至少有一代演员完全不具备这项能力。

这种对真实感的追求，意味着导演们觉得没有必要（教授这些技巧）。

理解对白的另一重障碍来自各地口音：这又是真实感追求的副产品。导演想要地道的口音，这情有可原，但若过重，观众即便其他方面都听得清楚，也会难以理解内容。我绝非主张禁绝口音，只是建议适可而止——用作点缀提示，而非全盘写实。随着国际合作日益频繁，尤其是亚马逊、Netflix等平台的流媒体剧集，英国人耳熟能详的地方口音，美国人可能一头雾水，更别提那些以英语为第二、第三语言的观众了。这一点导演必须纳入考量，因为完全写实的口音，在国际制作中往往行不通。

电视剧不是电影大片

把电视剧混得像电影大片一样，我认为这很愚蠢。比如到了晚上，观众肯定会把电视音量调得很低，尤其是家里有小孩的，那些较轻的声音自然就听不见了。如果其中还包括轻声细语的对白，叙事线索就会丢失，观众最终只能打开字幕才能跟上剧情。

先入为主——制作团队人人都知道台词在说什么

影响某句台词是否清晰的另一个关键因素是：制作团队的每个人都清楚知道在说什么。他们从前期筹备、剧本修改、拍摄到后期制作，全程浸润其中。这意味着他们对剧本的熟悉程度可能不亚于演员，甚至有过之而无不及！

这种对剧本的熟稔意味着，即便台词并不清晰，他们也能“听”懂内容。比如拍摄现场，导演知道在说什么，即便声音团队要求重拍，也很可能换来一个冷眼和“我能听见，你有什么问题”！到了配音阶段，导演来审核场景时，同样因为知道台词内容，很可能会要求把音效和／或音乐往上推，营造更强的戏剧张力——这远比他们初次接触、第一次听到时要激进得多。

制作技术变革——多机位增多，吊杆麦克风减少

一场戏动用多台摄像机拍摄，意味着吊杆麦克风（boom mics）的使用至多只能算折中妥协，因为至少有一台机位往往是自由机位，导致吊杆无法足够靠近以拾取干净的声音。于是外景声音团队不得不依赖个人无线麦克（personal radio mics）。录制在人胸部位置的语音频谱通常缺失2～4kHz这一重要频段，而辅音就在这个范围内，最终导致语音清晰度下降。

事实上，我们还了解到，头顶上方——正是吊杆麦克风通常所在的位置，是获取最佳语音清晰度的理想点位。这一切意味着，多机位拍摄的增长带来了双重打击：我们失去了吊杆麦克风的使用机会，代之以通常别在胸前的个人无线麦克风，而后者拾取辅音的效果远不及吊杆麦克风；正如我们所知，语音清晰度全靠辅音支撑。

响度范围过大

图 2 不同类型节目的响度范围（柱状图中的绿色部分），以LU为单位（0 LU = -23 LUFS）。
左起：电影、DVD、高清电视、老式电视（模拟或标清电视）、手机电视或播客、深夜节目、汽车电台、航班的机上娱乐。
（图片来源：Mike Thornton & Production Expert）

这个问题与字幕使用的激增直接相关。电视剧的风格正日益向电影化靠拢。从声音角度来看，电影化的风格无法直接套用到家庭环境——那里既无法控制播放系统，也无法控制房间背景噪音，这与拥有完整端到端控制的影院截然不同。此外，家庭环境空间狭小，而小房间对大动态声音的承受能力远不及大空间。我们必须时刻牢记，要考虑创作的内容将在何种环境、以何种方式被消费。

图 3 目标响度对照图。ITU-R BS 1770下的合规内容使用了更多动态余量（也就是图中的“Extra Headroom”区域）。
（译者注：图表中的PPM指“Peak Programme Meter（节目峰值表）”，是VU表之外另一种测量响度的仪表。ITU-R BS 1770是响度的一种算法标准，欧洲广播联盟（EBU）在此基础上制定了R128响度规范。）
（图片来源：Mike Thornton & Production Expert。翻译：安小匠）

平均法则

回溯到响度标准化推行之前，虽然存在响度跳变的问题，但在峰值电平标准化（peak level normalisation）体系下，我们的对白往往接近或处于峰值电平。这种风格的结果是，混音中对白贴近动态余量（headroom）上限，意味着没有多少内容能比对白更响。如今内容按响度标准化，加之基于BS 1770的交付规范带来了额外的可用动态余量，混音中比对白更响的部分似乎过度膨胀了。这产生两个后果：当测量综合响度时，混音中比对白更响的内容越来越多，对白的响度相对于完整混音的响度便被压低——因为混音里比对白更响的内容多了，必然如此，这就是平均法则！

由于比对白这一锚点（anchor point）更响的内容增多，响度范围随之扩大，这对家庭环境下的内容消费极为不利。响度范围越大，声音的强弱跨度就越宽。因为对白响度相对于综合响度被压低，观众不得不调节电视音量，直到让响亮的部分（通常是音乐）听着舒服。然而，过大的响度范围又导致对白音量不足以听清。与其频繁地上下调节音量，观众索性打开了字幕。

［译者注：锚点（anchor point）指的是混音中作为响度基准参考的核心元素。］

减小响度范围

图 4 本文作者Mike Thornton使用NUGEN Audio VisLM-H进行响度测量。（图片来源：Mike Thornton）

此前，我使用 Nugen Audio 的 Dolby Dialog Intelligence 门控（gating）算法，对四档节目进行了综合响度和对白响度的测量：亚马逊 Prime 的《The Grand Tour》、BBC 的《Blue Planet》，以及我自己混音的两部作品。第一部是《Cow Dust Time》，这是为 BBC Radio 3 制作的纪录片。作为英国公共服务古典音乐频道，其风格允许比常规更宽的动态范围，且该节目属于《Between The Ears》栏目，该栏目的制作要求明确鼓励音景营造和比大多数广播纪录片更丰富的声音设计。我的第二部混音作品是《Doctors Dementia》，这是为 BBC Radio 4 制作的更为传统的纪录片，该频道是英国公共服务语音频道。

节目名称	综合响度 LUFS	对白响度 LKFS	备注
Planet Earth 2	-23.0	-26.1	0 LU = -23 LUFS
The Grand Tour	-23.0	-26.3	0 LU = -23 LUFS
Cow Dust Time	-23.0	-22.8	测量结果标准化为0 LU综合响度。0 LU = -23 LUFS
Doctors Dementia	-23.0	-23.8	测量结果标准化为0 LU综合响度。0 LU = -23 LUFS

有趣的是，《The Grand Tour》和《Planet Earth 2》的 Dialog Intelligence 测量准确反映了我之前在《电视混音是否变得过于电影化？（Are TV Mixes Becoming Too Cinematic?）》一文中指出的低电平对白问题：对白门控响度标准化后分别为 -26.1 LKFS 和 -26.3 LKFS，而 R128 全混音测量值为 0 LU（-23 LUFS）。反观我那两部以语音为主的纪录片，《Cow Dust Time》和《Doctors Dementia》的对白门控测量值则更接近 R128 全混音（full mix）的 0 LU（-23 LUFS）。

作为实验的一部分，我还研究了LRA（响度范围，Loudness RAnge）会对对白电平产生何种影响。由于无法重新给部分节目做混音，我将所有混音通过 Nugen Audio 的 LM-Correct 2 处理——该软件专为跨平台内容适配（repurposing）而设计。具体目标是将《Planet Earth 2》和《The Grand Tour》第2集的 LRA 分别压至约10和约8，再借助 Nugen Audio VisLM 2的Dialog Detection功能观察对白电平的变化，结果如下……

节目名称	对白响度 LKFS	节目LRA
Planet Earth 2	-26.1	16.5
	-23.5	9.5
	-23.0	7.6
The Grand Tour	-26.3	12
	-25.3	9.5
	-24.7	7.6

如你所见，两种情况下压缩混音的 LRA 都提升了对白电平。《Planet Earth 2》初始 LRA 很大，更接近 Netflix 风格的混音，将其从 16.5 压至 9.5 后，对白电平从 -26.1 提升至 -23.5，听感舒适得多，也无需频频伸手去够遥控器了。

显然不止我一个人认为LRA很重要。在英国，数字制作合作伙伴关系（Digital Production Partnership，DPP）更新了面向所有英国广播公司的统一交付规范，并添加了关于响度范围的指导意见……

响度范围：指在节目持续时间内测量的感知动态范围——节目应力求 LRA 不超过 18 LU
对白响度范围：对白的采集和混音必须确保清晰易懂——纪实类节目的语音内容应力求 LRA 不超过 6 LU，建议对白与背景之间至少保持 4 LU 的分离度（separation）

在加拿大，CBC 和 Radio Canada 均要求 LRA 低于 8 或 10 LU。他们还更进一步规定：完整节目的综合响度（integrated loudness）以及对白声道的综合响度，两者都必须达到 -24 LKFS。此外，瞬时响度（momentary loudness）不得超过目标响度 +10 LU；并且在保持 -24 LKFS 目标的同时，瞬时响度必须始终低于 -14 LKFS。

目光转向 OTT 提供商，Netflix 在其《Netflix 音频混音规范与最佳实践 v1.0（Netflix Audio Mix Specifications & Best Practices v1.0）》中提供了 LRA 建议。他们指出……

以下响度范围（LRA）值将在平台上获得最佳播放效果：

5.1 节目的 LRA 介于 4～20 LU 之间

2.0 节目的 LRA 介于 4～18 LU 之间

对白 LRA 不超过 7 LU

音效内容与对白差异为 4 LU

传输系统

作为传输系统的一部分，无论是卫星、数字地面电视还是 OTT，声音和画面都会使用“有损”算法进行重度数据压缩——视频最常用 H264，声音则采用 AAC 的某个变种。

［译者注：这里的“AAC的某个变种”指的是HE-AAC（AAC+）。它是ATSC（高级电视系统委员会）采用的音频编码标准，适用于北美等地区。］

有损音频编解码器确确实实会丢弃它认为你听不到的内容来减少所需的数据带宽，而一旦丢失，便无法挽回。正如我们所知，辅音比元音轻得多，因此关键辅音信息在编解码过程中被丢弃的可能性更大。但清晰度不仅仅关乎声音。正如我们从麦格克效应（McGurk Effect）中学到的，清晰度会受到我们所看到的，又或者看不到的内容所影响。

［译者注：麦格克效应是1976年由英国心理学家哈里·麦格克（Harry McGurk）和约翰·麦克唐纳（John MacDonald）发现的一种感官现象（perceptual phenomenon）。该效应揭示了视觉信息对听觉感知的强烈影响：当观众看到的嘴型与听到的声音不一致时，大脑会将两者“融合”，产生第三种完全不同的感知。经典实验中，播放音节 /ba/ 的音频，同时展示发 /ga/ 嘴型的视频，观众会"听到"既不是 /ba/ 也不是 /ga/ 的 /da/ 或 /tha/。］

几年前，Alan Sallabank给一部电视剧做混音，由于题材性质，剧中有着大量的暗光场景，且充斥蓝色与红色——这两种历来都是电视里让人棘手的色彩。其中有一场戏，摄像机从主角对面进入房间，缓缓推近，而她正对着镜头独白。Alan 回忆道：

“我当时用 HDCamSR 数字录像带母带工作，听的是无损声音，一切正常，毫无问题。几个月后，我看到它在标清频道播出，用的不是 5.1声道环绕声，而是 Dolby Pro Logic。我用家庭影院把 Pro Logic 解码回 5.1声道，用机顶盒将画面升频到 1080HD，放在等离子电视上观看。首先注意到的是后方涌出大量咕噜的杂音。有损音频编码造成的伪影主要是异相（out of phase）的，于是从环绕音箱中大声窜出来。但真正吸引我注意的是低码率 H264 视频编码对女演员嘴唇做了什么——它把嘴唇变成了一条静止的黑色像素条，仿佛我们在给什么脏话打上马赛克。这对可读性产生了立竿见影的负面影响。突然间，我无法用眼睛来辅助理解音频，而音频伪影也同样让人分心。”

我怀疑英国剧集《SSGB》也存在类似问题，角色藏身阴影中意味着我们无法看清嘴唇，因此清晰度（intelligibility）受损。

更近的例子是我们曾在《Netflix宣布为其流媒体服务提供“录音室品质”声音（Netflix Announce Studio Quality Sound To Their Streaming Service）》一文中报道的。Scott Kramer 加入 Netflix 担任声音技术经理（职能：创意技术与基础设施）后不久，他们与达菲兄弟（Duffer brothers）在客厅环境中审看《怪奇物语 2（Stranger Things 2）》——兄弟俩喜欢以观众的视角检验作品。第一集中有一段追车戏，他们发现声音不如混音环节里听到的那么清晰锐利。

尽管 Scott 刚进入后期制作领域，他回忆说：

“很多声音听起来很糊（mushy）”，而“糊”“涂抹（smeared）”这类词正是 Scott 和团队在描述那些不够清晰锐利的声音时不约而同用到的。

《怪奇物语》是 Netflix 上备受欢迎的剧集，Scott 很快意识到这事必须“纠正到位”。Netflix 召集了工程团队，决心不惜代价解决这个问题。方案是为《怪奇物语 2》提供更高码率的音频，但他们并未止步于修复这一部剧集，而是努力将改进后的音频更广泛地推广开来。

这是 Netflix 企业文化的一个有趣例证——付诸行动，全力支持创作伙伴。

Netflix 告诉我们，大多数支持 5.1声道环绕声或 Dolby Atmos 的电视设备都能收听更优质的音频。根据设备和带宽能力，你能收听的码率可能有所不同：

5.1声道：从 192 kbps 到最高 640 kbps
Dolby Atmos：适用于Premium 套餐订阅者，从448 kbps 到最高 768 kbps

毫无疑问，如果差异微不足道，Netflix 不会投入时间和财力来增加传输带宽。

电视内置扬声器

这是另一个在媒体甚至政府层面饱受诟病的领域。《战争与和平（War and Peace）》导演 Tom Harper 曾表示，虽然他尊重录音师的意见，但根据他的观点和经验，如果存在可听性问题，那么……

问题出在广播和电视接收端，因为音轨在缩减带宽下通过两个微型扬声器播放。

随着平板等离子和 LED 屏幕成为主流，消费级电视留给扬声器的空间越来越少。回溯CRT电视时代，机壳空间充裕，足以容纳尺寸合理的扬声器，产出不错的音质，而且大概率还是前置发声的。

平板电视本身的设计，加上对窄边框的极致追求，正面已无扬声器容身之处，于是它们常被藏在机身背部，驱动单元极小——然后我们还奇怪为何收到那么多跟声音清晰度有关的投诉。我们能了解到，保证声音清晰度的最佳位置是距离说话者一米，且说话者与听者面对面。若一方没有面向另一方，清晰度便会下降。同理，这些超薄电视将扬声器置于背部，不再面向观众，清晰度自然进一步受损。

下混（Downmixing）

图 5 一款专业的下混音插件：NUGEN Audio HALO Downmix。（图片来源：Mike Thornton & Production Expert）

既然我们谈到了消费端的技术，那么我们就来谈谈另一个影响清晰度的因素：下混音。

交付规范通常要求下混音时将中置声道降低 3dB，虽然这在技术上正确，但我怀疑这在声音上是否是最佳做法，因为 5.1环绕声独立的中置声道，与立体声扬声器的幻像中置单声道（phantom mono centre）之间存在明显的声学差异。（译者注：“幻象中置单声道”的中置声像，是通过左右声道叠加形成的虚拟声像，并非真实存在的独立声道，故名“幻象”。）

你用5.1环绕声混音时，会监听立体声下混音吗？然后回去检查，或许再在5.1声道中微调一下？毕竟，可能超过90的观众会用立体声收听，这使得无论我们需要交付LoRo（Left only / Right only）还是LtRt（Left total / Right total）立体声混音，还是由播放设备实时生成经过下混音的立体声，检查下混音都至关重要。

（译者注：在专业音频交付中，LoRo 与 LtRt指代不同的立体声格式。其中，LoRo指纯立体声混音，左声道仅含左声道信息，右声道仅含右声道信息，不包含任何环绕声编码信息，通常用于音乐或简单的双声道内容。LtRt指矩阵编码的立体声混音，使用 Dolby Surround 等编码技术将中置声道和环绕声道信息“隐藏”在左右立体声声道中。LtRt虽然听起来像普通立体声，但通过 Dolby Pro Logic 解码器可还原为环绕声。）

幻像中置（Phantom Centre）

研究表明，采用幻像中置声道的立体声系统同样会损害清晰度。这种效应源于声学串扰（acoustical crosstalk）——当两个相同信号到达耳朵，其中一个信号相对另一个略有延迟时便会产生。由此产生的梳状滤波效应（comb filtering）会抵消音频中的某些频率。另有研究显示，使用中置扬声器播放语音，相比幻像中置，能带来虽小但可度量的清晰度提升。

解决方案

我给消费者的建议是选择回音壁（soundbar）。这样声音就能与电视锚定在一起。5.1环绕声系统有 6 只音箱，其中任何一只都可能摆错位置。我记得去某人家，发现他的家用5.1系统的左、右音箱分置电视两侧，而中置和环绕音箱则靠在沙发背后抵着墙——这意味着所有对白都来自你身后！

对此，我们能做些什么？

听力正常者觉得必须借助字幕才能听懂对白，这一问题如何解决？正如问题错综复杂，也没有一蹴而就的解决方案。

我们能做什么？这个问题的简单答案是：样样都要更好。要更完整地回答，篇幅会更长，但有一点可以肯定——我不相信靠一个插件就能解决。

深入理解诸多问题

最关键的改进，在于更好地理解和重视所有这些问题，尤其是那些掌握话语权的人——这往往是掌控创意方向的导演，以及手握财权的制片人、内容委托方等。这在追求真实感的趋势中尤为重要，同时也涉及内容应由谁、在何处混音，如何采集声音，以及剧本和场景选择等方方面面。

智能插件？

已有一款旨在提升清晰度的插件尝试过这一领域。早在 2019 年 2 月，Telos Alliance 发布了 AudioTools Voice 插件，专为改善对白清晰度而设计。然而，在用户反馈无法正常使用后，Telos Alliance 电视解决方案团队撤回了该产品，并表示：

“我们决定撤回 AudioTools Voice 的 V1 版本。V1 为这项技术奠定了基础，但我们清楚地认识到，用户控制功能和更多特性将让技术更上一层楼。V2 的开发工作正在进行中，包括算法增强和一系列新功能。我们将继续为现有客户提供支持，现有客户将免费升级至 V2。敬请期待！”

清晰度表

清晰度表（intelligibility meter）至少能通过提供清晰度的量化测量来提供帮助。目前已有两种选择。

公共广播系统（PA，Public Address systems），特别是需要发布安全公告的场所，要求具备可测量的语音传输指数（Speech Transmission Index）。该指数反映传输路径如何影响语音清晰度；它不考虑听者和说者，仅测量传输通道，这意味着听力损失、发音不清及其他（人为）限制等因素未被纳入考量。如需了解更多，可从阅读白皮书《实践中语音清晰度测量（Speech intelligibility measurements in practice）》入手。

回到媒体与广播领域，尽管由于变量过多——其中大部分本文已有涉及——无法测量完整的传输路径，但这正是一个吸引开发者关注的课题。

图 6 iZotope Insight 2中的清晰度表。（图片来源：Mike Thornton & Production Expert）

iZotope 的能工巧匠们已认识到这是一个重要因素，并在其最新版音频可视化与计量软件 Insight 2 中加入了清晰度表。这并非 iZotope 首次率先将概念转化为产品。此次，他们为行业打造的 Insight 2 内置清晰度表，开创了音频计量领域的先河。

首开先河，自有其挑战，因为你必须确立风格与标准。而 iZotope 凭借 Insight 2 的清晰度表迎接了这一挑战。顶部表头不设刻度，仅设目标值，直观易用；有趣的是，当你切换消费者可能的收听环境预期时，目标值会随之移动。然而底部两个以“phon”为刻度的表头，却是音响扩声和紧急广播系统清晰度测量的遗风，置于广播与 OTT 语境中，其确切含义并不明晰。在我看来，仍有完善空间，但当你毫无参照时，总得从某处起步，尤其是在拓荒之时。

这注定不会轻松，但 iZotope 的巧思从未因此却步，我相信他们会持续完善这一新概念。它将为我们的混音清晰度提供量化测量，助益良多，尤其当我们混音的内容越来越多地在嘈杂、复杂的环境中播放，而播放系统又无法提供最佳音质的时候，更是如此。

在大小适当的房间里混音？

我能理解 Netflix 为何想要使用动态范围更宽的交付规范，毕竟他们大量内容是为大银幕而非小屏幕制作的。然而，他们似乎将这种制作标准原封不动地搬到了为小屏幕量身打造的内容上。在我看来，“大银幕内容可直接移植到小屏幕上”这一理念是有缺陷的。Reid Caulfield 在评论我们的文章《电视混音中的响度与对白清晰度——我们能对过于电影化的电视混音做些什么？（Loudness and Dialog Intelligibility in TV Mixes - What Can We Do About TV Mixes That Are Too Cinematic?）》谈及 Netflix 新规范时表示：

“专为‘家庭’环境制作的混音，必须在近场环境、79dB 下完成——如果最初是在大剧院混的，那就得重混。而不是因为某个房间要塞进 40 个人，就在 85dB 的大剧院里做混音。也不能简单地把大扬声器阵列关掉、打开近场监听，就在那种大环境里混。得在更小的、以电视为导向的房间里混才行。”

他随后提出了如何核查混音效果的建议：

“通过要求所有元素以 Dolby Atmos-At-Home ‘封装’形式交付。即便节目并非以 Atmos 格式混音，只要指定以 ADM 文件交付，就能确保源房间尺寸数据和扬声器布局包含在随数据文件和节目内容一并传输的关联元数据中。”

我完全赞同这一观点：电影内容需要重混，“家庭”定制内容也应在更小空间、更合适的监听电平（如 79dB）下混音。我很欣赏他使用 Dolby Atmos-At-Home 封装的想法，因为它会包含混音房间的元数据，这将使核查工作轻松得多。

但在掌权者采纳 Reid 的建议之前，我们能对那些 LRA 过大、不适合家庭消费的混音做些什么呢？

是时候将最大 LRA 纳入规范要求了吗？

正如我所论证的，任何超过 10 LU 的 LRA 对于家庭消费内容而言都过高。我说过，在我看来，18 至 20 LU 的上限实在太高，因此或许是时候向 BS 1770 标准加入 LRA 数值了？至少，它应该成为广播公司交付规范中的硬性要求，而非仅供参考的建议。

采用基于对象的音频（Object Based Audio）怎么样？

另一个确实有效的方案是使用基于对象的音频和 MPEG-H 编解码器。

在《Object Based Audio Can Do So Much More Than Just Dolby Atmos? We Explore》一文中，我们介绍了索尔福德大学（Salford University）广播无障碍研究方向（Broadcast Accessibility）、音频工程研究生 Lauren Ward 的研究项目。Lauren在研究项目中探索了一种方法：对内容中不同音频对象按其对叙事的重要性进行评分。若某对象对故事至关重要，如对白或开门声，则评为“必不可少”；氛围和音乐等虽能丰富叙事，但即便缺失也不妨碍理解故事的对象，则重要性逐级降低。

随后只需一个控制滑块，你就能从完整标准混音一路调至仅保留必不可少内容的混音，供重度听障者使用。我曾在访问索尔福德大学时亲自体验，发现它非常简单直观，而且在制作过程中对对象进行评分也十分便捷。

这种单一控制界面比其他个性化方案简单得多——后者往往要为解说、音效、主队人群（home crowd）、客队人群（away crowd）等每个对象分别设置多个电平控制。

自我们发表此文以来，Lauren 的研究在英国进入了公开测试阶段。这项实验选取了 BBC 一台医疗剧《急诊室（Casualty）》的最新一集，在 BBC 网站上呈现了一个特别版本——除音量控制外，还增加了一个滑块。将该滑块保持在右侧，即为标准音频混音；向左滑动，则逐步降低背景噪音（包括音乐），使对白更加清晰。这项实验引起了英国全国性媒体的关注，包括《泰晤士报》的相关报道。这是一个限时演示，上线时间已经延长，截至撰稿时仍可在 BBC 网站供英国境内用户访问。

虽然《急诊室》以英国一家大型医院的急诊部（Accident and Emergency）为背景，但此处的 A&E 指的是"无障碍与增强"（Accessible and Enhanced）音频。在这项 BBC 项目中，他们正在试用一项新功能，让观众能够自行调节该集的音频混音，使其最适合自己的需求和偏好。

该项目虽面向英国 1100 万听力受损人群，以及所有难以听清演员台词的观众，但英国媒体敏锐地发现，那些在嘈杂的火车和公交车上流媒体看剧的通勤族，同样能从中受益。

这项技术可以整合到消费级电视中，正如 BBC《急诊室》的实验所示，网络平台和流媒体服务也能轻松将其嵌入智能电视的播放器，届时无论听力正常还是听障人士，都能从这一出色系统中获益。

我认为这并不难实现，当然包含两个环节：在消费者端部署这一滑块功能，以及在制作过程中对内容进行重要性分级。正如 Lauren 所解释的：

“我们的技术为电视节目制作和观看过程增加了两个环节。第一个发生在拍摄完成后、进行音频混音时。此时，每个声音或声音组都会由配音混音师或制片人赋予一个重要性级别（存储在元数据中）。”

你可以像 Avid 在 Pro Tools 中为片段评级那样，建立一套评级系统。在制作流程中嵌入叙事重要性评级系统，再将相关元数据封装进交付流，这一切都非常容易实现。Lauren 进一步解释道：

“某些非语音声音，比如《急诊室》中心脏监护仪的平线提示音（flatlining beep），对剧情叙事至关重要。这项技术让这些关键音效保持突出，同时弱化非必要的声音。”

基于对象的音频赋予消费者更多控制权，同时也为内容提供商提供了技术支持：只需传输一路基于对象的内容流，再利用元数据，即可针对消费者播放内容所使用的硬件，渲染出最合适的版本。

结语

就是这样。正如我们在本文开篇所说，听力正常者不得不求助于字幕的原因多种多样，而且相互叠加，令情况愈发糟糕。

作为音频后期制作编辑和混音师，如果听力正常的消费者必须打开字幕才能跟上剧情，我觉得这是我们行业的失职。我们有责任，那些掌控预算和创意决策的人也有责任，去理解这些问题，并共同努力解决这一对我们服务的消费者的亏欠。

这是我的看法。你怎么看？

本文出自《midifan月刊》2026年03月第240期

可下载 Midifan for iOS 应用在手机或平板上阅读（直接在App Store里搜索Midifan即可找到，或扫描下面的二维码直接下载），在 iPad 或 iPhone 上下载并阅读。

深入调查：响度标准化规范是否有碍影视对白清晰度？