给沉浸式格式音频做混音的一些建议
- 作者:Russ Hughes
- 出处:https://www.production-expert.com/production-expert-1/if-you-are-mixing-in-immersive-formats-you-need-to-read-this
- 翻译:安小匠
沉浸式音频(immersive audio)早已走出实验阶段,但我们谈论它的方式却仍停留在实验思维。在与 Hyunkook Lee 教授、Emre Ramazanoglu 和 Mark Gittins 的这场对话中,讨论重心从格式规范转向了一个更本质的议题:人类究竟如何在三维空间中感知声音,以及沉浸式混音在哪些隐秘之处与我们背道而驰。
沉浸式音频的发展可谓一日千里。如今,Dolby Atmos 混音已成标配而非锦上添花,各大平台几乎在一夜之间就将高度声道(height channels)变成了标配。然而,我们对沉浸式声音感知机制的共同认知却未能同步跟进;而那些从立体声时代沿袭下来的固有假设,也正在悄然瓦解。
近日的一期《Production Expert Podcast》节目汇聚了三位专业人士:哈德斯菲尔德大学(University of Huddersfield)音频与心理声学工程教授、应用心理声学实验室创始人 Hyunkook Lee,以及两位沉浸式混音师 Emre Ramazanoglu 与 Mark Gittins。这场对话并未流连于工作流程或工具层面,而是深入探讨了心理声学、听觉感知,以及这些因素对 Dolby Atmos 及其他沉浸式音频格式混音者的切实影响。
以下内容绝非纸上谈兵,而是一组直击实践的观察:它们关乎沉浸式混音的转化效果,关乎艺术家的真实反馈,也关乎为何有些 Atmos 作品令人信服,而有些却在不知不觉中分崩离析。
高度,并不只是“向上平移(Panning Upward)”
沉浸式格式与传统环绕声的根本差异,在于增加了高度扬声器(height speakers)。这听起来不言自明,但其背后的心理声学影响却常被误读。
Hyunkook Lee教授投身环绕声与沉浸式声音研究已逾二十五载,自2010年起便专注于高度感知(height perception)领域。他最初提出的问题看似简单,实则暗藏玄机。
“当我们引入这些额外的高度扬声器后,究竟如何在垂直立体声系统中实现声音的垂直定位?”
在传统立体声中,双耳时间差与电平差构成了定位判断的主要依据。然而 Hyunkook Lee 教授指出,这些线索在垂直方向上并不适用。
“简而言之,我发现时间差对垂直定位并不奏效。在垂直立体声系统中,它无法精准运作,因为我们的听觉机制本就不是这样设计的——双耳是水平排布,而非垂直排列。”
在实际操作中,在下方扬声器(lower speakers)与高度扬声器之间加入信号延迟,并不能形成稳定的垂直声像定位,反而会带来梳状滤波效果和频谱伪影(spectral artifacts)。
即便是电平差异,作用也相当有限。
“基于电平的声相调节(level panning)同样无法实现精准定位。我们在立体声中使用的声相平移(panning)机制,本质上只是为了操作方便。它们既不能提供准确的声像定位,还会给声音带来明显的染色。”
对于沉浸式音频工程师而言,这需要一次重要的“思维重置”。高度扬声器并非简单的“垂直版左右声道”,若将其等同视之,所引发的问题绝非自动化手段所能化解。
频谱线索(Spectral Cues)才是幕后推手
既然时间与电平差都靠不住,我们究竟是如何感知高度的呢?
“关键其实在于频谱线索,”Hyunkook Lee教授解释道。“有一个理论叫音高效应(pitch effect)。无论扬声器实际位置在哪,只要高频成分越多,人耳就越倾向于将其感知在更高的位置。”
低频的表现则截然不同。
“如果你从高度扬声器播放100 Hz的音频,它永远不会被定位在那里。人耳只会觉得声音来自耳平高度,甚至更低。”
这对沉浸式混音有着立竿见影的影响。将信号移入高度层,从来不是中性的空间调整——无论有意无意,它本质上都是在做音色上的取舍。
![]()
图 1 Hyunkook Lee教授。(图片来源:Sensound Audio)
高度扬声器就是均衡器,无论你愿不愿意
讨论中最发人深省的一个转向,是从“空间”话题滑向了“音色”本质。
“很多人张口闭口都是空间感,”Hyunkook Lee教授说道,“却鲜少有人谈及音色,以及它究竟有多关键。”
与耳平高度的扬声器相比,高度扬声器的头相关传输函数(head-related transfer functions,HRTF)存在本质差异。
“左前(front left)高度扬声器在8 kHz处能量更充沛,而4 kHz则相对衰减;耳平高度的左前扬声器则是2~4 kHz更为突出,高频部分有所削减。所以,当你把声源从下方扬声器挪到上方,本质上就是在做EQ处理。”
这并非沉浸式格式的缺陷,而是物理规律使然。但这意味着,沉浸式混音天生就是音色混音。
“有时候你甚至不用操心掩蔽效应(masking),”Hyunkook Lee 教授补充道,“只要把声源分散到不同方向,它们之间的掩蔽就会自然减少。这些问题就这样迎刃而解了。”
但这有个前提:工程师必须清楚自己在改变什么,以及背后的缘由。
双耳监听与 HRTF 的局限
双耳回放(binaural playback)又添了一层复杂性,尤其是当沉浸式音频通过耳机抵达听众时。HRTF常被奉为灵丹妙药,但 Hyunkook Lee 教授对其局限性有着清醒的认识。
“如果个人 HRTF(personal HRTF)只是静态数据,又没有配合房间模拟,效果其实并不理想。”
即便测量过程一丝不苟,结果也是千差万别。
“我在不同实验室测过四套个人 HRTF,包括基于 AI 的方案。没有一套堪称完美,而且它们听起来都非常、非常不一样。”
问题不单单在于测量精度。人类的感知,很大程度上依赖着运动、情境与视觉线索。
“人类天生就受限——看不见、动不了的时候,定位声音的能力大打折扣。”
这也解释了为何静态双耳回放即便在技术层面准确无误,却常常在前后与上下的方位判断上陷入混乱。
忠于初衷,而非追逐声景
对于从事商业 Atmos 发行的工程师而言,Emre Ramazanoglu 的视角源于大规模实战的淬炼。
“保留音色特质是我们的核心任务,”Emre Ramazanoglu 说道。
历经数千支沉浸式混音的制作,他的首要考量从来不是推倒重来。
“大多数人想要的是自己的混音在沉浸式环境中依然出彩,而不是另起炉灶再做一个版本。”
双耳交付(binaural delivery),尤其是在消费级平台上,可能引入音色染色的变数,而工程师对此往往束手无策。
“如果作品的音色发生了变化,就这样交付给消费者,作为混音工程师我会非常困扰。艺术家们不会接受,愿意接受的我一个都没遇到过。”
应对之道是务实的。
“我们正在用同样的手法彻底消除音色变化,同时保留一定的沉浸感。”
监听、房间与心理预期
用耳机监听沉浸式音频,只有在对感知进行精细调控时才奏效。Hyunkook Lee 教授的双耳监听研究正是建立在这一理念之上。
“声学环境不必与你实际房间完全一致,但所有关键的感知线索都必须合理地模拟出来。”
视觉情境与声音同等重要。
“当你看到扬声器就在面前,听觉基本上就被视觉锚定了。”
这也解释了为何熟悉感常常胜过技术指标的精确。
“我有一个客厅预设。房间完全没有声学处理,但我喜欢那个声音,因为它太熟悉了。如果我在客厅里听这个预设,听起来就像真实的扬声器。但如果在实验室里听,我撑不过五秒钟,因为听起来就是不对劲。”
运动重塑感知
Hyunkook Lee 教授与 Mark Gittins 都指出,运动正是许多沉浸式聆听系统中缺失的关键要素。
“一旦你开始移动,大部分问题便会迎刃而解,”Hyunkook Lee 教授说道,“即便使用的是非个人化的 HRTF 也是如此。”
这正是 VR 环境往往比静态双耳回放更具说服力的原因。
“在 VR 中,视觉环境会捕获音频。你的大脑适应得非常快。”
没有运动,感知就会停滞。
“如果你是静止的,我们其实无法真正理解发生了什么。”
这把我们引向何方
有一点已清晰浮现:沉浸式音频,并非只是拥有更多扬声器的立体声。它揭示了立体声时代我们得以回避的听觉真相。
无论我们是否情愿,高度声道会改变音色。双耳回放受制于人类感知,这不亚于技术本身的局限。而 HRTF,虽有其价值,却并非放之四海而皆准的解决方案。
工程师在沉浸式混音中苦苦挣扎的诸多难题,归根结底在于:人类一旦脱离运动、视觉情境或熟悉感,定位声音的能力便极为有限。静态聆听,本质上违背了人的天性。
这要求混音师具有不同的思维方式。声像位置与音色特质不可分割,作品转换与听觉感知不可分割。而监听的意义,仅当听者的大脑真正“相信”所听到的空间时才得以成立。
沉浸式音频常被包装成一种自由。然而实践中,它更是一种克制。我们添加的声道越多,就越是被迫直面听觉运作的真实机制。
译者注:文中部分术语解释
- 高度声道(height channel):沉浸式音频系统中位于听众上方的扬声器通道,用于重现垂直方向的声音信息,是实现三维声像定位的关键组成部分。
- 梳状滤波(comb filtering):因同一声源的多路信号存在时间差叠加而产生的频谱干涉现象,表现为频响曲线上的周期性峰谷交替,导致音色失真与声像定位不稳定。
- 基于电平的声相调节(level panning):通过调节声源在不同扬声器间的相对音量来实现声像定位的技术,是立体声及多声道系统的基础手段。但在垂直方向上,单纯依赖电平差无法精准定位,且会引入明显的音色变化。
- 头相关传输函数(Head-Related Transfer Function,HRTF):描述声波经头部、耳廓等生理结构滤波后到达鼓膜的频响特性,是人耳定位声源方位的关键生理线索。每个人的HRTF因生理结构差异而独特,双耳音频技术通过模拟HRTF试图在耳机中重建空间声像。
- 个人化HRTF(personal HRTF):针对特定个体生理特征测量或计算得出的HRTF,旨在克服通用HRTF因个体差异导致的定位偏差。获取方式包括声学测量、3D扫描建模及AI预测等。与之相反,“非个人化HRTF”则是通用配置,不限于特定个体。
- 双耳交付(binaural delivery):将多声道沉浸式音频(如Dolby Atmos)通过双耳渲染技术转换为耳机播放格式的过程。由于各平台渲染算法差异及HRTF的个体适配问题,可能导致音色偏离混音师原始意图,成为沉浸式音频分发中的关键挑战。
文章出处 https://magazine.midifan.com/detail.php?month=2026-03#14
转载新闻请注明出自 Midifan.com