作者：Russ Hughes
出处：https://www.production-expert.com/production-expert-1/if-you-are-mixing-in-immersive-formats-you-need-to-read-this
翻译：安小匠

沉浸式音频（immersive audio）早已走出实验阶段，但我们谈论它的方式却仍停留在实验思维。在与 Hyunkook Lee 教授、Emre Ramazanoglu 和 Mark Gittins 的这场对话中，讨论重心从格式规范转向了一个更本质的议题：人类究竟如何在三维空间中感知声音，以及沉浸式混音在哪些隐秘之处与我们背道而驰。

沉浸式音频的发展可谓一日千里。如今，Dolby Atmos 混音已成标配而非锦上添花，各大平台几乎在一夜之间就将高度声道（height channels）变成了标配。然而，我们对沉浸式声音感知机制的共同认知却未能同步跟进；而那些从立体声时代沿袭下来的固有假设，也正在悄然瓦解。

近日的一期《Production Expert Podcast》节目汇聚了三位专业人士：哈德斯菲尔德大学（University of Huddersfield）音频与心理声学工程教授、应用心理声学实验室创始人 Hyunkook Lee，以及两位沉浸式混音师 Emre Ramazanoglu 与 Mark Gittins。这场对话并未流连于工作流程或工具层面，而是深入探讨了心理声学、听觉感知，以及这些因素对 Dolby Atmos 及其他沉浸式音频格式混音者的切实影响。

以下内容绝非纸上谈兵，而是一组直击实践的观察：它们关乎沉浸式混音的转化效果，关乎艺术家的真实反馈，也关乎为何有些 Atmos 作品令人信服，而有些却在不知不觉中分崩离析。

高度，并不只是“向上平移（Panning Upward）”

沉浸式格式与传统环绕声的根本差异，在于增加了高度扬声器（height speakers）。这听起来不言自明，但其背后的心理声学影响却常被误读。

Hyunkook Lee教授投身环绕声与沉浸式声音研究已逾二十五载，自2010年起便专注于高度感知（height perception）领域。他最初提出的问题看似简单，实则暗藏玄机。

“当我们引入这些额外的高度扬声器后，究竟如何在垂直立体声系统中实现声音的垂直定位？”

在传统立体声中，双耳时间差与电平差构成了定位判断的主要依据。然而 Hyunkook Lee 教授指出，这些线索在垂直方向上并不适用。

“简而言之，我发现时间差对垂直定位并不奏效。在垂直立体声系统中，它无法精准运作，因为我们的听觉机制本就不是这样设计的——双耳是水平排布，而非垂直排列。”

在实际操作中，在下方扬声器（lower speakers）与高度扬声器之间加入信号延迟，并不能形成稳定的垂直声像定位，反而会带来梳状滤波效果和频谱伪影（spectral artifacts）。
即便是电平差异，作用也相当有限。

“基于电平的声相调节（level panning）同样无法实现精准定位。我们在立体声中使用的声相平移（panning）机制，本质上只是为了操作方便。它们既不能提供准确的声像定位，还会给声音带来明显的染色。”

对于沉浸式音频工程师而言，这需要一次重要的“思维重置”。高度扬声器并非简单的“垂直版左右声道”，若将其等同视之，所引发的问题绝非自动化手段所能化解。

频谱线索（Spectral Cues）才是幕后推手

既然时间与电平差都靠不住，我们究竟是如何感知高度的呢？

“关键其实在于频谱线索，”Hyunkook Lee教授解释道。“有一个理论叫音高效应（pitch effect）。无论扬声器实际位置在哪，只要高频成分越多，人耳就越倾向于将其感知在更高的位置。”

低频的表现则截然不同。

“如果你从高度扬声器播放100 Hz的音频，它永远不会被定位在那里。人耳只会觉得声音来自耳平高度，甚至更低。”

这对沉浸式混音有着立竿见影的影响。将信号移入高度层，从来不是中性的空间调整——无论有意无意，它本质上都是在做音色上的取舍。

图 1 Hyunkook Lee教授。（图片来源：Sensound Audio）

高度扬声器就是均衡器，无论你愿不愿意

讨论中最发人深省的一个转向，是从“空间”话题滑向了“音色”本质。

“很多人张口闭口都是空间感，”Hyunkook Lee教授说道，“却鲜少有人谈及音色，以及它究竟有多关键。”

与耳平高度的扬声器相比，高度扬声器的头相关传输函数（head-related transfer functions，HRTF）存在本质差异。

“左前（front left）高度扬声器在8 kHz处能量更充沛，而4 kHz则相对衰减；耳平高度的左前扬声器则是2～4 kHz更为突出，高频部分有所削减。所以，当你把声源从下方扬声器挪到上方，本质上就是在做EQ处理。”

这并非沉浸式格式的缺陷，而是物理规律使然。但这意味着，沉浸式混音天生就是音色混音。

“有时候你甚至不用操心掩蔽效应（masking），”Hyunkook Lee 教授补充道，“只要把声源分散到不同方向，它们之间的掩蔽就会自然减少。这些问题就这样迎刃而解了。”

但这有个前提：工程师必须清楚自己在改变什么，以及背后的缘由。

双耳监听与 HRTF 的局限

双耳回放（binaural playback）又添了一层复杂性，尤其是当沉浸式音频通过耳机抵达听众时。HRTF常被奉为灵丹妙药，但 Hyunkook Lee 教授对其局限性有着清醒的认识。

“如果个人 HRTF（personal HRTF）只是静态数据，又没有配合房间模拟，效果其实并不理想。”

即便测量过程一丝不苟，结果也是千差万别。

“我在不同实验室测过四套个人 HRTF，包括基于 AI 的方案。没有一套堪称完美，而且它们听起来都非常、非常不一样。”

问题不单单在于测量精度。人类的感知，很大程度上依赖着运动、情境与视觉线索。

“人类天生就受限——看不见、动不了的时候，定位声音的能力大打折扣。”

这也解释了为何静态双耳回放即便在技术层面准确无误，却常常在前后与上下的方位判断上陷入混乱。

忠于初衷，而非追逐声景

对于从事商业 Atmos 发行的工程师而言，Emre Ramazanoglu 的视角源于大规模实战的淬炼。

“保留音色特质是我们的核心任务，”Emre Ramazanoglu 说道。

历经数千支沉浸式混音的制作，他的首要考量从来不是推倒重来。

“大多数人想要的是自己的混音在沉浸式环境中依然出彩，而不是另起炉灶再做一个版本。”

双耳交付（binaural delivery），尤其是在消费级平台上，可能引入音色染色的变数，而工程师对此往往束手无策。

“如果作品的音色发生了变化，就这样交付给消费者，作为混音工程师我会非常困扰。艺术家们不会接受，愿意接受的我一个都没遇到过。”

应对之道是务实的。

“我们正在用同样的手法彻底消除音色变化，同时保留一定的沉浸感。”

监听、房间与心理预期

用耳机监听沉浸式音频，只有在对感知进行精细调控时才奏效。Hyunkook Lee 教授的双耳监听研究正是建立在这一理念之上。

“声学环境不必与你实际房间完全一致，但所有关键的感知线索都必须合理地模拟出来。”

视觉情境与声音同等重要。

“当你看到扬声器就在面前，听觉基本上就被视觉锚定了。”

这也解释了为何熟悉感常常胜过技术指标的精确。

“我有一个客厅预设。房间完全没有声学处理，但我喜欢那个声音，因为它太熟悉了。如果我在客厅里听这个预设，听起来就像真实的扬声器。但如果在实验室里听，我撑不过五秒钟，因为听起来就是不对劲。”

运动重塑感知

Hyunkook Lee 教授与 Mark Gittins 都指出，运动正是许多沉浸式聆听系统中缺失的关键要素。

“一旦你开始移动，大部分问题便会迎刃而解，”Hyunkook Lee 教授说道，“即便使用的是非个人化的 HRTF 也是如此。”

这正是 VR 环境往往比静态双耳回放更具说服力的原因。

“在 VR 中，视觉环境会捕获音频。你的大脑适应得非常快。”

没有运动，感知就会停滞。

“如果你是静止的，我们其实无法真正理解发生了什么。”

这把我们引向何方

有一点已清晰浮现：沉浸式音频，并非只是拥有更多扬声器的立体声。它揭示了立体声时代我们得以回避的听觉真相。

无论我们是否情愿，高度声道会改变音色。双耳回放受制于人类感知，这不亚于技术本身的局限。而 HRTF，虽有其价值，却并非放之四海而皆准的解决方案。

工程师在沉浸式混音中苦苦挣扎的诸多难题，归根结底在于：人类一旦脱离运动、视觉情境或熟悉感，定位声音的能力便极为有限。静态聆听，本质上违背了人的天性。

这要求混音师具有不同的思维方式。声像位置与音色特质不可分割，作品转换与听觉感知不可分割。而监听的意义，仅当听者的大脑真正“相信”所听到的空间时才得以成立。

沉浸式音频常被包装成一种自由。然而实践中，它更是一种克制。我们添加的声道越多，就越是被迫直面听觉运作的真实机制。

译者注：文中部分术语解释

高度声道（height channel）：沉浸式音频系统中位于听众上方的扬声器通道，用于重现垂直方向的声音信息，是实现三维声像定位的关键组成部分。
梳状滤波（comb filtering）：因同一声源的多路信号存在时间差叠加而产生的频谱干涉现象，表现为频响曲线上的周期性峰谷交替，导致音色失真与声像定位不稳定。
基于电平的声相调节（level panning）：通过调节声源在不同扬声器间的相对音量来实现声像定位的技术，是立体声及多声道系统的基础手段。但在垂直方向上，单纯依赖电平差无法精准定位，且会引入明显的音色变化。
头相关传输函数（Head-Related Transfer Function，HRTF）：描述声波经头部、耳廓等生理结构滤波后到达鼓膜的频响特性，是人耳定位声源方位的关键生理线索。每个人的HRTF因生理结构差异而独特，双耳音频技术通过模拟HRTF试图在耳机中重建空间声像。

个人化HRTF（personal HRTF）：针对特定个体生理特征测量或计算得出的HRTF，旨在克服通用HRTF因个体差异导致的定位偏差。获取方式包括声学测量、3D扫描建模及AI预测等。与之相反，“非个人化HRTF”则是通用配置，不限于特定个体。

双耳交付（binaural delivery）：将多声道沉浸式音频（如Dolby Atmos）通过双耳渲染技术转换为耳机播放格式的过程。由于各平台渲染算法差异及HRTF的个体适配问题，可能导致音色偏离混音师原始意图，成为沉浸式音频分发中的关键挑战。

本文出自《midifan月刊》2026年03月第240期

可下载 Midifan for iOS 应用在手机或平板上阅读（直接在App Store里搜索Midifan即可找到，或扫描下面的二维码直接下载），在 iPad 或 iPhone 上下载并阅读。

给沉浸式格式音频做混音的一些建议