音频与 VR 游戏
图片由Sergey Galyonkin提供
由于Oculus Rift、索尼的Morheus工程和其他类似的虚拟现实(VR)设备的出现,过去一年里涉及的VR内容比过去20年里的加起来还多。 视觉前沿正在发生很多革新,包括游戏设置的新方法、叙事结构和视觉设计。这就带来一个显著的问题:听觉前沿发生了什么呢?
对VR音频的讨论遍及网络,但大部分都是关于双耳/3D定位音频背后的技术。过去几十年间,关于听觉界面的学术研究也有很多。在谷歌学术搜索中进行搜查,会发现很多值得一读的好材料。[本文重点关注第一人称游戏,这类游戏就跟环境一样,视听现实主义和同步性是必不可少的。
在过去的两年半时间里,我一直参与Two Big Ears公司的工作,我们一起开发了3Deception,这是一款非常有效地实现实时同步且容易使用的双耳音频工具,使用范围很广(你可以去网站观看、下载小样)。在此期间,我有机会为大约14个增加的虚拟现实项目设计声音,包括了游戏、视觉障碍人群辅助界面、音频导向的旅游应用程序。我目前的经验(尤其是双耳音频方面的经验)表明在非VR应用中理所当然的“技巧”并不能同样适用于VR游戏。本文总结了我作为设计师在处理这些技术的过程中学到的东西。
本文肯定不能介绍得很详尽,我希望随着更多的声音设计师在这方面有所经历之后可以扩充本文内容。我也在维基百科上留了这篇文章,希望在我继续从事这方面工作的同时及时更新(放在维基百科上是为了方便大家补充)。我目前也在做一款小的游戏项目,其中涉及到本文将讨论的一些内容,做完之后我会放上链接。
试验是新兴技术和新媒体的关键。如果没有“方法”,那么请早点涉入并开始定义它们。早失败,很快走出失败,依次更迭。
2D还是3D音频
大多数游戏和游戏音频引擎都可以让你选择2D或3D音源。2D的声音无法反映游戏世界中的位置参数,例如,2D声音不会根据声源对于玩家的相对位置而自动调整。而另一方面,3D声音则可以根据玩家的相对位置和距离自动调整、改变声音强度。大多数声音引擎都有一套基于振幅的立体声声像算法,可以兼顾定位。如果声源背对听众,为了增强效果,一些引擎在声源中增加了低通滤波器。在过去的几十年内,这种做法都很有效,尤其在有视觉信息支撑的情况下,但是在处理VR时,这种经验就很局限了。
第一人称的VR 游戏世界总是想要尽可能真实可信的体验。这就意味着视听体验的每个方面都必须为此服务。在处理VR和头部跟踪时,双耳音频和传统立体声声像之间有很大区别,尤其是在处理水平和垂直平面的时候。当你看到一个物体在你上空飞过,同时也听到它在你头顶移动,这是一个很棒的体验。大多数的VR经历都是个人化的,通常需要通过耳机体验,使用实时双耳音频让其完美。
单声道还是立体声?
显然,双耳引擎和声像需要单声道的音频源。那么如果是立体声的音频材料呢?我倾向于在MS中录好所有声源,这样我在设计的过程中就有很多选择。针对提前录制好的合成立体声材料,我使用过以下策略:
- 选用一个单独的声道:如果可能的话舍弃其中一条声道。处理左右声道平均传出来的声音(例如:近距离立体声的录制),这中做法很有效。
- 缩混成单声道:如果左右声道都包含了重要的内容,则把两个声道缩混成单声道会要一些。这取决于音频内容和需要注意的定相问题。
- 两个双耳声源:根据视觉世界中物体的大小,你可以创造两个音频源,为每一个物体分配一个立体声声道。根据我的经验这没什么用处,只除了一次,我在设计河流的声音时,这种做法让声音扩散开来,效果不错。总体来说,我觉得这个方法不是很有效,也可能导致相位问题。
- 结合使用双耳和立体声音频:下一部分详述。
声源的尺寸和扩散
在处理单声道双耳声源时,很难控制声源的扩散。一个扩散的或者大尺寸的声源听起来不应该像是从空间中的一个单独的点发出的。例如,远处的交通声、溪流/河水、大型车辆,等等。这可以通过简单的立体声声像技术达到效果。对于双耳声源,改变衰减的最小距离值会有所帮助。还有很多其他复杂的方法可以达到这样的效果,但我倾向于把双耳声源和立体声声源混合在一起。双耳和立体声的声源混合比例可以用来实现必要的扩散量,同时让听众更容易辨别声音的位置。这显然会导致定位部分失真,但扩散的声音本来就很难定位在某一个点!
早期回声和混响
早期的回声对于理解听众所在、也是声源所在环境空间的大小、规模和类型很重要。传统的立体声混响包括在立体声(或环绕)阶段的早期回声。在3Dception中我们最看重的一个特点就是双耳特征的早期回声和完整的空间建模系统,来尽可能地让声音接近现实。早期回声、混响和直接声音的混合比例的不同会大大影响定位质量的差别。这三者加在一起,给大脑提供正确的线索,让它不再怀疑真实性,欣然接受这些声音。
音频中普遍使用的一个技巧是,把混响作为把音轨中各种元素结合在一起的“胶水”,同时还能在空间内传递信息。带有立体回声的传统混响会降低双耳声源的定位质量,因为回声和混响听起来像是来自听众头部内的声音,而双耳声源恰好像是来自外部。这容易导致听众的困惑,影响虚拟空间的质量。双耳音频实际上比游戏音频中的技术要求更高,比如反应式混响区域、复杂的衰减曲线和HDR混音。在处理完整的3D定位声像时,混音变得尤为重要。少就是多。
预延迟值也更重要了。我经常稍微延迟一下混响(使用预延迟的方法)来增加空间质量,但仍然将后期混响作为“胶水”。3Dception的空间建模系统轻松地实现两方面的最佳效果——很好的声音后期混响和跟VR/游戏环境空间很搭的早期回声空间建模系统。
反应式和程序化内容
过去的几年里越来越多地使用程序化技术或者结合使用程序化和传统技术。我却支持在VR中加入更多反应式的技术。尽管完全程序化的内容也会非常棒,但是我们实际并不需要做这样的处理。开放音频引擎的更多参数,并且捆绑成为视觉组件,这样可以长久发展下去。音高微小的变化,或仔细调节多普勒值,可以创造出真实可信的体验。把每段音频资源看作是多层次的反应式元素,而不仅仅是一个音频文件,这样可以帮助你改变设计与实现的习惯。将视觉元素与音频参数同步很重要,这可以带来独特的体验。
更多数据!
有了动态和头部跟踪,拟音可以慢慢演变为超出脚步声和基本动作声音吗?触发这些声音的游戏逻辑也可以演变,慢慢超出由玩家控制输入吗?例如,近距离的双耳声源可以用来模拟潜水服的声音吗?还有机器人头部运动的声音?玩家旋转时衣物摩擦的细节声音?拟音可以给玩家在虚拟世界中带来更好的存在感吗?只有一种方法可以探索这些问题——不断实验,直到感觉对为止。像拟音这样的微妙设计与惊人技术接合的领域,我希望在之后自己探索VR和3D音频世界的时候可以提供更多此类材料。可下载Midifan for iOS应用在手机或平板上阅读(直接在App Store里搜索Midifan即可找到,或扫描下面的二维码直接下载),在iPad或iPhone上下载并阅读。
转载新闻请注明出自 Midifan.com