VR 音频探秘之二：Spatial Audio（VR音频）的基本原理

要了解如何营造一个Spatial Audio的声音，我们需要先来了解一下在现实的三维空间中，声音具有哪些最基本的特性。

一、声音的方位感

人们对声音方位感的判断主要有4个依据：时间差、声级差、人体滤波效应和头部晃动

1. 时间差（interaural time difference, ITD）：

根据声源与双耳距离的不同，声音到达左右耳的时间会有一个差值，这个差值就叫做时间差。

2. 声级差（interaural level difference, ILD）：

由于头部的遮挡，到达左耳与右耳声音的声压级是不同的，会形成声级差。

在800Hz以下，声音可以绕过头部，因此头部的遮挡对声压级的影响较小，时间差起到主要的定位作用；800Hz到1500Hz是一个过渡性区域；而1500Hz以上，高频的声音会被头部遮挡，所以主要由声级差来判断方位。

3. 人体滤波效应：

人的头部、肩颈、躯干，会对来自不同方向的声音产生不同的作用，形成反射、遮挡或衍射。尤其是外耳，通过耳廓上不同的褶皱结构，对来自不同方向的声音产生不同的反射或遮挡，形成不同的滤波效果，大脑通过这些不同的滤波效果产生对声源方位的判断。

4. 头部的晃动：

当一个声源的位置难以判断的时候，人们常常会不自觉的轻微晃动头部，使时间差、声级差或人体滤波效应产生变化，并依据这些变化进行快速的重新定位。

下面我们可以根据这四个要素，从三维坐标的角度去理解声音是如何被定位的

Y轴 - 左右定位：时间差 + 声级差 + 头部晃动

左右定位最容易得到，凭借时间差和声级差就可以对声源位置有一个良好的判断。当然一些情况下我们还是需要晃动头部来进行辅助定位。

X轴 - 前后定位：人体滤波效应 + 头部晃动

当一个声音从正前方或正后方传来的时候，声源与左右耳的距离相同，没有了双耳间的时间差和声级差，我们只能通过人体滤波效应和头部晃动来进行判断。来自前方的声音，除了直达声，还有一部分来自耳廓的反射声进入耳内。而来自后方的声音，高频部分被耳廓所遮挡，低频部分经过绕射进入耳内。

此外人们可以通过转动头部，把正前方或正后方的声音相对的移动到侧面，这样就使得左右耳之间的声音出现了时间差和声级差，便于定位。

Z轴 - 上下定位：人体滤波效应 + 头部晃动

耳廓上的褶皱会对来自不同高度的声音进行不同反射，是我们对声源高度判断最主要的依据。

同时我们也可以通过晃动头部，使左右耳之间的时间差、声级差产生变化。帮助我们更精确的判断高度位置。

在现实中，声源位于三维的空间中，通常都需要我们综合上述所有的方式去判断方位。时间差、声级差、人体滤波效应这三个要素可以被综合的表述为头部相关传输函数(head-related transfer function, HRTF)，这项技术构成了绝大部分3D声音定位技术的基础。头部晃动虽然并不是一个决定性因素，但是无论在哪个方向上，都对我们判断声源的位置有着极大地帮助。

二、声音的空间感

室内声场有3个组成部分：直达声、早期反射声和混响声。人们对于声音的空间感主要是依据早期反射声和混响声来建立的。

1. 早期反射声

首先直达声与早期反射声之间的初始延时大小决定了我们对空间大小的感知。同时，早期反射声会来自三维空间内各个方向，通过HRTF信息，我们也可以感知到不同方向早期反射声不同的延时和响度，这有助于我们判断声源的位置和距离。另外，也能够让我们在一定程度上感知到自己在空间中所处的位置。所以，建立一个3D的早期反射声对我们构建一个3D的空间感是尤为重要的。

混响声

声音在空间中不断反射、衰减，形成了均匀、密集的混响声，混响的时间、密度反应出了整个空间的声学特性，与直达声、早期反射生共同建立起室内声场。这是一个经过多次反射的、没有方向性的声音，当然没有方向性也就是说它会来自3D空间内的各个方向。

了解了以上这些声音的属性，我们就可以来讨论Spatial Audio的两个要素了。

Spatial Audio（VR音频）的第一个要素：3D

什么是3D音频呢？传统的5.1 Surround可以把声音展现在一个水平面上，声音定位具有了前后、左右两个维度，我们可以称其为2D音频。当一个音频同时还具有上下维度的时候，这个音频我们就可以认为它是3D的。要实现3D音频，可以通过两种方式：Multi-Channel；或者是Binaural Audio（双耳音频）。

Multi-Channel 3D主要应用在影院中，比如Dolby Atoms和Auro 3D都是通过在多通道环绕声的基础上增加置顶扬声器来实现3D效果的。而Binaural Audio则是利用上文中提到的HRTF技术，模拟左右耳间时间差、声级差和人体滤波效应，再通过耳机进行重放来实现3D效果。很显然，在以HMD（头戴显视设备）为载体的VR领域中，Binaural Audio这种方式更加便捷高效，也是目前VR音频所采用的3D方式。

Neumann KU100 Dummy Head Microphone

事实上Binrual Audio并不是什么新兴的音频技术。这种双耳音频早在1930年就出现了，比如使用仿真头话筒（Dummy Head）去录音，就可以使录制的声音拥有3D得空间信息。但是这种音频方式并没有得到广泛普及，其中很重要的一个原因就是传统的Binaural Audio虽然可以获得HRTF信息，但是这种HRTF信息是固定的，也就是说只能在一个固定的听觉角度上得到3D的空间定位。当你转动头部，声音与你的相对方向不会改变，声音位置会跟随你头部的转动而转动，从而产生极大的违和感。并且在这种情况下，我们无法用晃动头部的方法去辅助定位声源，让一些位置的声像定位难以分辨，最明显的是来自正前方和正后方声音。而这种情况在Spatial Audio中将会得到很大的改善。

Spatial Audio（VR音频）的第二个要素：对头部运动的实时反馈

在现实的三维空间中，当我们的头部发生转动或位移，声源本身的绝对位置不会改变，而声源与头部相对方向会产生变化。举一个例子：在你前方有一把吉他正在演奏，如果你转向右边，吉他的声音就会相对的变到你的左边。另一个例子是比如舞台左侧有一把吉他，右侧有一支萨克斯，当你移动到舞台的侧面，吉他与萨克斯的声音会重合到一起，来自同一个方向。

目前的VR设备可以通过激光定位、陀螺仪这些感应器进行头部追踪（Head Tracking），来达到虚拟现实的效果。当然我们也可以将这些头部追踪的数据应用到我们的VR音频当中去。结合头部追踪数据和HRTF算法，就可以实现音频对头部动作的实时反馈。也就是说当我们在转头或者移动头部的时候，我们听到的音频会根据我们头部的方位相对变化，做出符合现实的情况反馈。这不但消除了传统Binaural Audio的违和感，还为头部晃动的辅助定位带来可能。

当一个以Binaural Audio为基础的3D音频，同时能够对人的头部运动给予实时反馈，我们就可以称之为Spatial Audio。

当然传统的Binaural Audio还存在着以下几个方面的问题：1、录音方式十分有限。录制只能使用仿真头话筒，或者在人的外耳道口放置微型全指向话筒去录音，并且不能和其他普通话筒混合使用；2、后期制作手段也受到极大限制。通常使用的诸多效果器（如EQ）会对录音中的原始HRTF信息造成破坏，影响3D空间定位，所以无法使用；

现在VR产业崛起，技术手段的不断进步，使传统的Binrual Audio中存在的种种弊端在Spatial Audio中得到解决。第一，针对点声源的3D Paner插件出现，使VR音频的录音、制作手段与现行的工作流程接轨。我们可以通过普通的方式录制一个单声道音频文件，并在后期制作时加入HRTF信息，使其获得3D的空间定位。并且还可以在引入HRTF信息之前，对单声道音频文件进行EQ、Dynamic等处理。第二，我们可以通过建立一个简单的房间模型，通过Ray-Tracking（声线跟踪）技术，在声音的空间信息中加入HRTF特性，从而达到声音的3D空间感。第三，在Ambisonic B Format格式的基础上引入了HRTF信息，形成3D声场的建立技术。最后，VR视觉技术也为VR音频中的声像定位带来了视觉参考。

在VR音频的下一篇当中，让我们来谈一谈如何运用上述这些方法去实现Spatial Audio这种全新的音频模式。

VR音频作为一个全新的声音领域，笔者也还在不断学习探索的过程当中，文中如有谬误还望不吝指教。另外如果各位对VR音频感兴趣，也欢迎交流讨论。

Email：Jinwei.Hsu@foxmail.com

VR 音频探秘之二：Spatial Audio（VR音频）的基本原理

共有 0 条评论