揭秘数字音频（上）

编译：Monnie From iKnowMusic
校对：K From iKnowMusic
终审：Sing T From iKnowMusic
原文：https://www.sonarworks.com/

引言Introduction

人类创造了一个由“比特”（Bit）构建的世界。比特，一种极小的单位，可以测量现实中的有形事物。在数字世界里，比特值构建了我们在物理世界中所能感知的声音和画面。在过去的几十年里，人类通过数字计算来精确还原现实的能力，正在以不可思议的速度发展着。音乐领域也是如此，人类可以用这个比特值描绘出整个“声景”（Sonic Picture）。我们能理解模拟音频系统为声音带来，我们最为迷恋的美妙染色、质感增补以及失真音色，但是我们同样也能使用数字音频系统，通过算法机制让数字音频系统达到与模拟音频系统相类似的声音效果。不过，我们要清楚地了解，如何将捕捉到的声音完美地植入数字比特值中，以便于为我们的“数字音频创建计划”提供最为纯粹的原料。幸运的是，对于数字捕捉处理的定义只有简单的几个原则而已，遵循它们即可让您的数字音频处理中得到优化。另外随文也附带阐述了关于您音频工程的文件管理以及备份存储的方法。

“一切皆可造，万物皆神创。” - 托马斯·布朗（Thomas Browne）
“All things are artificial,  for nature is the art of God.”

第一章、数字音频基础知识

“数字音频”（Digital Audio）是完美的，“模拟音频”（Analog Audio）也是完美的。这两句话陈述都正确，只是对于“完美”一词的范畴上各有所指罢了。作为艺术家，我们笃定地认为会选择后者，但作为技术人员，会选择前者。从技术的角度来说，我们首先需要实现对数字音频信号的精准捕捉，然后再将它们“完美地”呈现出来。数字音频可以由两个参数定义：“采样率”（Sample Rate）及“比特深度”（Bit Depth）。如果这两个参数设置正确，数字音频可以几乎毫无偏差地还原一切音频信号的“动态范围”（Dynamic Range）和“频率响应”（Frequency Response）。熟练掌握这两个参数的设定，剩下的可以轻松搞定。

理解何为采样率

我们对“采样率”（Sample rate）和“比特深度”（Bit Depth）这两个数字音频领域的专业术语都十分熟悉。尽管这两个参数设置很常规，但我还是经常收到来自制作人或混音工程师们，关于某项目最佳参数设置方法的询问。本文将深入浅出地介绍采样率的基础原理及最佳应用方法。不用担心，比特深度的部分马上就来！

采样率的概念

采样率指的是，当模拟音频的波形转换为数字信号时，每秒从连续信号中提取并组成离散信号的采样个数。由于采样率具有速度信息（或者说频率），它可以用于定义一段音频的“频率响应”（Frequency Response）。由“奈奎斯特定理”（Nyquists Theorem）可知，在从模拟信号到数字信号转换的过程中，数字音频文件可录入的声音的最高频率是其采样率的二分之一。也就是说，采样率为44.1kHz时，它可录到的最高模拟信号的频率是22.05kHz，同理可知，96kHz的采样率可录到带有48kHz音频“带宽”（Band Width）的信号。如果我们以较低的采样率录制高频信号（超过采样率一半的信号），或者说超越 “奈奎斯特定理”（Nyquists Theorem）的极限，就会产生人耳可听的频率“混叠”（Aliase）现象（一种低采样率失真）。为了避免该现象的产生，在模拟信号转换为数字信号的过程中，会使用一个“抗混叠滤波器”（Anti-Aliasing Filter）滤除模拟信号中频率在采样率的二分之一以上的部分。在实际操作中，该低通滤波器的一定的运行时间，所以我们以44.1kHz的采样率记录20kHz频率以内的声音。

想必我们都知道，人耳听觉频率范围在20Hz至20kHz之间，那我们为什么要使用超过44.1kHz的采样率呢？理由之一，许多人（包括一些科学家）声称，人类可以通过“骨传导”（Bone Conduction）感知高达50kHz的声音。这个观念或许在理论上是正确的，但人类通过空气传播能够感知到的声音频率仍然仅能达到20kHz。理由之二，从更实际的意义上来说，抗混叠低通滤波器并不是一个完美的工具，当它在滤波处的“斜率”（Steep）到达一定程度时，会令声音产生更明显的相位失真。因此，在使用滤波器时，要在斜率（过渡带的陡度）与相位失真度二者之间做些权衡。

关于采样率的建议

我们是否要因为人耳听觉上限是20kHz，就仅限于使用44.1kHz的采样率呢？正如上文所言，使用高于44.1kHz的采样率可以减少滤波器在模数转换中对信号造成的影响，带来更好的听感。换句话说，尽管44.1kHz的采样率记录了人耳可以听到的全频段音频带宽，但低通滤波器还是会对20kHz以下的频率造成损失。因此我们建议，在制作流行音乐和混音时，使用48kHz的采样率。首先，使用48kHz的采样率在进行抗混叠滤波处理时，比使用44.1kHz采样率有更好的听感。其次，48kHz采样率的文件只比44.1kHz的多占了一些磁盘空间。另外，我们的大部分音频会被嵌入YouTube网站上的视频或其他影片里发行，而视频文件通常需要使用48kHz采样率的音频。当然，如果您制作的音乐仅用于CD发行，那么使用44.1kHz的采样率就足够了。

更高的采样率

对于制作高音质要求的爵士乐、古典音乐、世界音乐或一些声音设计的项目来说，我会建议使用96kHz的采样率。该采样率几乎消除了所有可听到的高频混叠和滤波器引起的失真。此外，96kHz采样率的音频文件可以保障更低的处理延迟，在用于声音设计或游戏音频上保障更好的降调处理效果。不仅如此，当有需求时，96kHz采样率的音频文件可以将采样率降到48kHz并保持音质完好。如果您需要开展超过96kHz采样率的录音项目，则需要花上大量时间来测试您的录音系统，找到一套符合您需求的方案，包括使用的“数模转换器”（A/D Converter）和“数字音频工作站”（DAW，Digital Audio Workstation）。因为使用96kHz以上的采样率可能会产生频率抖动的问题，增加您的CPU负担，减少可使用的音频轨道数量，缩小插件的选择空间。一般来说，我不会建议您使用176kHz或192kHz的采样率，除非您真正研究过这些高采样率的利弊。作为参考，《格莱美“美国录音学院”对高解析音乐制作的建议》（Grammy’s Recording Academy Recommendations for Hi-Resolution Music Production）一文中曾提道：对于高解析音频的制作和传输需求来说，最好是用96kHz的采样率，最低采样率为48kHz。

采样率转换

我们常常需要对音频采样率进行转换，并且拥有许多优秀的采样率转换软件工具。近期，一个对母带混音师群体的调查显示，音频工作者常用的采样率转换工具有：“Voxengo”公司的“R8brain”，“Weiss”公司的“Saracon”，Pro Tools中的SRC（Sample Rate Convert，采样率转换，使用Tweak Head设定值），“Izotope”公司的“Resample”和“SoX”，还有些其它的工具也能产生很好的采样率转换效果，与此同时，宿主软件的开发者们也在不断优化采样率转换的算法。

由此可见，选择采样率并非难事。下面是一个对上述内容归纳整理后，有助您查询索引的备忘录。

采样率知识点备忘录

以下是针对不同情况使用采样率的建议：

录音

流行音乐建议使用48kHz的采样率（尽管44.1kHz也是可接受的）。在有高音质需求的音乐和声音设计项目中，建议最好使用96kHz采样率。

混音

混音工程应当与录音工程保持相同的采样率，将低采样率的音频文件放入高采样率的音频工程中并不会提升音质。如果您在模拟调音台上进行混音，就把采样率设置为前文所述的48kHz或96kHz吧。

母带

在制作母带的过程中，不要提高采样率。对数字版母带制作来说，使用与终混交付工程相同的采样率即可。对模拟版母带的话，先用数字文件的原始采样率播放该音频，再通过模拟信号处理器进行处理，最后以客户要求的采样率（通常是48kHz或44.1kHz）录入音频。另外，备份一版用96kHz采样率录入的音频文件。除非万不得已，尽量不要对最终版母带进行采样率转换。

发布

视频制作者通常需要48kHz采样率的音频文件，而像iTunes这样的数字音乐发行平台则需要44.1kHz以上的采样率的音频文件。除非万不得已，尽量不要对最终版母带进行采样率转换。

“自然界中的每个部分都息息相通，一片叶子、一滴水、一块水晶、一个瞬间，都与整体相连，并共享着整体的完美。”

- 拉尔夫·沃尔多·爱默生（Ralph Waldo Emerson）

理解何为比特深度

我们在前一篇文章中探讨了采样率与频率响应之间的关系，本文将介绍“比特深度”（Bit Depth），以及它与另一个重要的音质层面的参数 - “动态范围”（Dynamic Range）之间的关系。

动态范围是一个音频术语，音频信号最大值和最小值的比值。下面来具体介绍如何应用比特深度这个参数。

比特深度的概念

如前文所述，比特深度代表了音频信号的动态范围。一“比特”（Bit）可以代表大约6dB的动态范围，也就是说，16-bit可以提供96dB的动态范围，24-bit可以提供144dB的动态范围。比特数（或者说二进制位数）是应用于指数函数计算的，这意味着16-bit的文件可以测算出65,536个值（216，即2的16次方），24-bit的文件可以测算出大约1670万个值（224，即2的24次方）。

现实中，专业的模拟录音机和调音台设备由于构造原理，自带介于-120dB到-90dB之间的“本底噪声”（Noise Floor）。所以，对于模拟录音技术来说，我们并不能以24-bit录得完整干净的144dB动态范围模拟信号。但是，音频信号在使用24-bit进行数字运算后，可以产生额外的、更重要的动态范围。换句话说，虽然在进行传统模拟录音时，使用16-bit可以完整地记录模拟音频的动态范围，而一旦我们需要将其放入宿主软件中，就需要使用更高的比特深度值。

我收到过许多客户发来的文件，都是使用16-bit进行多轨录音和制作的。当我对这些16-bit的音频进行混音或制作母带时发现，重新创建一个24-bit或32-bit浮点的音频工程进行工作，会获得远比只使用16-bit的工程更好的听感。于是我给自己定下了一个规矩：一定要在24-bit或32-bit的音频工程中进行混音和母带制作。Pro Tools，Logic或其它宿主软件通常会默认以32-bit浮点甚至更高的精度来处理音频。因此，我的建议是，您可以使用24-bit的设置来创建工程，后续也不用担心比特深度转换的问题了。当然，24-bit的音频文件会比16-bit的占用更多磁盘空间，但这对于现代硬盘容量来说，已经不成问题了。

什么是抖动（Dither）？

在讨论比特深度的时候，我们有一个不能忽视的概念 – “抖动”（Dither）。把一段音频波形以数字信号的方式呈现出来，实质上就是将连续的（模拟）音频波形转换为大量离散独立的（数字）测量值。这些离散的测量值无法将连续的模拟音频波形完整地还原出来，并会因此令声音产生一种名为“量化误差”（Quantization Error）的失真效果。我们可以通过向数字信号中加入少量的随机噪声信号，来弱化这种失真效果，让它听上去不那么明显。这种信号被称为抖动噪声，通常比本底噪声高出3dB，例如，在处理16-bit的音频时大约是-93dB。一般来说，我们可以通过抖动处理得到一条几乎还原模拟信号的波形，但听起来还是有一点音量极低的噪声。这么看来，我们似乎无法在数字采样的方法下完美还原模拟信号？但依据奈奎斯特定理（曾在前文<理解何为采样率>中介绍过），经过数字采样的模拟信号可以通过采样率的设置被完美重建。

如果我们在宿主软件中以32-bit（甚至更高）的比特深度处理音频，却需要从中导出低于32-bit的分轨、混音、母带时，就需要在导出设置时加入抖动处理，消除量化误差。请牢记这个规则：在宿主软件中导出比原始比特深度更低的音频文件时，一定要加入抖动处理。如果您导出的是32-bit浮点音频文件的话，请不要加入抖动处理。如果您正在和别的制作人进行工作交接，请一定要仔细检查您的宿主软件有没有正确处理音频文件。

“请牢记这个规则：在宿主软件中导出比原始比特深度更低的音频文件时，一定要加入抖动处理”。

我们能听见抖动噪声吗？

母带工程师们一致认为，适当地应用抖动处理，可以提升音频在由高比特深度向低比特深度转换时的声音质量。因为抖动噪声是一种随机噪声，并且比峰值电平低93dB（以转化到16-bit为例），只有在极端声学环境下才能听见抖动噪声。不过，如果您真的听见了抖动噪声，也请不要担心，人类是十分擅长忽略这种随机噪声的。

如果我们在不加抖动处理的情况下降低音频比特深度，会产生一种影响听感的失真效果。这种失真效果不像随机噪声那样容易被人耳忽略，反而会给音质本身带来负面影响。
抖动处理有很多种，其中包括了不同的噪声塑形（EQ处理）。如果您愿意的话，可以尝试借此做一下听力测试，来听听看，不同类型的抖动处理是否会造成不同的听感。我有时可以根据经验判断出一个音频文件在导出时是否加入了抖动处理，但我从来无法分辨它的制作人是使用了什么品牌或者哪种抖动处理技术。最后，应用抖动处理就像按下按钮一样简单，所以，在需要使用它的时候，不要再犹豫了。

结论

选择比特深度值相对来说比较容易，关于应用抖动处理的规则也十分简单。下面是一个对上述内容归纳整理后，有助您查询的知识点备忘录。

比特深度知识点备忘录

以下是针对不同情况下，使用比特深度值的建议：

录音

对于近距离拾音并采用话放增益的录音需求来说，虽然使用16-bit的比特深度效果足以，但还是更推荐您使用24-bit。对于现场多轨录音或者超大动态范围的录音来说，请一定使用24-bit。

混音

需要把混音工程的比特深度设置为至少24-bit。大多数宿主软件的内部运算以32-bit浮点或更高的比特率来处理音频。

母带

由混音师将24-bit或32-bit浮点的混音工程交付于母带工程师，以供母带工程师在尽可能高的比特深度值下工作。

抖动处理

在宿主软件中，导出低于工程设置的比特深度音频文件时，请一定要加入抖动处理；导出32-bit浮点音频时，请不要加入抖动处理。

发布

PCM音频格式支持16-bit的文件，因此，在使用CD作为发布载体时，可以用该比特深度值。请和您的发行商或发布平台确认他们需要什么格式的文件。如果该音频文件需要被转化为有损格式，您最好保证原始文件是24-bit或32-bit的，才不会在压缩中损失太多音质。

储存

美国国家录音艺术与科学学院（NARAS，National Academy of Recording Arts and Sciences）建议您，尽量以原始采样率和尽可能高的比特深度值，存储PCM格式的音频文件，如44.1kHz的采样率和32-bit浮点的比特深度。

“数字音频倾向于技术，便于存储，处理高速；模拟音频倾向于艺术，听感饱满，富有温度。”

- 亚德里安·比劳（Adrian Belew）

“苹果数字母带技术标准”（Apple Digital Masters）

编者注：苹果公司于2019年8月对旗下音乐应用软件iTunes进行了品牌重塑，并更新了Mastered for iTunes中的内容规范，本文会对这些更新内容进行介绍。我们对于一切用户反馈都感到十分感激，并且，我们会不断致力于为用户提供有用的、准确的最新信息。苹果公司并没有停止开发iTunes，只是为其流媒体服务以及音乐、播客和有声读物的内容存储创建了一个名为Apple Music的平台。

母带制作是一个复杂的过程 - 它是艺术与科学的精妙结合，需要对应的工程师有一双敏锐且训练有素的耳朵，也需要他对数字音频技术与模拟音频技术有深刻的理解，或许更重要的是，他具有评判一段音乐的艺术创作意图是否被完美表达的能力。

母带工程师的工作是，为一段终混后的音乐塑造整体听觉形象，让它在所有的音响系统和媒体格式下都有最好的听感表现。这首曲子的母带版本将作为母版，基于它制作的各种后续版本或复刻版本，将被用于在线流媒体、CD、甚至是黑胶唱片中。

不论是针对模拟信号还是数字信号，每个发布平台都有关于文件类型、整体响度、元数据内容的独家规范和标准。其中最严格的一套标准，或者说“最佳实践标准”，来自于苹果公司的“苹果数字母带技术标准”（Apple Digital Master）。本文将介绍如何达到“苹果数字母带技术标准”认证的规范标准，并解释那些规范标准的意义是什么，以及如何确保自己向苹果提供的是最高品质的数字音频文件。可以放心的是，如果您的母带达到了“苹果数字母带技术标准”的话，您的作品在其它流媒体平台和在线发布平台的音质也会是一流的。

本文出自《midifan月刊》2020年02月第167期

可下载 Midifan for iOS 应用在手机或平板上阅读（直接在App Store里搜索Midifan即可找到，或扫描下面的二维码直接下载），在 iPad 或 iPhone 上下载并阅读。