为何选择 44.1kHz 或 48kHz?关于音频采样率的历史回顾

TinG 发布于2022-06-19 暂无评论


在我们最近讨论了不同的采样率的使用情形之后,我感到非常震惊,因为我们今天所使用的采样率,不仅有着非常深刻的历史沿革,而且人们早期所使用的数字设备,并不会像想象中那般落后于当时主流的模拟设备的参数。在本文中,Mike Thornton将会基于他在英国专业音频领域45年的工作经验,来给出自己关于采样率的看法。

他在音频领域深耕已久,现已足够到达退休的年龄。他一开始是在纯模拟的时代工作并生活的,后来经历了模拟和数字并存的过渡时期,再后来就到了纯数字工作流的音频时代。


考虑信号的传递路径

无论在什么年代,有两点都非常重要。第一,是我们在完成特定任务时,对所用技术中参数传递的考量;第二,是依据内容的消费端,来指导我们选择不同的设备或技术。而针对这些选择,我们必然要满足其参数要求,有时候甚至应该超出所要求的技术参数与平台范围。


回到落后的模拟旧时代

 

为了更好地传达我的观点,我要先回溯到80年代,当时还是纯模拟的世界。为了让大家了解背景,那时我在英国的一个独立商业电台工作,该工作有一套必须遵守的技术行为准则。一旦违反该准则,独立广播局就有权让我们停播。这些在我们行业的红皮“圣经”平装书里都有提到,它就是英国独立广播局的《Technical Review 13 - Satndards for Television and Local Radio Stations》(技术评审13 - 电视与本地电台标准)。

虽说有点怪,但我还是设法在NTLPA上面找到了影印本,如果你想自己拜读一下的话,就可以点进去看看。

https://u.pcloud.link/publink/show?code=kZF58QkZu1NO9K0JYw0bfmabV2pRQVXAFGb7#folder=4636614185&tpl=publicfoldergrid

下面,我们就开始了解下使用磁带录音所要达到的技术要求。如果你比较年轻,并未体验过纯模拟时代的工作,那么当时的技术参数就很可能让你感到震惊。

  • 频率响应:40Hz到15Hz,+2.0dB到-2.5dB
  • Wow & Flutter:不超过0.12。此参数不影响数字领域,但可用于测量(磁带播放的)速度变化,该现象在音频录制和播放的过程中是需要被避免的。Wow是指比较慢的速度变化,而Flutter是比较快的速度变化。若要避免这种变化,就要保证设备具有良好的机械维护。
  • 失真:2 @ +8dBu @ 1kHz。由于是磁带介质,失真会随着电平的增大而逐步增大,而模拟电路则更加优秀,通常要求为0.1 @ +18dBu。
  • 信噪比:45dB非加权峰值电平。注意当时动态余量的要求是+8dBu,所以噪声门必须超过-37dBu!

 

请记住,以上是模拟世界中我们每天都在接触的实际数据。我们可以追求更高的参数吗?当然可以,但这会导致更频繁的排布和保养工作,而这对那些本可以轻松拥有20~30个1/4’’开盘机的本地电台而言,是不切实际的。最近在皮卡迪利广播电台,我们选择了Studer B67s,这台设备无论在电气方面还是机械方面,可排布性都要更广。但是,预算最多不会超过类似于 A80s 这样的设备。

 

对于音乐方面,我们过去使用的是黑胶播放,而黑胶重放要满足的参数是:

  • 频率响应:40Hz到15kHz,+/-2.5dB
  • Wow & Flutter:不超过0.12
  • 信噪比:55dB非加权峰值电平

然后是电声工作室中信号路径的参数。其参数应通过从话放输入到工作室输出,再回到发射机的信号链进行测量。

  • 频率响应:40Hz到15kHz,+/-1.0dB
  • 带有提供70dB增益的话放时的信噪比:46dB非加权峰值电平,等效输入噪声为-116dB。该标准通常很好达到,因为我们所使用的Neve话放品质要远远高于它,但高预算的设备并不代表音质就会如想象的那般好,尤其是在使用高增益的时候,因此这就是我所说的“实际参数”。

出于参考目的,线路信号输入的信噪比必须超过63dB。

我们还必须进行全信号流程循环测试。虽然皮卡迪利电台是24小时制的,但我们需要在夜间进行该测试。信号会从工作室的工作台发出,然后到发射机,我们使用的是Radio Link(电台绑定),但大多时候应该是专为“音乐”所优化的铜质电话线路,信号通过发射机然后再通过无线检查接收器回到工作台。

当时的具体参数我不记得了,但我还记得那时FM电台,能有幸享受到45dB的信噪比。

说到这大家应该就明白了。在纯模拟信号通路的时代,我们会受到极大的限制,既有从系统传递到消费端的,也有信号流程中各种关键因素的影响,尤其是模拟磁带录音机。即使是排布良好的1/4’’开盘机,我们所拥有的平均信噪比和失真值,也只有在45dB附近的一个很窄的区间。事实就是这样。

当然,我知道在不借助噪声衰减的情况下,有些工作中此范围也可以提升到大约50~55dB。如果我没记错的话,Dolby A可以提供额外的10dB动态空间,但我希望可以借此让你们明白,即使是早期的数字音频平台,也会比我们的模拟平台好得多。


数字后浪

 

随着数字音频录音机和信号链的到来,我们有效避免了Wow&Flutter的情况,动态余量和失真成为了二进制计算,这时若电平没有超出其动态余量,那么效果会非常好,若超过了,效果则会非常差,哪怕是0.1dB这么小的变化,也会导致出现极大的不同。在16Bit的数字音频当中,信噪比会从45dB变成96dB。频率响应会在20Hz~20kHz的范围内变得极其平坦。此时低频不会出现不稳定的情况,高频也不会因磁带头的缓慢音量抖动而产生损失。当然,对于数字音频,在采样率一半的抗混叠频率(奈奎斯特频率),声音会有些不稳定,但对比数字时代来临前的模拟时代,16Bit/44.1kHz的音频已足以令人感到惊艳。在信号传递至消费端的整个过程中,无论是动态范围的显著增加,还是Wow&Flutter现象的消失,抑或是噪声的极大降低,都十分深刻地改变了广播行业。

但广播可不仅仅是唯一受益的行业。随着CD的诞生,音乐的传播搭上了数字CD的快车。这时高质量的音频不仅可以无阻碍地传递给最终用户,对于最终用户而言,CD使用起来也非常方便;即使是在数字音频的早期,抗混叠滤波器并不完善的情况下,其优势也是远远大于劣势的。但不管你喜欢与否,CD作为一种传播格式,已经将“44.1kHz和16Bit就等同于高音质、等同于优秀的传播格式”这一概念深深烙入了音乐消费者的脑中。


为何选择44.1kHz和48kHz采样率? 

回到采样率的选择,你或许会好奇我们为什么要选择44.1kHz的频率而非整数?这时就可以看下我们的文章“为何采样率是基于44.1kHz或48kHz的?”。然后你就会明白当时有历史因素的影响,由于数字音频早期硬件的特性,和某些数学计算的结果,导致我们最终选择了44.1kHz和48kHz的采样率。

在英国,由于非常多的音频内容都是通过CD介质承载的,所以电台会选择44.1kHz作为采样率,这是非常有意义的。当时,我在BBC的国家电台做内容的编辑和混音工作。DAT是当时采用的第一种数字格式,主流的参数也是44.1kHz/16Bit,但我们总是会同时提供磁带的主要版本和备用版本,因为DAT并不完全可靠;所以在播放节目的过程中,我们会同时播放主版本和备用版本的磁带,以防主版本出现意外。

当CDR技术成熟之后,我们改用CD来播放预先录制好的节目。在过渡到可以将CD翻录并上传到播放系统之前,这种格式使用了有一段时间。最后,文件上传系统绕过了所有媒体上播出节目的需求,但使用的参数依然是44.1kHz/16Bit。但请记住,这依旧要比模拟的FM传输系统好得多,我们现在依然保有该系统,与DAB并行使用。DAB在提供数字端到端的信号传输路径的同时,使用了大量的数据压缩来进行工作,其信号覆盖范围非常之小,甚至连在同一幢建筑中监听稳定的DAB信号都无法实现!

除开直播情景,CD还是一种将高质量音频以高性价比的方式传递给终端用户的极为便捷的系统。但就像DAB之于直播,Apple iPod这样的个人数字音频播放器会有带来额外的便捷性,这意味着想要实现此种目的,尤其是早期,就需要通过数据压缩的方式来让设备保有所有的媒体内容。

尽管从数学计算的角度而言,使用44.1k也是可以的,但在涉及到带有图片的媒体时,音频的参数还是会选择48kHz/16Bit。有人建议将采样率从44.1kHz提升至48kHz,以降低早期抗混叠滤波器的副作用,从而带来必要的品质增长,同时也能让电视的大体积输出与CD格式区分开来。


各种采样率从哪来? 

我们最近有篇文章,叫做“为何音频工程师避免使用高采样率?”,Jay Tei在其评论中说到:

“我们当中的有些人还记得那些采样率转换质量比如今糟糕很多的时代。我们更趋向于以最终交付成品时的采样率来进行录制工作。”

Alan Hardiman引用了Bob Katz在《母带处理》(第三版,第23章)中的内容,意为不同采样率下音频内容被重现的质量,是与数模转换器中的低通滤波器斜率有关的。

“处于人耳听觉上限处的、较为陡峭的低通滤波器,会与耳蜗滤波产生交互,出现使人耳感知为瞬态响应损失的预回声现象,导致声音的锐利度或清晰度有所下降。”

 

以上只是两个例子,但毫无疑问,在数字音频的早期,采样率转换和抗混叠滤波器并不像今天这般优秀。所以为了获得质量提升,比起在各种采样率之间进行转换,使用成倍数关系的采样率才是更有意义的。据我们了解,正是这些限制,才使之产生了44.1/88.2/176.41kHz和48/96/192kHz这些采样率。


根据原始素材还是已有内容制作?

另一种决定制作过程中所使用何种技术的因素在于,你所工作的内容是否本身就是44.1kHz或48kHz的。直到最近,在音频后期制作领域中,尤其是电视,大多数的内容都是48kHz的。在这一点上,是否值得使用更高的采样率和位深是值得商榷的。然而,对于专辑的录音和混音工作,如果大部分素材都来源于高质量的录音棚,那么使用更高的采样率和位深还是有很多好处的。

如今,随着储存成本的降低,以及抗混叠滤波器和采样率转换质量的极大提升,96kHz/24Bit的格式已经成为了相当主流的格式,所以它是有意义的,它并不需要考虑最终成品交付的采样率如何,但这一点在过去是需要被注意的。


为何大家不使用更高的采样率? 

我们2019年调查了将近2000名录音和混音方面的专业人士与爱好者,只有1/5的人说自己会使用44.1kHz/48kHz以上的采样率进行录音和混音工作。调查人群分为两组,即专业组和业余爱好组,但无论在哪一组中,他们都主要使用44.1kHz或48kHz的采样率来进行录音。

在调查的评论中,mattjhuber说:

“(高采样率所带来的)保真度的提升太小了,并不值得消耗更多的计算机性能和储存空间。”

而Joel. d则给出了有趣的观点:

“我已经厌倦了此类讨论,所以我这次尽量不那么尖锐。问题在于,大多‘专业人士’现在已经不够专业了。恕我直言,当今行业中的大部分人都是白痴,他们既不管价格也不管结果,永远无法看到或理解用最好的方式去做事的这种态度。”

但毫无疑问,这样确实是有好处的,而且比起以前要好实现得多,随着计算机的逐代更替,已经足以满足激增的处理需求,并承载更高采样率的内容,而且现在的储存设备在空间越来越大的情况下价格依旧亮眼。正如“Joel.d”在我们调查的评论中继续说到的那样:

“插件在96kHz时听起来会好很多,尤其是混响的尾音,那差别简直是一个天上一个地下。什么?你还没体验过?那就快去试试吧!”

在此文评论中,“为何音频工程师避免使用高采样率?”的作者Michael Carnes解释地非常好:

“真相是,任何乐器在所有频率区域都会有明显且急剧的变化。在许多情况中(如钢琴、打击乐),这种变化是非常快、非常强的,在20kHz以下可以被人清晰地识别到。44.1kHz的滤波器只会较为平滑地表达出这些变化,但高频处的采样点数量并不足以忠实地捕捉到声音的这些变化特点。有些结果的相位会发生轻微偏移,而有些结果会导致乐器的表现与原先不符。如果将上述结果通过混响或IIR滤波器(无限脉冲响应),则此种不准确性会被成倍放大。高采样率会使进入麦克风的声音有更好的表达(有很多声音是超过20kHz的),并且会减少声音多次进出滤波器时累计出现的问题。”

现在的争论焦点在于,既然所有的成品都要以44.1kHz进行出版,那我们为什么还要浪费(如今非常便宜的)储存空间呢?答案是这样的,使用较高的采样率时,哪怕你后面要再降低采样率,也不会导致滤波器和混响中出现累计加剧的问题。你只会让那些频率内容变得更加平滑罢了。

我用44.1kHz的采样率工作了好多年,可能这里很多人的说法我都有经历过。但我意识到自己只是在重复别人的观点罢了,并没有自己亲自验证过真伪。所以我后来决定用96kHz的采样率录制了一场室内音乐会。那时我已经50岁了,身体弱得一根羽毛都能把我碰倒。现在我70岁了,192kHz已经成为了我在任何现场录音中的标准。这在以前是绝对难以想象的。


总结

希望大家可以通过本文,清楚地了解到采样率的来龙去脉。我们所经历的早期数字音频,当时还并不完美,但即使是在抗混叠滤波器和采样率转换尚未成熟的情况下,数字音频也依然要比模拟音频在许多方面优秀得多。

好消息是,数字音频早期的那些问题,在今天即使没有全部解决,也已经解决了一大半。你可以选择使用更高的采样率和位深,而不用担心电脑的性能跟不上,也不用担心硬盘空间不够,更不用担心抗混叠滤波器和采样率转换器的质量问题。

也就是说,归根结底你可以有自己的选择。总之,希望大家能在拥有自己选择的同时,更加了解播放过程中的影响因素,以及知道前人做出种种选择的原因。



本文出自《midifan月刊》2022年06月第195期

 

可下载 Midifan for iOS 应用在手机或平板上阅读(直接在App Store里搜索Midifan即可找到,或扫描下面的二维码直接下载),在 iPad 或 iPhone 上下载并阅读。

 


文章出处 https://magazine.midifan.com/detail.php?month=2022-06#48

转载新闻请注明出自 Midifan.com

共有 0 条评论