MP3、CD、24 / 192、DSD 为何声音大不同
不知大家是否和我一样,在一段日子里,把零花钱都用作买CD了?
我最后一次买CD,就是在上面鼓楼西这家唱片店,买了三张,那是2017年的4月,三个月后就拆了。
说实话,我也好久没买CD了!
这期亮测评不聊情怀,只做横评,一首莫扎特D大调小提琴协奏曲的DSD文件,下转成WAV(24bit/192kHz)、WAV(24bit/96kHz)、标准CD制式WAV(16bit/44.1kHz)及Mp3(192kbps)
此视频看为主、听为辅,网络视频音质无法代表源音音质。
我们先从最常用的说起吧
MP3
Mp3大多是从CD制式的WAV压缩来的,CD为16bit/44.1kHz,比特率为1411.2kbps,那么192kbps的Mp3就相当于CD的1/7,128kbps的Mp3相当于CD的1/11。
Mp3是如何压缩的呢,首先让我们看下图
这是人耳的等响曲线图,体现了人耳对频率的敏感程度,我们一般听音乐,在80dBSPL-100dBSPL之间,所以我们只看最下面这两条线。
人耳对低频和高频敏感程度下降,尤其是16kHz以上的高频,所以这部分就是Mp3首先要抽取的部分,高比特率的Mp3先拿掉了这个区域(如256kbps Mp3)
左为16bit/44.1kHzWAV,右为192kbps Mp3
科学家认为这个Mp3文件还是太大,无法跟上拨号上网的大环境。为了加大抽取力度,他们开始研究音乐。
来看频率与音高对照表
由于音乐上运用了十二平均律,就可以计算出音乐中每一个音的频率,中央A为440Hz,那么向上的降B就等于440×12√2=466.164,
表中最低的A(27.5Hz)和降B(29.1Hz)之间只有1.6Hz的空间,而表中最高的B(3951Hz)和C(4186Hz)之间有235Hz的空间。显然高频留给科学家的可操作性更多,于是就有了我们最常听到的128k、192kMP3。
他们认为抽取掉其中的部分内容不会影响听觉,就这样比特率越低就有越多的中高频声音被抽取,且随着比特率越低抽取越向频率下方延伸,直至中频。美其名曰:心理声学模型。
下图中的波形显然已经失真,动态也严重不足。
这大大影响了音乐的完整性,拿人声来说,音高、谐频只是一方面,喉音、胸腔共鸣、鼻音、齿音、呼吸声都是音乐表达的一部分,且含有大量的感情成份,这些都会因Mp3的压缩而变的不成样子。
这里补充一个题外话
AutoTune
工作原因,我经常给一些主持人录音(你懂的),我在混音时经常发现,原本工程里(24bit/48kHz或96kHz)修的音高已经很准了,但一压成Mp3还是显得不准,不得不再修狠一点。这与Mp3的抽取方式是否有关联呢?
Mp3 的发明者和专利持有方“德国夫琅和费集成电路研究所”( Fraunhofer IIS”)声明,Mp3 的全部专利已于 2017 年 4 月 16日全数过期,他们终止了对 Mp3相关软件的专利授权,并直接建议大众使用效率更高、音质更好的格式。
当然压缩格式还有AAC等等,大同小异吧。
这些压缩格式让我们听到音乐的信息量大大降低,细节不复存在,而细节即情感的真实和连续表达,音乐在很大程度上失去了感动人的能力。
CD
让我们先从一道数学题说起。
25(视频帧数)×2(视频场数)×294(视频行数)×3 =44100。
没错,这就是44.1kHz的由来。为了声画对位,必须把声音记录在录像带上,要在每个视频场上记录3个音频采样点。
若设计为2个采样点采样频率为29400,这样的话根据乃奎斯特取样定理,频率只能满足到14.7kHz,显然不能满足人耳要求,而乘以4被认为记录在磁带上有些浪费,乘以3,则刚好满足人耳对20kHz的要求。
这没有问题,毕竟视频磁带用于新闻、纪录、足球转播,即使是综艺晚会也是完全可以的,但是拿它做音乐的载体,与模拟时代的音频指标相比,这个标准就有点低了。
下面是我用声卡32bit/192kHz转录的黑胶唱片,30kHz-50kHz清晰可见,谐波甚至可以达到70kHz。
要知道自然界的声音随随便便就可达到50kHz,20kHz以上对于模拟设备来讲是一个缓慢的下降过程,而对于CD则是硬生生的阉割,即截止频率,22kHz以上,一丁点都不剩。
再说说bit,早期的8bit声音,80后再熟悉不过了,8bit的采样只有256阶,小霸王音质,信噪比48dB,这可是远远不够的,要知道80年代卡带的信噪比大概60dB。
量化精度决定了信噪比,于是飞利浦提出了14bit可以让CD的信噪比达到前所未有的84dB(1bit≈6dB),而索尼则高瞻远瞩的坚持16bit即信噪比96dB,65536阶,最后索尼的标准获得了通过,保住了多出来的这珍贵的12dB动态范围。
16bit到24bit
那么24bit是否有意义呢,当然有,信噪比提升至144dB。我用同一文件24bit/48kHz对比16bit/48kHz。 变化在声底,乐段连接处,空气感、混响残响这些地方,这是实实在在的动态提升,用耳机更容易听出来。可理解为在0到-96dB间两者表现接近,差别存在于-96到-144dB的这些微小信号上。说实话,我并不确定我听到了-96dB以下的声音,但一定是向下的这些微小信号对声音整体起了作用。听交响乐这种动态较大的音乐的时,24bit优势更明显。
延伸一下,32bit理论上拥有信噪比192dB是否会更好呢,对于浮点运算的混音工程它肯定是有意义的,比如一个动态很大的信号经过压缩器,原来-145dB的信号压缩到了-100dB,音色当然会更饱满,而到了用户这里我个人觉得并没有什么卵用。要知道144dB已经是一个很大的数字了。
比较下,24bit声底的内容确实更丰富,因为这里有16bit所不存在的声音内容,是可辨识的。
位数越高,拾取信号能力越强,抗干扰能力反而越差,设备的制作成本更高。
因此对于用户而言16bit是基础,24bit需要有好的设备支撑,32bit则只适用于制作流程。设备上DAC一定要有24bit的解码能力,喇叭和耳机要有比较好的动态表现力,而且声音要放的大一些。
24bit的阶数巨大,已超千万,但所谓的精度提高对声音音质起到的作用却有限,24bit的意义更多在于信噪比,在于动态范围。
44.1kHz-192kHz
再来看另一个指标——采样频率,从视频中频谱可以看出,16bit/44.1kHz的频谱真的是很惨了,高品质音乐录制24bit/96kHz真的应该是低标准。96kHz和192kHz采样率很大程度上缓和了截止频率产生的听感问题,声音趋向自然。
192kHz采样率高频确实更加丰富,在60kHz以上有超高频量化噪声出现,我认为这可视为声音录制可参考的频率上限,96kHz采样率的频率上限未达到这个频率,192kHz则突破了这个界限。可以看到声音在40kHz后信号逐渐变弱,而60kHz则是声音信号和超高频噪声的分水岭。
这种超高频量化噪声,无论是PCM还是DSD都有,解码器生产者会设计一个低通滤波器,具体是50kHz、60kHz,更高还是更低,要看厂家对指标、音质的考量。
不往高了说,把20kHz-40kHz放在整个频率响应上,其实就是一个倍频程,一个八度而已,20Hz-20kHz为10个倍频程,20Hz-40kHz就为11个倍频程,一个八度就能让声音有一个良好的高频延展,此段声音非常丰富,含有大量的泛音信息及空间信息。
人耳不是用来听音乐的,而是用来感受自然的,不敏感不代表没有,人耳并不是听不到20kHz以上的声音,17kHz以上的声音已经没有了尖得刺耳的感觉,无音高概念,更多的是空间信息,难以记忆,也难以形容。
可以明显感受到,44.1kHz到96kHz、再到192kHz,是能量在增多,是高频越来越顺滑,是瞬态爆发力越来越充沛,是空间感更真实。
20kHz以上的声音被认为人耳难以辨别,但科学证明,人体对超高频有感知。
96kHz采样频率是保留这些信息的基本保障,放大波形可以看出96kHz锯齿仍然明显,而192kHz更线性。
同一段落,192kHz、96kHz、44.1kHz的波形比较
我们主观去比较两个不同指标的同一片段,一定是先评价频率,再评价动态,因为频率在高处,而动态变化存在于底层,听起来采样频率的提升显得比bit数的增加要明显一点。但随着采样频率的逐步提高,我们实际感受上的音质变化却越来越小。
回放设备方面,DAC是保障,喇叭和扬声器是24bit/192kHz能否完整还原的分水岭,索尼刚刚推出了可以回放100kHz的耳机,喇叭可以还原到50kHz以上的也不少了。
从16bit/44.1kHz到24bit/192kHz,从频率到动态再到细节表现,音质确实在提升;从图形上来看,采样频率越高越接近平滑,但却始终不是模拟的味道,在采样规格上做文章对音质的改善是有益的,但也是有限的,问题出在哪呢?
高品质声音录制24bit/96kHz是个基本标准,那192kHz就是个高标准么?
说到底还是PCM。采样频率决定了声音的频率上限,16bit相当于定好了65536个小格子,每个采样点为了为在格子里找到相应的位置而四舍五入,造成量化失真,这让量化噪声平均分布在全部频段上,这不是几个采样的问题,而是全局,说到底是个保真度的问题。
DSD(1bit 2.8224MHz)
著名的调音台之父Neve大师1995年在中国接受采访时曾说:以我之见,未来的数字标准应是1bit、上兆赫兹或更高的采样频率,这样才可能同现在的模拟技术相比。
此文章亮测评曾转载,地址如下:Neve大师1995年在北京-永恒的主题A POINTOF REFERENCE(参考点)
如Neve大师所说,1996年索尼和飞利浦共同提出把1bit的DSD作为SACD的编码模式。
PCM为脉冲编码调制,DSD则为脉冲密度调制。DSD64的采样率为2.8224MHz,这并不是为了得到超高频率的声音,而是为了更真实的记录波形。由于只采用1bit即0和1,省去了位转化程序,大大降低了量化失真和噪声。
DSD的采样频率最低为CD的64倍,所以密度极大。而动态的描述方式不像PCM直接在格子里定位,而是定一个极小的固定值(得儿塔)Δ-∑,当下一个采样和上一个采样相减大于Δ,则为1,若小于Δ或为负数则为0(具体规则要复杂的多,我只是简述)。
PCM每个采样都是独立存在的,而DSD每个采样都是和上一个采样相减得出,因此采样点之间密不可分,无法断开和离散使用,这使DSD的声音听起来更有模拟的味道。
PCM为非线性,DSD为线性;
PCM 为绝对值,DSD为相对值;
PCM像爬楼梯,DSD更像卷链条。
DSD的指标上,频率响应自不必说,轻松超越100kHz。信噪比也很大,但并没有类似96dB、144dB这样的数据,动态范围直接取决于真实电平值,回到我说过的那个问题,从最前端的麦克风到最后端的喇叭,并没有哪个模拟音频设备的动态范围真正达到130dB, 因为那不现实。
DSD64,64倍于CD采样率但只记录1bit,数据量大概是CD的4倍,DSD64与24bit/96kH数据量接近,并不夸张。
DSD64为DSD的最低标准格式,向上还有DSD128,DSD256,DSD512,数字顾名思义,就是CD采样频率的倍数。
当然DSD也有硬伤,那就是无法直接编辑,画音量线、剪切一概别想,VST、Autotune更是没门。
办法也有,就是把DSD录制好的音轨,每一轨发送到模拟调音台上,完全在模拟调音台上做音量调整、EQ、压缩,并轨、缩混,母带输出信号再录制成DSD,流程和三十年前的模拟录音极为类似,国家大剧院就有一套这样的系统。
瑞士的Merging公司还有一套折中的方案。那就是依托24bit/352.8kHz,用超高采样率以PCM的方式打开并编辑DSD文件,称之为DXD,编辑后可再生成为DSD文件。实际上DXD也是现行可编辑的最高质量PCM格式了,有很多高品质唱片直接采用DXD的方式录制及发行。
这是Sony 2018年推出的Hi-res精选音乐APP,可提供DXD音源的付费下载。
为了还原声音的本来面貌,不知多少人花费了多少精力。本期先到这里,本文涉及内容如果有错误一定帮我指出,大家一起学习,别让我将错就错,下一期亮测评,我将和大家交流DSD的声音特点、优缺点及应用心得,敬请关注!
此文敬请分享!
转载新闻请注明出自 Midifan.com
-
2024-04-14 00:11
匿名
好文章,谢谢科普
-
2022-07-19 09:48
匿名
回复 匿名:建议把您的想法说出来,大家一起讨论交流,互相学习。一句单纯的“完全就是胡扯”没有丝毫意义。
-
2020-12-19 16:40
匿名
受教了
-
2019-03-31 11:20
匿名
很好的科普文章
-
2019-03-22 01:38
匿名
不错 很好
-
2018-09-06 23:14
匿名
这个说起来吧,大众听歌的不会太在意,只能说理论上是这样,追求极端的人是这样,对于当下听音乐,我觉得能达到320KB的mp3就相当不错了!
-
2018-08-27 19:26
motif
回复 匿名:当然不一样,我给大家展示的纯数字阶段的波形细节,经过DA自然会成为平滑曲线,否则也没法停啊,两张不同像素的照片放大一定倍数,马赛克的大小一定是不一样的,但依然不缺鼻子不缺眼不是。
-
2018-08-27 14:36
匿名
你在录音软件里看到的波形,和实际播放的波形根本不一样。 你以为44khz的文件播放出来,就是锯齿形状的?大错特错,所有DAC所有算法,把采样点还原成平滑的曲线。
-
2018-08-27 14:34
匿名
完全就是胡扯
-
2018-08-25 05:33
匿名
这种文章很厚价值。
-
2018-08-24 22:50
匿名
好文 支持作者 加油