MP3、CD、24 / 192、DSD 为何声音大不同 - Midifan：我们关注电脑音乐

不知大家是否和我一样，在一段日子里，把零花钱都用作买CD了？

我最后一次买CD，就是在上面鼓楼西这家唱片店，买了三张，那是2017年的4月，三个月后就拆了。

说实话，我也好久没买CD了！

这期亮测评不聊情怀，只做横评，一首莫扎特D大调小提琴协奏曲的DSD文件，下转成WAV(24bit/192kHz)、WAV（24bit/96kHz）、标准CD制式WAV（16bit/44.1kHz）及Mp3（192kbps）

此视频看为主、听为辅，网络视频音质无法代表源音音质。

我们先从最常用的说起吧

MP3

Mp3大多是从CD制式的WAV压缩来的，CD为16bit/44.1kHz，比特率为1411.2kbps，那么192kbps的Mp3就相当于CD的1/7，128kbps的Mp3相当于CD的1／11。
Mp3是如何压缩的呢，首先让我们看下图

这是人耳的等响曲线图，体现了人耳对频率的敏感程度，我们一般听音乐，在80dBSPL－100dBSPL之间，所以我们只看最下面这两条线。

人耳对低频和高频敏感程度下降，尤其是16kHz以上的高频，所以这部分就是Mp3首先要抽取的部分，高比特率的Mp3先拿掉了这个区域（如256kbps Mp3）

左为16bit/44.1kHzWAV，右为192kbps Mp3

科学家认为这个Mp3文件还是太大，无法跟上拨号上网的大环境。为了加大抽取力度，他们开始研究音乐。

来看频率与音高对照表

由于音乐上运用了十二平均律，就可以计算出音乐中每一个音的频率，中央A为440Hz，那么向上的降B就等于440×12√2=466.164，

表中最低的A（27.5Hz）和降B(29.1Hz)之间只有1.6Hz的空间，而表中最高的B(3951Hz)和C(4186Hz)之间有235Hz的空间。显然高频留给科学家的可操作性更多，于是就有了我们最常听到的128k、192kMP3。

他们认为抽取掉其中的部分内容不会影响听觉，就这样比特率越低就有越多的中高频声音被抽取，且随着比特率越低抽取越向频率下方延伸，直至中频。美其名曰：心理声学模型。

下图中的波形显然已经失真，动态也严重不足。

这大大影响了音乐的完整性，拿人声来说，音高、谐频只是一方面，喉音、胸腔共鸣、鼻音、齿音、呼吸声都是音乐表达的一部分，且含有大量的感情成份，这些都会因Mp3的压缩而变的不成样子。

这里补充一个题外话

AutoTune

工作原因，我经常给一些主持人录音（你懂的），我在混音时经常发现，原本工程里（24bit/48kHz或96kHz）修的音高已经很准了，但一压成Mp3还是显得不准，不得不再修狠一点。这与Mp3的抽取方式是否有关联呢？

Mp3 的发明者和专利持有方“德国夫琅和费集成电路研究所”（ Fraunhofer IIS”）声明，Mp3 的全部专利已于 2017 年 4 月 16日全数过期，他们终止了对 Mp3相关软件的专利授权，并直接建议大众使用效率更高、音质更好的格式。

当然压缩格式还有AAC等等，大同小异吧。

这些压缩格式让我们听到音乐的信息量大大降低，细节不复存在，而细节即情感的真实和连续表达，音乐在很大程度上失去了感动人的能力。

CD

让我们先从一道数学题说起。

25（视频帧数）×2（视频场数）×294（视频行数）×3 ＝44100。

没错，这就是44.1kHz的由来。为了声画对位，必须把声音记录在录像带上，要在每个视频场上记录3个音频采样点。

若设计为2个采样点采样频率为29400，这样的话根据乃奎斯特取样定理，频率只能满足到14.7kHz，显然不能满足人耳要求，而乘以4被认为记录在磁带上有些浪费，乘以3，则刚好满足人耳对20kHz的要求。

这没有问题，毕竟视频磁带用于新闻、纪录、足球转播，即使是综艺晚会也是完全可以的，但是拿它做音乐的载体，与模拟时代的音频指标相比，这个标准就有点低了。

下面是我用声卡32bit/192kHz转录的黑胶唱片，30kHz-50kHz清晰可见，谐波甚至可以达到70kHz。

要知道自然界的声音随随便便就可达到50kHz，20kHz以上对于模拟设备来讲是一个缓慢的下降过程，而对于CD则是硬生生的阉割，即截止频率，22kHz以上，一丁点都不剩。

再说说bit，早期的8bit声音，80后再熟悉不过了，8bit的采样只有256阶，小霸王音质，信噪比48dB，这可是远远不够的，要知道80年代卡带的信噪比大概60dB。

量化精度决定了信噪比，于是飞利浦提出了14bit可以让CD的信噪比达到前所未有的84dB(1bit≈6dB)，而索尼则高瞻远瞩的坚持16bit即信噪比96dB，65536阶，最后索尼的标准获得了通过，保住了多出来的这珍贵的12dB动态范围。

16bit到24bit

那么24bit是否有意义呢，当然有，信噪比提升至144dB。我用同一文件24bit/48kHz对比16bit/48kHz。变化在声底，乐段连接处，空气感、混响残响这些地方，这是实实在在的动态提升，用耳机更容易听出来。可理解为在0到-96dB间两者表现接近，差别存在于-96到-144dB的这些微小信号上。说实话，我并不确定我听到了-96dB以下的声音，但一定是向下的这些微小信号对声音整体起了作用。听交响乐这种动态较大的音乐的时，24bit优势更明显。

延伸一下，32bit理论上拥有信噪比192dB是否会更好呢，对于浮点运算的混音工程它肯定是有意义的，比如一个动态很大的信号经过压缩器，原来-145dB的信号压缩到了-100dB，音色当然会更饱满，而到了用户这里我个人觉得并没有什么卵用。要知道144dB已经是一个很大的数字了。

比较下，24bit声底的内容确实更丰富，因为这里有16bit所不存在的声音内容，是可辨识的。

位数越高，拾取信号能力越强，抗干扰能力反而越差，设备的制作成本更高。

因此对于用户而言16bit是基础，24bit需要有好的设备支撑，32bit则只适用于制作流程。设备上DAC一定要有24bit的解码能力，喇叭和耳机要有比较好的动态表现力，而且声音要放的大一些。

24bit的阶数巨大，已超千万，但所谓的精度提高对声音音质起到的作用却有限，24bit的意义更多在于信噪比，在于动态范围。

44.1kHz-192kHz

再来看另一个指标——采样频率，从视频中频谱可以看出，16bit／44.1kHz的频谱真的是很惨了，高品质音乐录制24bit/96kHz真的应该是低标准。96kHz和192kHz采样率很大程度上缓和了截止频率产生的听感问题，声音趋向自然。

192kHz采样率高频确实更加丰富，在60kHz以上有超高频量化噪声出现，我认为这可视为声音录制可参考的频率上限，96kHz采样率的频率上限未达到这个频率，192kHz则突破了这个界限。可以看到声音在40kHz后信号逐渐变弱，而60kHz则是声音信号和超高频噪声的分水岭。

这种超高频量化噪声，无论是PCM还是DSD都有，解码器生产者会设计一个低通滤波器，具体是50kHz、60kHz，更高还是更低，要看厂家对指标、音质的考量。

不往高了说，把20kHz-40kHz放在整个频率响应上，其实就是一个倍频程，一个八度而已，20Hz-20kHz为10个倍频程，20Hz-40kHz就为11个倍频程，一个八度就能让声音有一个良好的高频延展，此段声音非常丰富，含有大量的泛音信息及空间信息。

人耳不是用来听音乐的，而是用来感受自然的，不敏感不代表没有，人耳并不是听不到20kHz以上的声音，17kHz以上的声音已经没有了尖得刺耳的感觉，无音高概念，更多的是空间信息，难以记忆，也难以形容。

可以明显感受到，44.1kHz到96kHz、再到192kHz,是能量在增多，是高频越来越顺滑，是瞬态爆发力越来越充沛，是空间感更真实。

20kHz以上的声音被认为人耳难以辨别，但科学证明，人体对超高频有感知。

96kHz采样频率是保留这些信息的基本保障，放大波形可以看出96kHz锯齿仍然明显，而192kHz更线性。

同一段落，192kHz、96kHz、44.1kHz的波形比较

我们主观去比较两个不同指标的同一片段，一定是先评价频率，再评价动态，因为频率在高处，而动态变化存在于底层，听起来采样频率的提升显得比bit数的增加要明显一点。但随着采样频率的逐步提高，我们实际感受上的音质变化却越来越小。

回放设备方面，DAC是保障，喇叭和扬声器是24bit/192kHz能否完整还原的分水岭，索尼刚刚推出了可以回放100kHz的耳机，喇叭可以还原到50kHz以上的也不少了。

从16bit／44.1kHz到24bit/192kHz，从频率到动态再到细节表现，音质确实在提升；从图形上来看，采样频率越高越接近平滑，但却始终不是模拟的味道，在采样规格上做文章对音质的改善是有益的，但也是有限的，问题出在哪呢？

高品质声音录制24bit/96kHz是个基本标准，那192kHz就是个高标准么?

说到底还是PCM。采样频率决定了声音的频率上限，16bit相当于定好了65536个小格子，每个采样点为了为在格子里找到相应的位置而四舍五入，造成量化失真，这让量化噪声平均分布在全部频段上，这不是几个采样的问题，而是全局，说到底是个保真度的问题。

DSD（1bit 2.8224MHz）

著名的调音台之父Neve大师1995年在中国接受采访时曾说：以我之见，未来的数字标准应是1bit、上兆赫兹或更高的采样频率，这样才可能同现在的模拟技术相比。

此文章亮测评曾转载，地址如下：Neve大师1995年在北京－永恒的主题A POINTOF REFERENCE（参考点）

如Neve大师所说，1996年索尼和飞利浦共同提出把1bit的DSD作为SACD的编码模式。

PCM为脉冲编码调制，DSD则为脉冲密度调制。DSD64的采样率为2.8224MHz，这并不是为了得到超高频率的声音，而是为了更真实的记录波形。由于只采用1bit即0和1，省去了位转化程序，大大降低了量化失真和噪声。

DSD的采样频率最低为CD的64倍，所以密度极大。而动态的描述方式不像PCM直接在格子里定位，而是定一个极小的固定值（得儿塔）Δ-∑，当下一个采样和上一个采样相减大于Δ，则为1,若小于Δ或为负数则为0（具体规则要复杂的多，我只是简述）。

PCM每个采样都是独立存在的，而DSD每个采样都是和上一个采样相减得出，因此采样点之间密不可分，无法断开和离散使用，这使DSD的声音听起来更有模拟的味道。

PCM为非线性，DSD为线性；
PCM 为绝对值，DSD为相对值；
PCM像爬楼梯，DSD更像卷链条。

DSD的指标上，频率响应自不必说，轻松超越100kHz。信噪比也很大，但并没有类似96dB、144dB这样的数据，动态范围直接取决于真实电平值，回到我说过的那个问题，从最前端的麦克风到最后端的喇叭，并没有哪个模拟音频设备的动态范围真正达到130dB，因为那不现实。

DSD64，64倍于CD采样率但只记录1bit，数据量大概是CD的4倍，DSD64与24bit/96kH数据量接近，并不夸张。

DSD64为DSD的最低标准格式，向上还有DSD128，DSD256，DSD512，数字顾名思义，就是CD采样频率的倍数。

当然DSD也有硬伤，那就是无法直接编辑，画音量线、剪切一概别想，VST、Autotune更是没门。

办法也有，就是把DSD录制好的音轨，每一轨发送到模拟调音台上，完全在模拟调音台上做音量调整、EQ、压缩，并轨、缩混，母带输出信号再录制成DSD，流程和三十年前的模拟录音极为类似，国家大剧院就有一套这样的系统。

瑞士的Merging公司还有一套折中的方案。那就是依托24bit／352.8kHz，用超高采样率以PCM的方式打开并编辑DSD文件，称之为DXD，编辑后可再生成为DSD文件。实际上DXD也是现行可编辑的最高质量PCM格式了，有很多高品质唱片直接采用DXD的方式录制及发行。

这是Sony 2018年推出的Hi-res精选音乐APP，可提供DXD音源的付费下载。

为了还原声音的本来面貌，不知多少人花费了多少精力。本期先到这里，本文涉及内容如果有错误一定帮我指出，大家一起学习，别让我将错就错，下一期亮测评，我将和大家交流DSD的声音特点、优缺点及应用心得，敬请关注！

此文敬请分享！

共有 12 条评论

2025-05-26 16:40 匿名
此人很懒，懒到只做了个表情而没有说话。

支持 (0) 反对 (0) 回复
2024-04-14 00:11 匿名
好文章，谢谢科普

支持 (1) 反对 (1) 回复
2022-07-19 09:48 匿名
回复匿名：建议把您的想法说出来，大家一起讨论交流，互相学习。一句单纯的“完全就是胡扯”没有丝毫意义。

支持 (4) 反对 (2) 回复
2020-12-19 16:40 匿名
受教了

支持 (5) 反对 (2) 回复
2019-03-31 11:20 匿名
很好的科普文章

支持 (6) 反对 (2) 回复
2019-03-22 01:38 匿名
不错很好

支持 (5) 反对 (2) 回复
2018-09-06 23:14 匿名
这个说起来吧，大众听歌的不会太在意，只能说理论上是这样，追求极端的人是这样，对于当下听音乐，我觉得能达到320KB的mp3就相当不错了！

支持 (5) 反对 (8) 回复
2018-08-27 19:26 motif
回复匿名：当然不一样，我给大家展示的纯数字阶段的波形细节，经过DA自然会成为平滑曲线，否则也没法停啊，两张不同像素的照片放大一定倍数，马赛克的大小一定是不一样的，但依然不缺鼻子不缺眼不是。

支持 (7) 反对 (3) 回复
2018-08-27 14:36 匿名
你在录音软件里看到的波形，和实际播放的波形根本不一样。你以为44khz的文件播放出来，就是锯齿形状的？大错特错，所有DAC所有算法，把采样点还原成平滑的曲线。

支持 (4) 反对 (5) 回复
2018-08-27 14:34 匿名
完全就是胡扯

支持 (4) 反对 (9) 回复
2018-08-25 05:33 匿名
这种文章很厚价值。

支持 (7) 反对 (2) 回复
2018-08-24 22:50 匿名
好文支持作者加油

支持 (5) 反对 (2) 回复