首个支持中国民乐分离算法的商业平台 Yoohe STEMX 评测

作为长期跟空间音频、杜比全景声和复杂编曲打交道的人，我对「分离质量」的判断标准只有一个：能不能直接用进项目。

与LALAL.AI、UVX、iZotope RX 等竞品相比，Yoohe STEMX一看看过去最大的区别就是是首次支持了中国传统民族乐器分离、乐器种类多。不仅如此，在我们的测试中它在传统的多通道分离质量上也是第一梯队。

接下来让我们从核心功能、界面实操、以及真实项目测试中来看看它究竟等做到什么程度吧！

无需额外采样标注的中国传统民族乐器的分离结果如何？我们进行了炼狱难度的测试

在分离选项中，我们看到了非常陌生的词汇：笛子、箫、长笛、古琴、古筝、琵琶、二胡。这让我瞬间来了兴趣。

我认为如果想要进行有意义的测试，唱片中录制优良的传统中国乐器在实际的拆分中反而难度很低。

于是我使用了两段完全没有经过后期处理，而且是同时演奏的小型live录音来进行暴力测试。

如果在这种频率掩盖极其严重的户外演出录音中，Yoohe STEMX也能完整的拆分出我们想要的中国传统民族乐器，那么在更高音质的录音室录音中只会表现的更好。

我们听音频4的时候可以发现此时，同时演奏的有二胡琵琶还有一把吉他。当三个乐器同时响起，此时中频的信息密度已经让无数音频分离工具都感到汗颜。但是当我们听到音频5的琵琶音轨居然还能保留自己的混响时，我真的有点吃惊了。

因为一般可以做到这件事情的分离工具最起码需要10秒左右的当前片段的纯琵琶音色轨道作为标注才可能做到，但是Yoohe STEMX居然近乎完美的保留了弹拨的所有细节以及混响。

但是当我们听向音频6时，我们发现此时的分离还是出现了瑕疵，其中的二胡分离的音轨中，还是听到了明显的弹拨痕迹。但是考虑到我们的录音二胡的电平比例很低。这个测试我认为结果中规中矩。是拥有一定可用性的。

在测试完二胡和琵琶的结果之后，我们开始测试长线条的乐器。此时我们听到音频3中的长笛被吉他和琵琶所包裹，在我们直接应用拆分之后，我们听到长笛的气流颤抖和腔体细节都被大幅度保留。

它明显把主体旋律线从原始材料里提了出来，背景里更厚和更模糊的低频信息被压掉之后，笛类旋律的横向谐波走向变得清楚很多。同时你可以听到完整的旋律线，来帮助你拔带或者是转成midi到长笛的音源中进行使用。

最难的手碟分离依旧非常棒？

最后测试一组是我个人很喜欢的手碟音乐片段，你可以听到人声在中频上非常靠前，而手碟则是用打击的瞬态和延音的谐波混响包裹住人声。

手碟其实是一个很适合拿来测试分离系统有没有听懂乐器本体的对象。因为它既有明确音高，又带有打击性的起音，同时还有不少空间尾部和高频杂散信息。如果系统只会傻傻的粗暴分离，最后很容易把它处理成一个只剩攻击瞬态的干瘪空壳。所以这是一个测量分离工具的完美靶点。

Yoohe 这组handpan 轨的结果让我觉得不错。首先主体高频泛音和延音被保留下来了，更重要的是，它没有把手碟拆的像是别的分离工具标注后拆分的打击的瞬态声，而是大范围的保住了这个乐器本身那种既有旋律性又有腔体共鸣空间质感的完整个性。

同时你甚至可以听到一些混响的存在。虽然高频还是损失了一些细节，但是你需要问问自己：除了 Yoohe，谁还能做到一键拆手碟呢？

传统四大件分离也超过了众多分离工具。

对比项目	Yoohe	SpectraLayers 12	UVR（BS-Roformer-Viperx-1297 + MDX23C）
弦乐分离度	断档级优秀	表现不及Yoohe	表现不及Yoohe
Bass 分离度	断档级优秀	表现不及Yoohe	表现不及Yoohe
鼓组瞬态	优秀	与Yoohe 处于同一水准	弱于Yoohe
鼓组Punch 感	优秀	与Yoohe 处于同一水准	略微弱于Yoohe
低频能量保留	更自然	不如Yoohe 自然	不如Yoohe 自然

Yoohe的传统四大件分离也让我们刮目相看，我特意挑选了几首信息密度高、混音复杂的流行/电子曲目，分别在StemX、SpectraLayers 12 和UVR（BS-Roformer-Viperx-1297 + MDX23C）上跑了完全相同的对比测试。

在我的测试中，Yoohe弦乐的分离度和bass的分离度可以说是断档的好，我最喜欢的SpectraLayers 12和uvr都失去了高光。

鼓组瞬态和punch 感明显优于UVR，和SpectraLayers 12 处于同一水准但低频能量保留得更加自然。

其他的乐器和人声也都在信息度和混响尾音保留上持平或事略胜一筹。想到这个居然是一个国产工具，我觉得还是非常新奇的。

超越SpectraLayers 12！难度挑战之分离坂本龙一的钢琴和弦乐。

音频9是一段大家耳熟能详来自于坂本龙一的音乐片段，其中只有钢琴和弦乐，而且二者都并非进行着长线条的演奏，而是同时在统一的节拍下重叠演奏，这无疑加剧了分离的难度。

我测试了在分离软件中无往不利且名列前茅的SpectraLayers 12中的分离算法，居然都挑战失败了！你可以听到音频14和15中居然出现了严重的失真和额外的合成噪音。接下来让我们的Yoohe STEMX试试看呢？

音频8 中Yoohe STEMX中分离的弦乐让我们听到了明显的木质共鸣和细节，同时保留了完整的左右声道细节和宽度令人印象深刻。同时音频7中的钢琴也没有出现任何噪音和失真，虽然低频出现了变化，但是依旧有着完整和纯净的音色表达。

但真正有意思的地方在于：当我把这两条轨重新组合起来时，它们几乎可以完整回到原始结构。Yoohe STEMX的算法更像是在可区分和可重构之间做平衡：其不追求听觉上的极端切割感，而优先保证音乐本体不会被拆坏。

一站式服务甚至还可以歌声转换？

虽然不是什么新功能了，但是当我看到这个功能和刚才一堆复杂且详细的拆分功能出现在同一个网页上，我还是有点感叹这有点太一站式服务了。

歌声转换功能支持上传纯人声干声/ 带伴奏的完整音频/ 含和声的人声以及伴奏，精准替换主唱声线，同时保留原唱的情感、韵味、咬字习惯、气息控制。

值得一提的是，它和平台内的歌声训练功能深度打通，在分离后的人声轨道右侧可以直接选择官方提供的模型和你自己训练的模型来直接做到人声替换。你也可以控制音调和在左侧直接添加效果器进行效果的预览。

如果你想要合成一些bv或者是音色的叠录，这个功能无疑可以帮助你更快速的得到你想要的结果。

需要注意的是，如果需要自己训练声音模型，建议提供10分钟以上覆盖中高低音域和最好是高质量录音的语料。

支持一键AI生成音乐

作为ACE-STEP1.5 的联合发布方，自然首先接入的是ACE，并且平台内提供完整的操作指引教程。

而且经过询问，官方还提到ACE-STEP 1.5以后并不会是唯一的音乐生成模型，其之后通过更新将会有更多的生成模型选择。并且也都是使用通用点数进行计费。让我们期待一下国产的音乐模型会越来越多的加入进来吧！

接近满分的BV 和声分离测试

这是一个非常经典的片段，我们可以听到在前几秒的时候主voc的响度远远大于bv的响度。

这个片段的拆分测试可以完美体现其对于频率和音质的处理表现。

在拆分后的结果中我们可以听到被拆出来的音频 vocals_other 中确实把原本埋在整体混合中的和声主体往前提了一步。同时人声主要存在的中频区域开始更集中。

同时在前几秒的主voc出现的时候，BV的频率居然丝毫没有压缩或者失真。这个表现在我们常用的工具中已经名列前茅！

但是我们还是注意到了总体的亮度和宽度发生了一些变化。不过总体来说在音频后期的可用性上，这个结果已经有了巨大的可能性。

有缺点吗？

关于其他的乐器我们测试过之后发现笛子、二胡等高频率乐器分离后出现可闻的弹拨串扰。当然你可以发现这些乐器的分离都只需要很低的积分。

不过其他的乐器比如琵琶和古筝还有长笛以及箫的分离结果都表现出了不错的结果。

同时我们也发现这些算法都会让整体低频和宽度有一些变化，做不到发行的直接使用，但是通过替换midi之类的功能，你依旧可以找到修改的方法。

虽然其拆分的结果跟录音关系还是很大的，但是我们实验了suno生成的部分民乐轨道，发现拆分的结果依旧可以有很大几率完整保留音色和旋律线。

同时官方建议：先使用标准分轨分离，分离出传统的四大件乐器之后，用other轨道进行专业分离，这样往往会得到更好的分离效果。

此外上文中集成的人声转换的质量，我只能说质量一般。因为在一些复杂转音的过程中，我们还是听到了转换失败出现错误音符的问题。但是其绝大部分常规人声测试下的转换质量完全够用。

Suno Studio到yoohe再到MIDI？

yoohe支持完整好用的midi转换服务，你可以在同一个页面直接找到单乐器MIDI提取的按钮，然后直接进行转换。不过我建议多尝试几次音符探测精度，否则可以会漏掉一些音。

我自己刚拿Suno 生成的一首带有琵琶和古琴的音乐测了一遍工作流：Suno 出完整音频→ StemX 的传统分离模式分离出包含琵琶和古筝的other轨道→ 单独分离出琵琶和古琴 → 一键转MIDI → 拖进Logic加载音源，5 分钟内就可以开始更改我刚刚使用Suno生成音乐的和弦、节奏、旋律以及音质。

这才是Yoohe 最有意思的地方！过去的AI 音乐，更像是一种结果导向的工具：你输入，得到一首歌，然后结束。

但Yoohe 这一套链路做的事情完全不一样：它把一首已经生成完成的音乐，重新拆解回可编辑、可替换、可重构的状态，让创作者重新获得对结构、声部和音色和音源的控制权。

Suno 负责天马行空的创意，StemX 负责把创意变成可编辑、可MIDI 化的精准素材，后面的编曲、混音、母带全由你掌控。而且其提供了哪怕Suno Studio也无法达到的超详细的分离性能。你甚至可以分离出特定轨道再拖回到Suno studio中进行二次修改。

之后的更新以及API支持

Yoohe 目前已经支持多达38 种乐器的分离。据官方透露，在未来2–3 个月内，其乐器覆盖范围还将进一步扩展至绝大多数常用编制，包括管弦乐器、电子乐器以及全球各类民族乐器。

同时官方还将上线钢琴卷帘和实时转谱功能，根据官方披露的信息，Yoohe 即将在近期版本中推出钢琴卷帘和实时转谱模块。到时候，用户分离出来的音轨可以直接转成MIDI 文件，并且可以在内置的钢琴卷帘里继续编辑。

你对MIDI 做出的修改，会实时反馈到五线谱和简谱视图中，这一功能预计会在2026 年第二季度完成更新。对于乐谱制作、编曲教学，甚至是后续的扒带和配器整理来说，这都会带来非常直接的便利。

同时官方支持API调用，当这些能力开始被AI程序调度，而不是手动点击时，Yoohe 就不再只是一个网站，而是属于你所搭建生产力系统的一部分。

只需要写一些程序然后睡一觉，第二天你就会得到分离干净的stem文件和midi，这是一个很好的未来。

同时，官方也倡导大家，请对自己上传内容的版权负责。工具本身没有方向，决定它如何被使用的，终究是人。

技术的发展，最终都会回到同一个原点：好的工具，应该用在正确的地方。这就是Yoohe真正的坚持。

Yoohe的价值，不仅在于做到了“分得更干净”，更在于让音乐真正从“一次性的结果”转变为“可灵活DIY的素材”

感兴趣的同学可以订阅时输入专属推荐码：MIDIFAN，领取专属优惠

作者：Ocicat 阮祥博

苹果空间音频&杜比全景声工程师& Eventide 认证艺术家
作品登陆苹果官网新闻稿首页推荐：疗愈音乐项目《游心·心游》Resonant Stiliness空间音频混音师
《Apple Music 空间音频「Spatial Audio」从制作到母带教程》作者
获得2024 London Design Awards概设念计类最荣高誉铂金奖
制作了人类历史上在西藏拉萨的第一个杜比全景声数字艺术展
北京模块节MODULAR COMMUNE FESTIVAL BEIJING - Dolby Atmos Live音频工程师

共有 4 条评论

2026-04-28 12:00 匿名
回复匿名：等以后出了开源comfyui分轨扩展，这玩意马上就死

支持 (0) 反对 (1) 回复
2026-04-13 10:46 匿名
确实分得很细很好，虽然民乐确实没别的地方分，但是吧这里的效果相较其他还是差点意思的，操作上也不够流畅，不过输了推荐码，便宜了好多！挺有潜力的！期待后续更新！！！！

支持 (1) 反对 (1) 回复
2026-04-13 10:41 匿名
还好吧，重点在分轨上，AI音乐确实差点意思，免费用户每天也能白嫖次数，需要的时候上去搞一下也够用了回复匿名：

支持 (0) 反对 (0) 回复
2026-04-12 18:33 匿名
收费太贵音乐生成部分音乐性差像早起的suno 生成的味道每次旋律结尾太像了，至于分轨，也不值这个价定制乐器分离出来要专业版会员。还要按乐器收取积分，应该玩不久这个产品。

支持 (1) 反对 (1) 回复