新锐修音插件 Vovious 是下一次的技术迭代吗？

新的修音软件？

在现代音乐的制作流程中，有一个大家都心知肚明的事实：

几乎所有人声都被修过音。

从格莱美级别的制作团队到卧室音乐人，Pitch Correction 已经成为现代音乐制作标准流程的一部分。在过去二十年里，这个领域基本由两个体系主导：Antares出品的 Auto-Tune和Celemony 的Melodyne以及近两年比较火热的Repitch。

前者则定义了流行音乐里著名的 “Auto-Tune sound”。后者则提供手术刀级别的人声编辑能力以及乐器编辑能力。已经有10近20年，这套技术体系其实已经没有发生过本质的变化了，他们只是在Ui上大刀阔斧但算法上确是挤牙膏一样的更新。

直到最近，一个叫 Vovious 的新插件开始在音频工程师圈子里被频繁讨论。它真正引起关注的原因，并不是因为它是一个新插件，而是它引用了人工智能技术来辅助你的修音。

3度音程测试：它是最先进的吗？

在使用了一段时间之后，我认为他的算法在PC-NSF-HifiGAN算法被开发出商业化产品之前，是最先进的。

我们对同一句唱做了升高和降低3度音程的实验来判断结果：事实上即使操作量相同，不同的插件最终结果的质量也会产生差异。

Vovious：压倒性地保留了在唱歌的感觉，3度之后依旧保持的很好。ARA支持的也很好，流畅度也很棒
Auto-Tune：修得好时可以很自然，而且很好用。ARA2居然在REAPER中出现了Bug！但是勉强能用。
Melodyne：不论好坏，都会变成一种明显的【Melodyne 算法的声音】但是超过3度之后我觉得已经开始变得奇怪了。但是ARA支持的很好！流畅度也很棒。
RePitch：在自然度和音质方面都非常优秀。但是软件稳定性很差。
Flex Pitch：声音稍微偏硬，带一点紧绷感。
Waves Tune：虽然这个插件比较老，但不得不说在某些时候的依然还不错。不过在自然度上离Vovious已经差了太多。软件视觉上的流畅度一般。

总体下来Vovious 在修音效率上和音质上暂时领先。

不过科技的进步是惊人的，我现在依旧觉得PC-NSF-HifiGAN的算法会更胜一筹。让我们期待有新的产品出现吧！

算法思路的变化

传统的修音工具大多基于时间域分段重建（time-domain processing）。

简单来说，它们会：

1. 波形切片：将音频信号切割成极小的片段（通常以基音周期为单位）。

重组重建：

2. 音高修正：通过改变这些片段的重叠频率或长度来改变基频，而不影响播放速度。
3. 时间拉伸：通过增加或减少片段的重复次数或重叠量来改变时长，而不改动音高

这套方法已经非常成熟，但也有一个明显问题：当音高移动较大时，很容易出现相位问题和泛音的结构破坏。

而Vovious 选择了一条不同的路线。

虽然没有公布，但是在官网的文档中提到他们使用了类似于FFT 频率域分析的方式来处理声音结构，从而减少传统算法在音高拉伸时产生的伪影 / 音频瑕疵 artifacts。

Vovious 的算法设计理念更偏向于对音高和振幅轨迹进行连续建模，而不是像 Melodyne 那样将音频完全 “颗粒化”为离散的音块，它专注于模拟实际的音高线（Pitch Track），这使得在调整音高偏移、颤音或斜率时，声音的过渡更加流利自然，避免了因音块切分导致的断裂感。同时会配合算法来补全泛音列。

这也是为什么官方一直强调其修音的算法达到了：Natural Vocal Tuning 也就是在修完音以后，听起来仍然像是人在唱歌。

Formant神经网络跟随：很多人第一次听到的差异

修音为什么在提升或降低音程关系时最容易变得奇怪？其实这不是音高算法的问题，而是 Formant共振峰的问题。

很多工程师应该都有类似经验：当音高提升较多时，人声会突然变得很细，或者出现类似氦气声音的感觉。

传统的修音插件通常有两种处理方式：固定 Formant 或者是手动拖动调整 Formant。这个过程需要反复聆听判断才能得到自然的结果。

而 Vovious 选择让神经网络分析歌唱结构，并让共振峰Formant 随音高自然变化。通过神经网络对声道的建模，当音高发生剧烈改变时，算法会自动调整共振峰Formants以匹配人体发声的物理特性，有效抑制了类似于机器人音调的产生。

基于神经网络分析即使在比较大的音高移动下，人声仍然保持原本的声带结构感。而大大的提高修音的效率。

如果你在制作一些有大量气声唱法的抒情歌或者是有很多滑音段落的流行音乐，这个算法会让你感受特别不一样！因为你总是能更快的得到更自然的结果。

绝佳的高效设计大部分情况下只需要双击自动校准

Vovious 拥有Neural Network Pitch Detection 神经网络音高检测的技术，在你通过ARA2载入或者录制音频到Vovious中之后。你的右侧菜单中马上就会告诉你此次音频在不同调的可能性有多大。而且即使在复杂的滑音下其算法的准确度依旧高的惊人。

在点击了最有可能的结果之后，左侧的key note会高亮显示此调的音符，而离调的音符则会变暗。

这看起来没什么新鲜的，但是最重要的地方来了：看到红色的区块了吗？那是你90的情况下需要处理的地方。

而你需要做的只是双击它就可以了。

神经网络音高检测非常的准确，当你双击吸附到正确的位置后再次播放验证，90的情况下你都会得到满意的结果！

高效的微调快捷方式

也许你的听觉很灵敏，捕捉到了其在一些复杂状态下自动校准的缺陷，那么此时点击单个音符，你会得到一个完整的控制界面：

令人满意的是预览音效功能快捷键S 点击之后可以快速听到相邻的三个字的发音，而不是Melodyne那种单一的音频块发音。

这其实在修音之中是非常有效的。因为很多音高感知是需要配合上下文才能清楚的知道结果，而远非单一的音高。

毕竟最起码要有两个音才可以构成音程关系。

此外如果你对于共振峰的算法不满意，你还可以进一步调整。我们可以发现Vovious也许在算法上只是略微领先了别家的插件，但是在Ui和设计思路上实在是领先了太多。其优秀的设计直接可以让你在单一轨道上的修音多节省几十分钟。

关于振幅的修正，你可以直接将鼠标放置在振幅的调整图标上调节当前的字符，但是Vovious也提供了额外的辅音修正

当你按住shift 时你会发现振幅的调整图标变成了中空的形态，此时会高亮齿音和辅音来供你调节响度。

它还可以画线

没错，类似于Auto-Tune的功能，Vovious也出现了。而且十分自然，与Auto-Tune一样，你画的线条只是音高的趋势或者是滑音的连接斜率，实际上来说 Vovious会其算法自动将你写入的曲线处理成最优的结果。

有点奇怪的撤销功能

Vovious的撤销重做功能有一些特殊，其所有的撤销和重做都是线性的，而且是全局的。

但撤销和重做的时候，你可以快速看到你需要执行的范围和步骤都是什么，这一点很好！

但是当你处理完毕所有的问题，反复回放的时候发现了某一个音需要回到初始状态的时候，你发现其没有这种功能。

所以目前看来，Vovious无法单独重置音符是很奇怪的选择。

多轨道编辑

如果你把Vovious无插到多个轨，T 会显示不同轨道的界面，直接点选就可以切换点击处的音频到编辑页面上来，而右侧的选择框功能可以激活参考轨道功能。

你可以选中一个轨道作为参考的阴影来辅助你修音。相信Melodyne的用户会很熟悉😂

不只是修音，还能修节奏和制作和声

在修节奏的模式中，我们发现很多用户都很疑惑这是什么情况。为什么一拖动这些线条所有的音符都开始挪动了。

事实上，Vovious提供了完美的解决方案，在蓝色框体上，你的拖动会直接拖动此音符之后的所有音符。在某些时候你也许只需要往前拖动几ms就解决的问题，此时可以避免过多拉伸算法的介入。

而下半部分的红色框体则只会在相邻的两个音之间进行拉伸，而不涉及到任何别的音高，类似于ableton live的warp功能。

而和声功能也非常有意思，在点击对应的按键开启和声功能之后，我们可以设定pitch 和pan的方向以及电平大小，同时可以按左边的加号和减号来添加不同的声部。

框选红色的区域可以开启和声，而你可以根据歌曲的需要选择多个位置进入和声，中间可以中断。

他可以修乐器吗？

可以但是并不完美，在几个笛子以及合成器的测试中，我们发现虽然所有的音高都能被检测到，但是在声音听感上其算法对于谐波的保留似乎更偏向于人声的模型。所以在乐器上的音程挪动会显得有些干瘪以及出现了高频的剧烈变化，远远不如Ableton LIVE的变调算法。

不过看到Vovious在人声修复上的表现这么好并且效率这么高，你还能说什么呢？

Vovious官网价格人民币1668元支持两台电脑永久授权

macOS：Intel 或 Apple CPU（原生），搭载 High Sierra（10.13）及更新版本
Windows：Windows 10 / Windows 11 - 64 位

第一次激活时只需网络连接！

查阅不同工作站的支持文档： https://www.vovious.com/dawIntegration

总结

Vovious在修音的效率上真的让人惊讶，就像我在上文中提到的一样，大多数时间你只需要双击就能完成修音了，而且三字连听的功能也确保了修音的高度准确性。同时ARA2的支持也是我见过的此类插件中稳定性最好的。考虑到Auto-Tune和Melodyne以及Repitch的价格和修音质量，Vovious值得购买～毕竟节省时间是无价的。

作者：Ocicat 阮祥博

苹果空间音频&杜比全景声工程师 & Eventide 认证艺术家

作品登陆苹果官网首页推荐：疗愈音乐项目《游心·心游》Resonant Stiliness空间音频混音师

《Apple Music 空间音频「Spatial Audio」从制作到母带教程》作者

获得2024 London Design Awards概设念计类最荣高誉铂金奖

制作了人类历史上在西藏拉萨的第一个杜比全景声数字艺术展

北京模块儿节MODULARCOMMUNE FESTIVAL BEIJING-DOLBY Live音频工程师