被谷歌的音乐生成工具 Lyria 刷屏了?不如先试试 Riffusion

人工智能生成音乐巨大的飞跃，使我们距离彻底改变音乐世界的运作方式又近了一步。谷歌推出的新一代人工智能音乐生成工具Lyria演示效果出色，潜力巨大。虽然关于Lyria的报道已经漫天飞了，但事实上截止发稿时（2023年11月21日），普通用户还没有办法体验Lyria的效果。我们只能借助谷歌的人工智能研究团队Deepmind的官方通稿进行解读。

让我们先看看这个炫酷的宣传视频吧：

原 YouTube 视频链接：
https://www.youtube.com/watch?v=rrk1t_h2iSQ

这个视频里首先展示的是将歌声哼唱转换成萨克斯风音色的能力。但更惊艳的是下一项技术：通过文本提示词再选择歌手后，Lyria直接生成了Charlie Puth演唱的一小段歌曲。是不是很厉害？这个复古味十足的视频与谷歌的风格大不相同，估计是为了缓和一些人工智能在创意艺术领域面临的争议。

Lyria将集成到YouTube作为其短视频平台YouTube Shorts的创作工具。Lyria被分成两个产品：直接生成音乐的叫Dream Track，可让用户快速生成背景音乐；哼唱音色转换将与其他工具结合，提供更多音乐创意玩法。除此之外，DeepMind表示它正在采用用于标记人工智能图像SynthID来为人工智能音乐添加水印，避免不当使用。

为 YouTube Shorts生成迷你歌曲

YouTube将允许“少数创作者”使用Dream Track生成30秒的音乐，其中包括用到明星歌手Alec Benjamin, Charlie Puth, Charli XCX, Demi Lovato, John Legend, Sia, T-Pain, Troye Sivan和Papoose的歌声和音乐风格。目前尚不清楚“少数创作者”的定义是什么。YouTube可能是出于算力成本、与唱片公司的授权协议和对不当使用的顾虑而设定了这样的限制。在今年8月，YouTube与环球唱片达成人工智能音乐合作研发协议[https://www.musicbusinessworldwide.com/youtube-and-universal-music-group-partner-to-develop-ai-music-tools-complete-with-protections-for-artists-and-rightsholders/]，并在之后共同宣布了人工智能音乐准则[https://www.universalmusic.com/youtube-announces-ai-music-principles-and-launches-youtube-music-ai-incubator-with-artists-songwriters-and-producers-from-universal-music-group/]。有意思的是，上述歌手并非全部归属环球唱片旗下。YouTube和DeepMind声称这些歌手参与了该项目，帮助测试模型并提供意见。

生成T-Pain的歌声和风格

原 YouTube 视频链接：
https://www.youtube.com/watch?v=F4Ngs4mZ5cY

Lyor Cohen和Toni Reed分别是YouTube音乐主管及其新兴体验和社区项目副总裁，他们指出，即将发布的音乐人工智能工具集来自该公司的音乐人工智能孵化器，该孵化器由一群音乐人和词曲作者组成，还包括负责测试项目并提供反馈的制作人。这些参与者对人工智能工具非常好奇，因为这些工具可以突破他们认为可能的极限。

Lyor Cohen表示虽然Dream Track已经有限开放使用，但音乐人工智能工具集只会在今年晚些时候推出。DeepMind透露了他们将涵盖的三个领域：用特定的乐器创作音乐，或者基于哼唱曲调来创作一整套配器；使用在简单的MIDI键盘上弹的和弦来创建整个合奏；为已有歌声旋律生成伴奏乐器。或者将这三个路径组合起来，直接从哼唱生成一首歌曲。

将beatboxing变成鼓loop

原 YouTube 视频链接：
https://www.youtube.com/watch?v=30rCswh0tL0

把歌声旋律变成交响乐团

原 YouTube 视频链接：
https://www.youtube.com/watch?v=aC8I2YvL6Uo

把键盘演奏变成合唱团

原 YouTube 视频链接：
https://www.youtube.com/watch?v=49T-TYNx_0A

使用音乐人工智能工具创作、编辑和改编

谷歌宣布这套新的工具不仅限于音乐生成，还涉及人工智能音乐制作和编辑。“借助我们的音乐人工智能工具，用户可以从头开始创建新的音乐或器乐部分，将音频从一种音乐风格或乐器转换为另一种音乐风格或乐器，并制作乐器和合声伴奏。”

DJ Techtools的作者Ean Golden认为这项技术的成果可能会让Ableton、GarageBand等数字音频工作站陷入困境，除非他们自己也开发音乐生成工具。按Ean Golden的理解，Ableton这样的音频工作站无法接触到音乐生成最重要的层面，即其原始的生成元素。Ean Golden解释道，“当谷歌生成一首歌曲时，谷歌应该有能力生成乐器层，然后用户可以将其分离和操作编辑。如果没有分离的元素，将完整生成的音频文件放入GarageBand中只能非常非常粗糙地将各个部分分离出来。但人们会想要在创作音乐时编辑这些单独的元素。”

谷歌的生成技术到底有没有将音乐元素分离开，目前尚无任何公开证据。不过已经有音频工作站将音乐元素分离编辑作为主打功能了，最近发布的RipX DAW将音乐生成、乐器分离以及转谱编辑串在了一起[https://cn.midifan.com/modulesoftware-detailview-9293.htm]。

正如过去的音乐人工智能研究努力经常出现的一个情况，当你听人工智能生成的音乐的时间越长，听起来就越失真和超现实，与预期结果相去甚远。正如DeepMind在文中讲到，部分原因是音乐模型中的信息非常复杂，涵盖节拍、音符、和声等。“在生成长声音序列时，人工智能模型很难在短乐句、副歌或扩展段落之间保持音乐连续性。由于音乐通常同时包含多种声音和乐器，因此音乐生成比语音任务要困难得多。”

谷歌音乐研究回顾

如果你是第一次接触到谷歌的音乐生成研究那一定被惊艳到了，但其实谷歌多年以来在相关领域都有成果，Lyria更像是各项技术的商业化尝试。早在2023年1月，谷歌的直属研究团队Google Research悄然发布了MusicLM[https://m.midifan.com/news_body.php?id=45833]，引起了业界轰动。MusicLM已经展现了通过文本提示词生成特定音乐风格的能力。而同时另一篇谷歌没有被广泛报道的论文SingSong[https://arxiv.org/abs/2301.12662]能够给任何旋律生成伴奏[https://storage.googleapis.com/sing-song/index.html]。

Lyria展示的哼唱音色转换的技术其实在谷歌Magenta团队之前的产品中就已经应用了。在今年4月midifan的文章“一文看遍当下全部的免费 AI 音乐制作工具[https://m.midifan.com/article_body.php?id=7490]“中就介绍到了谷歌Magenta团队发布的各项成果，包括有音色转换功能音乐生成工具Tone Transfer[https://sites.research.google/tonetransfer]、可以作为VST插件使用的音色转换工具Magenta DDSP[https://magenta.tensorflow.org/ddsp-vst]和MIDI生成VST插件Magenta Studio[https://magenta.tensorflow.org/studio]。在更早之前的2018年，Magenta就发布了一款基于深度学习的NSynth合成器[https://m.midifan.com/news_body.php?id=29145]。Magenta是谷歌专注音乐人工智能方向的团队，他们的网站[https://magenta.tensorflow.org/demos]上还有更多小众有趣的研究成果都值得玩一玩。在科研领域，Magenta最知名的成果可微分信号处理DDSP: Differentiable Digital Signal Processinghttps://magenta.tensorflow.org/ddsp]将深度学习和传统信号处理结合起来，构成了上面一些产品的技术核心。相信今后DDSP还将在音乐技术的各个领域发挥作用。

普通大众第一次接触到的谷歌音乐人工智能大概是巴赫四部和声自动编配技术了。2019年3月31日是著名作曲家、管风琴演奏家约翰·塞巴斯蒂安·巴赫(Johann Sebastian Bach)诞辰334周年的纪念日，谷歌在当天的搜索涂鸦上展示的这个非常好玩的工具今天你也可以使用哦[https://doodles.google/doodle/celebrating-johann-sebastian-bach/]！（巴赫给作曲系学生带来的苦难请他老人家亲自赎罪）

当然，在音乐音频生成领域，谷歌并不孤单。Meta于2023年6月开源了MusicGen[https://audiocraft.metademolab.com/musicgen.html]；Stability AI于同年9月推出了Stable Audio[https://m.midifan.com/news_body.php?id=48085]；还有在2022年12月横空出世的初创公司Riffusion[https://m.midifan.com/news_body.php?id=45510]。

读到这里，大家一定想试试Lyria的效果了。很遗憾，小编并没有邀请码给大家，不过认真阅读的朋友应该知道如何从Magenta和MusicLM中管窥Lyria的潜力。Magenta的插件到官网[https://magenta.tensorflow.org/]下载即可。想要使用MusicLM的朋友需要到AI Test kitchen[https://aitestkitchen.withgoogle.com/]上注册使用。

目前产品形态与Lyria这样带有歌声歌词的音乐音频生成最接近的要数氪金升级后的Riffusion了。大约一年前，Seth Forsgren和Hayk Martiros发布了一个名为Riffusion的文本到音频生成的业余爱好项目。尽管当时的效果有所局限，但Riffusion赢得了很多关注，有数百万人尝试过Riffusion。

一些关注似乎也来自投资者。今年，Forsgren和Martiros决定将Riffusion 商业化，该公司目前由音乐组合The Chainsmokers提供咨询，并已完成由Greycroft领投、South Park Commons和Sky9参与的400万美元种子轮融资。

Seth Forsgren和Hayk Martiros在普林斯顿大学读本科时相识，过去十年一直在业余乐队中一起演奏音乐。Forsgren表示在看到了生成式人工智能工具将人们联系起来的潜力，从而受到启发决定扩大Riffusion的规模。

Riffusion推出的改进版本允许用户描述歌词和音乐风格，以生成可以公开分享或与朋友分享的“riffs”。升级后的Riffusion由Riffusion团队（包括 Forsgren和 Martiros 在内的六人）从头开始训练的音频模型提供支持。与原始Riffusion背后的模型一样，新模型基于对音频频谱图数据的微调训练。训练数据使用相关音乐术语标记，例如“布鲁斯吉他”、“爵士钢琴”等。这些训练数据提供信息“教”模型某些声音“看起来像什么”，以及在给定文本提示的情况下如何重新创建或组合它们（例如“假期的低保真节拍”、“来自肯尼亚的曼波”、“ 来自密西西比三角洲的民谣蓝调歌曲”等）。

以下是小编使用Riffusion，在输入歌词后直接生成的的打油歌，请大家轻喷：

版权也是Riffusion面临的问题。就在上个月，一个Discord社区发布了一张包含人工智能生成的Travis Scott声音的整张专辑，引起了唱片公司的愤怒[https://www.vice.com/en/article/y3wdj7/inside-the-discord-where-thousands-of-rogue-producers-are-making-ai-music]。Forsgren指出，经过改进的新Riffusion并未接受知名歌手数据的训练，在提示词中无法使用著名歌手的名字。

Riffusion目前还没有明确的盈利策略。“对于生成音乐来说，现在还处于早期阶段。谷歌的MusicLM、Meta的MusicGen和Stability的Stable Audio 等模型都是该领域令人兴奋的工具。”Forsgren说道。“但Riffusion脱颖而出，成为第一个让用户能够通过易于访问的网站在音乐中生成歌词的服务之一。”

对于谷歌Lryia、Riffusion和其他音乐生成工具对音乐行业的未来影响，现在可能办法做出预测。当人工智能工具与YouTube这样掌握流量入口的超级平台结合后，一切都是未知数。简而言之，拥有模型就掌控了创作过程。版权归属将决定谁是最终赢家。谷歌声称其开发了的SynthID数字水印技术无论音频文件转换成什么格式，该水印都会保留在音频文件中。这个水印似乎合理，不仅表明音乐是由谷歌Lryia生成的，而且还能记录追溯用户和在创作过程中使用的提示词以及歌手设置。

该技术的两个可能结果包括：

原始歌手和制作人会获得报酬，并且可能对用户生成的内容拥有权利。如果你创作了一首“John Mayer风格”的歌曲并且最终大受欢迎，这可能会成为引发John Mayer的律师提起诉讼。
谷歌可能会主张一些知识产权。很难想象谷歌不会对用户使用其工具生成的任何内容主张权利。许多社交媒体公司实际上拥有你在其平台上发布的内容的发行权和商业化的权力，人工智能不太会让这个机制有什么不同。

一个很可能的结果是，从人工智能歌曲获得的任何收入其中大部分（如果不是全部）将由参与这些歌曲生成的人工智能公司和原始音乐创作者保留。实际上，用户估计也不在乎。他们真的可能只是很想制作奇怪的流派并自己播着玩。反正也没有人靠音乐创作赚到什么钱，我们大多数人只是想搞一些有趣的东西。

你对这些工具有什么看法，打算如何使用这些工具？欢迎大家在评论区留言讨论。

参考链接：