Google 和 Meta 继续研究 AI Music，Stable Audio 发布免费开源工具

在三大唱片公司与Suno和Udio的诉讼占据头条之际，大公司们也没闲着，依然在不遗余力的推进音乐人工智能的研发和应用。

YouTube

图：去年发布的Dream Track

谷歌旗下的YouTube 在人工智能音乐领域的野心仍在继续，但它希望在采取下一步行动之前与唱片公司达成授权协议。据英国《金融时报》报道，YouTube正在与唱片公司洽谈，希望获得其歌曲的许可，用于制作克隆流行歌手音乐的人工智能工具。这些产品可能会在今年晚些时候推出。报道还称，作为这些交易的一部分，YouTube 将向三大唱片公司提供“一笔巨款”。这些新工具是去年 11 月 YouTube Shorts 中的 Dream Track的延续（参考《被谷歌的音乐生成工具 Lyria 刷屏了?不如先试试 Riffusion》），该项目克隆了 9 位歌手的声音，供一小部分创作者在短视频中使用。

DeepMind

另一方面，谷歌的研究部门 DeepMind公开了其为视频生成音乐音频最新技术。该技术的将视频像素与文本提示词相结合，为视频生成声音。在官方展示中，该模型能够生成包含配乐、音效和与角色匹配的对话。用户可以使用正向和负向提示词来改变音频和音乐。

图：模型结构

生成模型使用了autoregressive和diffusion作为基础。这个系统首先将视频输入编码压缩，然后通过diffusion从随机噪声中提炼音频。这个过程由视频输入和自然语言提示词引导。

提示词：A drummer on a stage at a concert surrounded by flashing lights and a cheering crowd
https://www.youtube.com/watch?v=9VvOocidgVk

视频：https://www.youtube.com/watch?v=VYjZlF6m3nQ

该模型高度依赖高质量的视频片段来制作高质量的音频。视频中的失真可能会导致音频质量明显下降。DeepMind还在开发的口型同步技术，但目前还是会出现例如角色说话时嘴唇不动的情况。

Meta

Meta在人工智能音乐生成领域的最新研究名为JASCO，这是一种可以将和弦或节拍等信息转换成完整音乐曲目的开源工具。Meta称JASCO的质量可与其他音乐人工智能相媲美，同时可以对生成的音乐进行更好、更灵活的控制。更多内容包括音频示例可以访问链接[https://pages.cs.huji.ac.il/adiyoss-lab/JASCO/]。

图：JASCO的模型结构

Meta 展示了JASCO 将拉威尔的《波莱罗舞曲》中的一段旋律被改编成“一首 80 年代的流行歌曲(an 80s driving pop song)”和“一首带有手风琴和原声吉他的民歌(folk song with accordion and acoustic guitar)”。柴可夫斯基的《天鹅湖》变成了“一首带有古筝、打击乐和竹笛的中国传统曲目(Chinese traditional track with guzheng, percussion, and bamboo flute)”和“一首带有贝司、电鼓和小号的 R&B (R&B track with deep bass, electronic drums and lead trumpet)”。

Meta上一个相关研究是2023年开源发布的MusicGen（参考《深入揭发：Facebook 人工智能音乐模型 MusicGen 是如何通过参考旋律生成音乐的？》）可以通过文本生成音乐。

Stable Audio Open

图6：

Stability AI在商业版Stable Audio（参考《深入揭发音乐人的噩梦 Stable Audio：音乐生成 AI 的商业技术背景 + 使用教程》）之后推出了功能类似但是免费开源的Stable Audio Open。这个开源工具允许用户生成用于声音设计的高质量音频样本。它使用简单的文本描述生成最长 47 秒的音频。相比之下，商业版Stable Audio可以生成完整长度的歌曲。Stable Audio Open专门用于创建音乐和声音设计中常用的音效、鼓点、loops等。开源模型让用户能够使用自己的自定义音频数据对产品进行微调。这样，音乐人也有可能用自己的声音来训练模型，以自己的风格生成新颖的音乐。

Stability AI 前音频副总裁Ed Newton-Rex于 2023 年底离职，理由是对于在训练数据集中使用版权材料存在分歧。这一事件引发了对音乐人工智能版权问题的广泛讨论（参考《风格迁移 AI 效果器 Comboulator 发布，另有一波 Google 和 Adobe 音乐 AI 新品袭来》）。

Stability AI 表示，其新模型是在来自Freesound和免费音乐档案的音频片段数据集上进行训练的。该公司表示，开源训练数据使他们能够创建一个开源的音频模型，同时尊重创作者的权利。Stable Audio Open 模型权重可在机器学习模型平台Hugging Face上下载[https://huggingface.co/stabilityai/stable-audio-open-1.0]。

ElevenLabs

最后，语音人工智能初创公司ElevenLabs也在初步研究一种通过提示词生成歌曲的模型。ElevenLabs已经有不少在语音领域比较成熟的产品，不过该款音乐生成工具仅在社交平台上简单展示，没有向用户开放。

来源：