Google 和 Meta 继续研究 AI Music,Stable Audio 发布免费开源工具

Mike. 李克镰 发布于2024-08-11 暂无评论

在三大唱片公司与Suno和Udio的诉讼占据头条之际,大公司们也没闲着,依然在不遗余力的推进音乐人工智能的研发和应用。


YouTube


图:去年发布的Dream Track

谷歌旗下的YouTube 在人工智能音乐领域的野心仍在继续,但它希望在采取下一步行动之前与唱片公司达成授权协议。据英国《金融时报》 报道 ,YouTube正在与唱片公司洽谈,希望获得其歌曲的许可,用于制作克隆流行歌手音乐的人工智能工具。这些产品可能会在今年晚些时候推出。报道还称,作为这些交易的一部分,YouTube 将向三大唱片公司提供“一笔巨款”。这些新工具是去年 11 月 YouTube Shorts 中的 Dream Track的延续(参考《被谷歌的音乐生成工具 Lyria 刷屏了?不如先试试 Riffusion》),该项目克隆了 9 位歌手的声音,供一小部分创作者在短视频中使用。


DeepMind

另一方面,谷歌的研究部门 DeepMind公开了其为视频生成音乐音频最新技术。该技术的将视频像素与文本提示词相结合,为视频生成声音。在官方展示中,该模型能够生成包含配乐、音效和与角色匹配的对话。用户可以使用正向和负向提示词来改变音频和音乐。


图:模型结构

生成模型使用了autoregressive和diffusion作为基础。这个系统首先将视频输入编码压缩,然后通过diffusion从随机噪声中提炼音频。这个过程由视频输入和自然语言提示词引导。



提示词:A drummer on a stage at a concert surrounded by flashing lights and a cheering crowd
https://www.youtube.com/watch?v=9VvOocidgVk



视频:https://www.youtube.com/watch?v=VYjZlF6m3nQ

该模型高度依赖高质量的视频片段来制作高质量的音频。视频中的失真可能会导致音频质量明显下降。DeepMind还在开发的口型同步技术,但目前还是会出现例如角色说话时嘴唇不动的情况。


Meta

Meta在人工智能音乐生成领域的最新研究名为JASCO,这是一种可以将和弦或节拍等信息转换成完整音乐曲目的开源工具。Meta称JASCO的质量可与其他音乐人工智能相媲美,同时可以对生成的音乐进行更好、更灵活的控制。更多内容包括音频示例可以访问链接[https://pages.cs.huji.ac.il/adiyoss-lab/JASCO/]。


图:JASCO的模型结构

Meta 展示了JASCO 将拉威尔的《波莱罗舞曲》中的一段旋律被改编成“一首 80 年代的流行歌曲(an 80s driving pop song)”和“一首带有手风琴和原声吉他的民歌(folk song with accordion and acoustic guitar)”。柴可夫斯基的《天鹅湖》变成了“一首带有古筝、打击乐和竹笛的中国传统曲目(Chinese traditional track with guzheng, percussion, and bamboo flute)”和“一首带有贝司、电鼓和小号的 R&B (R&B track with deep bass, electronic drums and lead trumpet)”。

Meta上一个相关研究是2023年开源发布的MusicGen(参考《深入揭发:Facebook 人工智能音乐模型 MusicGen 是如何通过参考旋律生成音乐的?》)可以通过文本生成音乐。


Stable Audio Open


图6:

Stability AI在商业版Stable Audio(参考《深入揭发音乐人的噩梦 Stable Audio:音乐生成 AI 的商业技术背景 + 使用教程》)之后推出了功能类似但是免费开源的Stable Audio Open。这个开源工具允许用户生成用于声音设计的高质量音频样本。它使用简单的文本描述生成最长 47 秒的音频。相比之下,商业版Stable Audio可以生成完整长度的歌曲。Stable Audio Open专门用于创建音乐和声音设计中常用的音效、鼓点、loops等。开源模型让用户能够使用自己的自定义音频数据对产品进行微调。这样,音乐人也有可能用自己的声音来训练模型,以自己的风格生成新颖的音乐。

Stability AI 前音频副总裁Ed Newton-Rex于 2023 年底离职,理由是对于在训练数据集中使用版权材料存在分歧。这一事件引发了对音乐人工智能版权问题的广泛讨论(参考《风格迁移 AI 效果器 Comboulator 发布,另有一波 Google 和 Adobe 音乐 AI 新品袭来》)。

Stability AI 表示,其新模型是在来自Freesound和免费音乐档案的音频片段数据集上进行训练的。该公司表示,开源训练数据使他们能够创建一个开源的音频模型,同时尊重创作者的权利。Stable Audio Open 模型权重可在机器学习模型平台Hugging Face上下载[https://huggingface.co/stabilityai/stable-audio-open-1.0]。


ElevenLabs

最后,语音人工智能初创公司ElevenLabs也在初步研究一种通过提示词生成歌曲的模型。ElevenLabs已经有不少在语音领域比较成熟的产品,不过该款音乐生成工具仅在社交平台上简单展示,没有向用户开放。



来源:


文章出处 //www.midifan.com/

转载新闻请注明出自 Midifan.com

共有 0 条评论