语音合成技术重大突破,只需 5 秒就能克隆别人的声音

Dark$ide 发布于2020-02-18 暂无评论

语音合成的出现已经有一段时间了,大家最熟悉的也许就是斯蒂芬·霍金的语音合成机器人了。这项技术这变得更加复杂和真实,近期康奈尔大学的研究团队完成了一个项目 — 只需要一段 5 秒的人声语音样本,他们的语音合成器就能生产完整的语音字符,甚至可以应用于其他语言。


该团队开发了一种基于神经网络的文本到语音(TTS)合成系统,该系统能够生成许多不同说话者的语音音频,包括那些在人工智能训练期间没有囊括的语言。他们的系统由三个独立训练的组件组成:

  1. 说话人编码器网络,使用来自数千名没有抄本的说话人的有噪语音的独立数据集进行说话人验证任务的训练,从来自目标说话人的几秒钟的样本语音生成固定维度的嵌入向量。
  2. 基于 Taco tron 2 的序列-序列合成网络,它根据说话人嵌入的条件,从文本生成 MEL 语谱图。
  3. 基于自回归 WaveNet 的声码器,其将 MEL 谱图转换为时域波形样本序列。


原 Youtube 连接:https://youtu.be/0sR1rU3gLzQ

该语音合成器的核心技术是谷歌的 Taco tron 端到端语音合成,结合了神经声码器技术,以生成语调和细微差别。这项技术经过了数千个语音样本进行训练,但尚不清楚生成合成语音需要多长时间 - 例如,它接近实时,或者需要大量的计算资源和时间。

但它的结果真的非常惊人,它甚至还能够进行跨语言的语音克隆,还能生成非母语语音,甚至在不同程度的口音控制下的语气.... 总而言之,只需要一段 5 秒的音频样本,这个语音 AI 完成可以模拟一个人的说话方式。

感兴趣的小伙伴可以在官方页面查看该语音合成系统的效果:

https://google.github.io/tacotron/publications/speaker_adaptation/

令人好奇的是,这项技术是否可以应用到唱歌上?

共有 0 条评论