语音合成技术重大突破，只需 5 秒就能克隆别人的声音

语音合成的出现已经有一段时间了，大家最熟悉的也许就是斯蒂芬·霍金的语音合成机器人了。这项技术这变得更加复杂和真实，近期康奈尔大学的研究团队完成了一个项目 — 只需要一段 5 秒的人声语音样本，他们的语音合成器就能生产完整的语音字符，甚至可以应用于其他语言。

该团队开发了一种基于神经网络的文本到语音(TTS)合成系统，该系统能够生成许多不同说话者的语音音频，包括那些在人工智能训练期间没有囊括的语言。他们的系统由三个独立训练的组件组成：

该语音合成器的核心技术是谷歌的 Taco tron 端到端语音合成，结合了神经声码器技术，以生成语调和细微差别。这项技术经过了数千个语音样本进行训练，但尚不清楚生成合成语音需要多长时间 - 例如，它接近实时，或者需要大量的计算资源和时间。

但它的结果真的非常惊人，它甚至还能够进行跨语言的语音克隆，还能生成非母语语音，甚至在不同程度的口音控制下的语气.... 总而言之，只需要一段 5 秒的音频样本，这个语音 AI 完成可以模拟一个人的说话方式。

感兴趣的小伙伴可以在官方页面查看该语音合成系统的效果：

令人好奇的是，这项技术是否可以应用到唱歌上？