人工智能语音生成器“达到人类水平”——但科学家说,它太危险了,不能发布

微软的 VALL-E 2 的创造者声称,它只需几秒钟的音频就能令人信服地重现人类的声音。

来源:LiveScience

微软开发了一种新型人工智能 (AI) 语音生成器,其效果似乎过于逼真,以至于无法向公众发布。

人工智能 人工智能

VALL-E 2 是一种文本转语音 (TTS) 生成器,仅需几秒钟的音频即可重现人类说话者的声音。

微软研究人员在 6 月 17 日发表在预印本服务器 arXiv 上的一篇论文中表示,VALL-E 2 能够“以原始说话者的声音生成准确、自然的语音,堪比人类的表现”。换句话说,新的 AI 语音生成器足够逼真,以至于会被误认为是真人——至少,根据其创造者的说法。

arXiv arXiv

研究人员在论文中写道:“VALL-E 2 是神经编解码器语言模型的最新进展,标志​​着零样本文本转语音合成 (TTS) 的一个里程碑,首次实现了与人类相当的水平。”“此外,VALL-E 2 始终如一地合成高质量语音,即使是那些由于其复杂性或重复短语而传统上具有挑战性的句子也是如此。”

相关:新的 AI 算法以 98% 的准确率标记深度伪造 - 比目前任何其他工具都好

相关: 新的 AI 算法以 98% 的准确率标记深度伪造 - 比目前任何其他工具都好 新的 AI 算法以 98% 的准确率标记深度伪造 - 比目前任何其他工具都好 新的 AI 算法以 98% 的准确率标记深度伪造 - 比目前任何其他工具都好

在这种情况下,与人类同等水平意味着 VALL-E 2 生成的语音在 Microsoft 使用的基准测试中达到或超过了人类语音的质量。

由于包含两个关键功能:“重复感知采样”和“分组代码建模”,AI 引擎能够做到这一点。

将世界上最迷人的发现直接发送到您的收件箱。

将世界上最迷人的发现直接发送到您的收件箱。

“纯粹的研究项目”

深度伪造技术 博客文章 博客文章