Tacotron 2 AI 产生的声音与人类语音没有区别

谷歌特别注重人工智能领域的研究。这家科技巨头现在又迈出了一步,在这一领域进一步推进。谷歌表示,其最新版本的人工智能语音合成系统 Tacotron 2 可以相当准确地模仿人类语音。

来源:Robogeek新闻频道(关于机器人技术的俄罗斯与世界新闻)

谷歌特别注重人工智能领域的研究。这家科技巨头现在又迈出了一步,在这一领域进一步推进。谷歌表示,其最新版本的人工智能语音合成系统 Tacotron 2 可以相当准确地模仿人类语音。

任何互联网用户都可以使用 Tacotron 2 AI 在线发布的短语样本来验证该声明的真实性

在线发布的示例短语

Tacotron 2 是第二代 Google 语音转文本技术,融合了深度学习神经网络,可实现完美的语音再现。第一个神经网络负责将文本翻译成允许音频可视化的频谱图。然后将频谱图输入 WaveNet,这是 DeepMind 实验室开发的系统。 WaveNet 读取声谱图并创建与其类似的声音元素。

当然,语音转文本翻译并不是一项技术创新,尤其是对于 Mac 用户而言。然而,谷歌声称,新的文本转语音技术优于大多数其他选项,并且产生的声音几乎与人类语音没有区别。

在聆听并比较来自活人的语音样本和合成的 Tacotron 2 后,人们可以注意到与其他听起来明显机械的合成技术相当接近的相似性和优越性。

Tacotron 2 还使用上下文来正确发音,即使是完全相同的单词。该技术可以响应文本中使用的标点符号,相应地改变讲话的速度,还可以学习英文标题中单个单词的大写。