芝麻AIS语音助手几乎是人类的声音

芝麻是一家对未来的愿景,即计算机变得更加人性化,并且可以通过与人看到,听力和合作来自然互动。特别是,他们强调了自然声音作为实现这一愿景的关键组成部分的重要性,并确定了最初的目标来启动[…]芝麻AIS声音助手,几乎是人类的声音首次出现在AI新闻上。

来源:AI新闻
芝麻是一家对未来的愿景,即计算机变得更加人性化,并且可以通过与人看到,听力和合作来自然互动。特别是,他们强调了自然人的声音作为实现这一愿景的关键组成部分,并确定了最初的目标来开始这一旅程。他们的新声音模型成功地取得了许多以前认为的不可能的事情:创建一种AI声音,不仅听起来很自然,而且还以人类的方式积极努力“不完美”。您可以对此进行测试。Sesame开发了一个名为“对话语音模型”(CSM)的系统,该系统使用基于Meta的Llama体系结构的两个交互AI模型。使该系统与众不同的是它以模仿人类语音的方式整合文本和声音的能力。芝麻的系统文本和声音过程同时在单个基于变压器的模型中同时遵循传统的两步过程,而是分别处理语义令牌和声学细节。该模型已经在大约一百万小时的英语演讲中进行了培训,并故意包含了使它听起来更加人性化的小违规行为。用户报告说,语音助手:在响应词根之前,请纠正“ uh”和“ ah”。 3亿参数解码器。在盲目测试中,人类评估者无法区分CSM生成的完全