详细内容或原文请订阅后点击阅览
现实生活中的机器人借助 AI 学会了口型同步
哥伦比亚工程公司开发了一种灵活的机器人面部,可以学习嘴唇运动以实现逼真的语音同步,提高人形机器人的社交互动能力,同时解决潜在的道德问题。
来源:Scientific Inquirer如果你想让一个人形机器人感觉“活着”,你不能只给它腿和手。你必须给它一张脸——不仅仅是一张脸,而是一张按照我们大脑预期的方式移动的脸。
这就是大多数机器人绊倒的地方。人们会原谅笨拙的步态或僵硬的挥手。但是,一张在错误时刻张开和闭合的嘴——一位研究人员在新研究中称之为“布偶嘴部动作”——会让机器人感到奇怪的死气沉沉,甚至令人不安。 “几乎是人类”和“社会可接受的”之间的差距通常被描述为恐怖谷。
本周,哥伦比亚工程公司的一个团队表示,他们已经突破了硅谷最顽固的瓶颈之一:学习的嘴唇动作。该团队没有对预先定义的嘴巴形状和计时规则库进行编程,而是构建了一个灵活的机器人脸,并训练它将语音音频直接映射到协调的嘴唇运动——足以用多种语言说出单词,甚至可以随着人工智能生成的专辑中的曲目“唱歌”,他们厚颜无耻地命名为“hello world_”。
这个技巧部分是硬件,部分是学习,还有部分是童年。
一张有“肌肉”的脸,而不仅仅是铰链
大多数机器人头部都是刚性外壳,带有一些活动部件:一个可下垂的下巴,也许还有几个用于眉毛的电机。人脸则相反:柔软的皮肤覆盖在许多小肌肉上,这些肌肉可以产生微妙的组合。
为了尝试逼真的唇形同步,哥伦比亚团队构建了一个带有柔软硅胶嘴唇的人形面部,由十个自由度机制驱动——基本上是十种独立的方式来塑造和移动嘴巴,而不是一个简单的开闭铰链。 (大学发布的完整面部被描述为总共有 26 个电机。)
机械丰富性很重要,因为语音不仅仅是“在大声的情况下更加开放”。嘴巴不断围绕音素(独特的语音)重塑自身,速度通常比我们有意识注意到的要快。当机器人用粗俗的规则来伪造它时,我们无论如何都会注意到。
