现实生活中的机器人借助 AI 学会了口型同步 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

现实生活中的机器人借助 AI 学会了口型同步

2026年1月16日 17:59 33 Comments

哥伦比亚工程公司开发了一种灵活的机器人面部，可以学习嘴唇运动以实现逼真的语音同步，提高人形机器人的社交互动能力，同时解决潜在的道德问题。

来源:Scientific Inquirer

如果你想让一个人形机器人感觉“活着”，你不能只给它腿和手。你必须给它一张脸——不仅仅是一张脸，而是一张按照我们大脑预期的方式移动的脸。

这就是大多数机器人绊倒的地方。人们会原谅笨拙的步态或僵硬的挥手。但是，一张在错误时刻张开和闭合的嘴——一位研究人员在新研究中称之为“布偶嘴部动作”——会让机器人感到奇怪的死气沉沉，甚至令人不安。 “几乎是人类”和“社会可接受的”之间的差距通常被描述为恐怖谷。

本周，哥伦比亚工程公司的一个团队表示，他们已经突破了硅谷最顽固的瓶颈之一：学习的嘴唇动作。该团队没有对预先定义的嘴巴形状和计时规则库进行编程，而是构建了一个灵活的机器人脸，并训练它将语音音频直接映射到协调的嘴唇运动——足以用多种语言说出单词，甚至可以随着人工智能生成的专辑中的曲目“唱歌”，他们厚颜无耻地命名为“hello world_”。

这个技巧部分是硬件，部分是学习，还有部分是童年。

一张有“肌肉”的脸，而不仅仅是铰链

大多数机器人头部都是刚性外壳，带有一些活动部件：一个可下垂的下巴，也许还有几个用于眉毛的电机。人脸则相反：柔软的皮肤覆盖在许多小肌肉上，这些肌肉可以产生微妙的组合。

为了尝试逼真的唇形同步，哥伦比亚团队构建了一个带有柔软硅胶嘴唇的人形面部，由十个自由度机制驱动——基本上是十种独立的方式来塑造和移动嘴巴，而不是一个简单的开闭铰链。（大学发布的完整面部被描述为总共有 26 个电机。）

机械丰富性很重要，因为语音不仅仅是“在大声的情况下更加开放”。嘴巴不断围绕音素（独特的语音）重塑自身，速度通常比我们有意识注意到的要快。当机器人用粗俗的规则来伪造它时，我们无论如何都会注意到。

首先，机器人“发现”自己的脸

尾注

闭合的活动部件嘴唇接受的独立的独特的一张人工智能自由度电机注意到下垂的团队铰链规则预期的柔软的语音不仅仅灵活的协调的自己的笨拙的学习的还有发布的肌肉研究人员专辑部分移动的嘴巴可接受的基本上机器人简单的