对口型机器人看着你的脸,像你一样说话

当谈到超人般的《西部世界》风格的机器人时,它们最具标志性的特征之一就是嘴唇的移动与所说的话完美同步。一个新的机器人不仅具有该功能,而且实际上可以训练自己像人一样说话。继续阅读类别:机器人、技术标签:哥伦比亚大学、人工智能、语音、面部

来源:New Atlas | robotics

当谈到超人般的《西部世界》风格的机器人时,它们最具标志性的特征之一就是嘴唇的移动与所说的话完美同步。新型机器人不仅具有该功能,而且实际上可以训练自己像人一样说话。

由哥伦比亚大学机器人学博士生 Yuhang Hu、Hod Lipson 教授及其同事开发的 EMO“机器人”实际上是一个机器人头部,其灵活的硅胶面部皮肤下方有 26 个微型电机。当这些电机以不同的组合激活时,面部就会呈现出不同的表情,嘴唇也会形成不同的形状。

科学家们首先将 EMO 放在镜子前,它能够观察自己随机做出数千个随机面部表情。这样做可以让它了解哪些运动激活组合会产生哪些视觉面部运动。这种类型的学习就是所谓的“愿景到行动”(VLA)语言模型。

接下来,机器人观看了许多小时的人们说话和唱歌的 YouTube 视频,以便了解哪些嘴巴动作伴随着哪些声音。随后,它的人工智能系统能够将这些知识与通过 VLA 模型学到的知识融合起来,使其能够形成与通过合成语音模块所说的单词相对应的嘴唇动作。

机器人学习口型同步

这项技术仍然不完美,因为 EMO 很难处理“B”和“W”等声音。然而,随着它更多地练习说话,以及与人类进行自然对话的能力,这种情况应该会改变。

“当口型同步能力与 ChatGPT 或 Gemini 等对话式人工智能相结合时,这种效果为机器人与人类之间的联系增添了全新的深度,”胡说。 “机器人观察人类交谈的次数越多,它就越能模仿我们可以在情感上产生联系的细微面部手势。对话的上下文窗口越长,这些手势就会变得对上下文越敏感。”