对口型机器人看着你的脸，像你一样说话 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

对口型机器人看着你的脸，像你一样说话

2026年1月16日 19:01 33 Comments

当谈到超人般的《西部世界》风格的机器人时，它们最具标志性的特征之一就是嘴唇的移动与所说的话完美同步。一个新的机器人不仅具有该功能，而且实际上可以训练自己像人一样说话。继续阅读类别：机器人、技术标签：哥伦比亚大学、人工智能、语音、面部

来源:New Atlas | robotics

当谈到超人般的《西部世界》风格的机器人时，它们最具标志性的特征之一就是嘴唇的移动与所说的话完美同步。新型机器人不仅具有该功能，而且实际上可以训练自己像人一样说话。

由哥伦比亚大学机器人学博士生 Yuhang Hu、Hod Lipson 教授及其同事开发的 EMO“机器人”实际上是一个机器人头部，其灵活的硅胶面部皮肤下方有 26 个微型电机。当这些电机以不同的组合激活时，面部就会呈现出不同的表情，嘴唇也会形成不同的形状。

科学家们首先将 EMO 放在镜子前，它能够观察自己随机做出数千个随机面部表情。这样做可以让它了解哪些运动激活组合会产生哪些视觉面部运动。这种类型的学习就是所谓的“愿景到行动”（VLA）语言模型。

接下来，机器人观看了许多小时的人们说话和唱歌的 YouTube 视频，以便了解哪些嘴巴动作伴随着哪些声音。随后，它的人工智能系统能够将这些知识与通过 VLA 模型学到的知识融合起来，使其能够形成与通过合成语音模块所说的单词相对应的嘴唇动作。

机器人学习口型同步

这项技术仍然不完美，因为 EMO 很难处理“B”和“W”等声音。然而，随着它更多地练习说话，以及与人类进行自然对话的能力，这种情况应该会改变。

“当口型同步能力与 ChatGPT 或 Gemini 等对话式人工智能相结合时，这种效果为机器人与人类之间的联系增添了全新的深度，”胡说。 “机器人观察人类交谈的次数越多，它就越能模仿我们可以在情感上产生联系的细微面部手势。对话的上下文窗口越长，这些手势就会变得对上下文越敏感。”

灵活的实际上对应的人类了解机器人人工智能 EMO 科学家面部联系的对话的 VLA 能够产生全新的不完美口型同步说话运动动作形成不同的嘴唇上下文