摘要。依赖一种具有单一交互模式的技术可能会使一些用户受益,但如果他们不愿意使用该模式,肯定会排除更多用户。解决方案就是在交互系统的初始设计中包含多种模式,使其更能适应更多用户的需求。包括多种模式可以迅速增加需要接收用户命令流的交互对象的数量。如果用户需要在家庭自动化环境中与多个工件交互,则尤其如此。在本文中,我们介绍了正在进行的多模式家庭自动化系统项目的总体架构。该系统依赖于一个名为 Firebase 的基于 Web 的数据库来交换用户输入并向多个工件发出命令。用户输入是使用智能手机和配备网络摄像头的计算机获取的。它们捕捉用户的触觉输入、语音短语、眼神注视以及头部姿势特征,如倾斜和面部方向。我们能够在数据库和不同的输入采集接口之间实现可靠的数据传输。作为系统原型设计的第一步,我们能够控制使用 Unity3D 软件开发的两个独立游戏界面。
智能及相关学科。我们的研究涉及语言、逻辑和认知界面上“扎根表征”介导的人类行为多模态意义建构的理论、方法和应用理解 [ 1 ]。在这里,通过将知识表示和推理与视觉计算相结合的系统神经符号机制,声明性地介导扎根推理以实现协作自主具有特殊意义。预期的功能目的涵盖各种操作需求,例如可解释的多模态常识理解、用于通信和总结的多模态生成/合成、多模态解释引导的决策支持、多模态行为适应和自主以及多模态分析可视化。为实现这些操作需求而开发的方法和工具也必须与领域无关,并且它们既能满足在线/实时操作,也能满足不同应用场景中的事后操作(例如,参考 [ 2 ] 中在线神经符号绑架应用于自动驾驶领域的案例)。