模态交互

2025年2月5日机构名称:

基于Firebase Real-Time的多模态交互框架...

摘要。依赖一种具有单一交互模式的技术可能会使一些用户受益，但如果他们不愿意使用该模式，肯定会排除更多用户。解决方案就是在交互系统的初始设计中包含多种模式，使其更能适应更多用户的需求。包括多种模式可以迅速增加需要接收用户命令流的交互对象的数量。如果用户需要在家庭自动化环境中与多个工件交互，则尤其如此。在本文中，我们介绍了正在进行的多模式家庭自动化系统项目的总体架构。该系统依赖于一个名为 Firebase 的基于 Web 的数据库来交换用户输入并向多个工件发出命令。用户输入是使用智能手机和配备网络摄像头的计算机获取的。它们捕捉用户的触觉输入、语音短语、眼神注视以及头部姿势特征，如倾斜和面部方向。我们能够在数据库和不同的输入采集接口之间实现可靠的数据传输。作为系统原型设计的第一步，我们能够控制使用 Unity3D 软件开发的两个独立游戏界面。

查看详细

File

2022年6月11日机构名称:

落地多模态交互

智能及相关学科。我们的研究涉及语言、逻辑和认知界面上“扎根表征”介导的人类行为多模态意义建构的理论、方法和应用理解 [ 1 ]。在这里，通过将知识表示和推理与视觉计算相结合的系统神经符号机制，声明性地介导扎根推理以实现协作自主具有特殊意义。预期的功能目的涵盖各种操作需求，例如可解释的多模态常识理解、用于通信和总结的多模态生成/合成、多模态解释引导的决策支持、多模态行为适应和自主以及多模态分析可视化。为实现这些操作需求而开发的方法和工具也必须与领域无关，并且它们既能满足在线/实时操作，也能满足不同应用场景中的事后操作（例如，参考 [ 2 ] 中在线神经符号绑架应用于自动驾驶领域的案例）。

查看详细

XiaoMi-AI文件搜索系统

模态交互

基于Firebase Real-Time的多模态交互框架...

落地多模态交互

按机构统计排名前十媒体

按照发布年份统计数据

XiaoMi-AI