摘要人类机器人合作(HRC)对于向新工业革命的持续过渡(行业4.0)来说是关键的,在该过渡中,机器人与人类合作伙伴一起工作以自动化重复性和身体上要求的任务,并在危险或极端工作环境中取代人类。同时,人工工作者监督和验证整个过程,通过利用其高级决策能力来做出关键决策。尽管如此,目前的HRC水平远远远远远远远远远远远远远远不超过人类的合作。从人类的角度来看,HRC的当前界面是不直观的,耗时的,并且缺乏智能。机器人了解人类工人的高级意图并做出适当的反应是一个挑战。此外,人类的专业知识,认知能力和决策能力尚未有效地转移到或使用机器人。当前的方法在处理复杂,多步骤任务的处理方面遇到了困难,并且需要大量的时间和数据,以使机器人能够向人类学习。为了解决这些问题并实现类似人类的机器人学习,张博士深入研究了一个多学科研究领域,该领域与包括机器人AI,计算机视觉(CV)和人类计算机相互作用(HCI)在内的多个领域相交。在这次演讲中,张博士将在三个方面介绍他的研究进展:1)扩展现实(XR)界面和新的范式,这些界面和新的范式可以使人与机器人之间的沟通和教学和学习与学习; 2)基于多模式的大型语言模型(MLLM)的交互式框架,用于恢复失败的长马操纵; 3)零射击,几乎没有射击和无监督的学习算法。
摘要 - 自治车辆(AVS)正在迅速前进,其中4级AVS已经在现实世界中运行。curland Avs仍然落后于人类驾驶员的适应性和表现,通常表现出过度保守的行为,偶尔违反交通法律。现有的解决方案(例如运行时执行)通过自动修复运行时的AV计划轨迹来减轻这种情况,但是这种方法缺乏透明度,应该是最后一个度假胜地的度量。,优先选择AV修复是概括超出特定事件并为用户解释的。在这项工作中,我们提出了Fix d Rive,该框架分析了违反违法行为或法律行为的驾驶记录,以产生AV驾驶策略维修,以减少再次发生此类事件的机会。这些维修是用µ驱动器捕获的,µ驱动器是一种高级域特异性语言,用于针对基于事件的触发器指定驾驶行为。为最先进的自主驾驶系统Apollo实施,Fi d rive识别和可视化驾驶记录中的关键时刻,然后使用零射门学习的多模式大语言模型(MLLM)来生成µ驱动程序。我们在各种基准方案上测试了F IX D Rive,并发现生成的维修改善了AV的性能,相对于以下交通法律,避免碰撞并成功到达目的地。此外,在实践中,修复AV(15分钟的离线分析和0.08美元)的直接成本在实践中是合理的。索引术语 - 自主车辆,自动驾驶系统,多模式大型语言模型,驾驶合规性
生成的AI已取得了显着的进步,以彻底改变图像和视频生成等领域。这些进步是由创新算法,体系结构和数据驱动的。然而,生成模型的快速扩散突出了一个关键的差距:缺乏值得信赖的评估指标。当前的自动评估,例如FID,剪辑,FVD等,通常无法捕获与生成输出相关的细微质量和用户满意度。本文提出了一个开放的平台g en-a rena,以评估不同的图像和视频生成模型,用户可以在其中积极参与评估这些模型。通过利用集体用户的反馈和投票,G en-A-A Rena旨在提供更民主和准确的模型绩效衡量。它分别涵盖了三个竞技场,分别用于文本形象生成,文本到视频生成和图像编辑。目前,我们总共涵盖了35个开源生成模型。g en-a-a rena已经运作了七个月,积累了社区的9000多票。我们描述了我们的平台,分析数据并解释用于对模型进行排名的统计方法。为了进一步促进基于建筑模型的评估指标的研究,我们发布了三个任务(即Genai-Bench)的偏好数据的清洁版本。我们促使现有的多模式模型,例如Gemini,GPT-4O,模仿人类投票。我们通过将投票的模型投票与人类投票来了解其惩罚能力来计算准确性。在这三个生成任务中有19%。我们的结果表明,现有的多模式模型仍在评估生成的视觉内容方面落后,即使是最佳型号GPT-4O也只能达到49的平均精度。开源MLLM的表现更糟,因为在复杂的视力方案中缺乏指导跟踪和推理能力。