Through a combination of lectures, case stu dies , in teractive d isc ussions, and practi cal e xercises, th is program wil l empower pa rticipants to e ffectively lead and ad voca te for clima te adaptatio n and develop re sili ence in their resp ective fields and com munities.一起,我们可以解决c lima te cha nge的Challen ges,并为所有人提供了更加可观且具有弹性的未来。
交互式3D环境是对体现的AI代理进行培训和评估的关键,这使得对现实的大型3D数据集的可用性对于该地区未来的杂志至关重要。然而,现代的最先进的模拟数据库很少包含一百多个相互影响的场景[26] [19] [14],因为手动场景既耗时又耗时且昂贵。虽然已经努力从头开始生成模拟场景[5],但在这些环境中训练AI代理的结果并不令人满意[12],可能是因为这些解决方案使用过度简单的规则,导致了不现实的世代。同时,扫描真实环境构建的3D重建数据集可能包含数千个现实的场景[4] [42] [40],而缺乏交互所需的物理对象注释。在此项目中,我们引入了一个解决方案,该解决方案利用了在线可用于在两个阶段的程序生成的在线可用的Abun dant 3D重建数据。首先,我们使用接地的SAM [33],这是一个强大的开放式对象检测和半分割工具来分割和注释输入3D网格,并使用用户定义的对象类别。第二,我们使用剪辑[28]图像表示和上一步预测的类标签找到了每个检测到的对象的最近数据库对象(语义和方向上的类似)。此过程可用于将任何3D网格场景(重建或生成)转换为具有较高的环境,通过用丰富的注释数据库对象替换其原始网格顾问来通过重新流动。
由于 COVID-19 及其对其他全球问题的影响,对对话式 AI 的需求巨大。由于大量对话数据可供公众使用,传统的面向任务的机器人现已发展成为面向对话的聊天机器人。然而,我们进一步扩展了对话式 AI,其性能超越了开放式对话聊天机器人系统。我们创造了一个人际关系和互动虚拟人,它不仅可以交换文本数据,还可以接受音频和视频输入以创建类似人类的反应。在本文中,我们介绍了 SKYE,这是一种将音频和视频 AI 模块集成到对话式 AI 中的 AI 伴侣。这个 SKYE AI 人类头像还具有 3D 面部和身体,能够做出面部表情、嘴唇运动和身体姿势。
我们展示了一种将任何 k 个证明者非局部博弈编译成单证明者交互式博弈的通用方法,同时保持相同的(量子)完整性和(经典)健全性保证(安全参数中的加性因子最多可忽略不计)。我们的编译器使用任何满足辅助(量子)输入自然正确性的量子同态加密方案(Mahadev,FOCS 2018;Brakerski,CRYPTO 2018)。同态加密方案用作模拟空间分离效果的加密机制,并且需要对加密查询评估 k - 1 个证明者策略(选出 k 个)。结合从著名的 CHSH 博弈(Clauser、Horne、Shimonyi 和 Holt,Physical Review Letters 1969)开始的(纠缠)多证明者非局部博弈的丰富文献,我们的编译器为构建机制来经典地验证量子优势提供了一个广泛的框架。
我们探索将不受约束的自然语言反馈作为人工智能体的学习信号。人类使用丰富多样的语言来教学,但之前大多数关于语言交互式学习的研究都假设了一种特定的输入形式(例如命令)。我们提出了一个不做这种假设的通用框架,使用基于方面的情绪分析将反馈分解为对马尔可夫决策过程特征的情绪。然后,我们执行逆向强化学习的类似操作,将情绪回归到特征上以推断教师的潜在奖励函数。为了评估我们的方法,我们首先在一个合作任务中收集教学行为语料库,其中教师和学习者都是人类。我们实现了三个人工智能学习器:基于情绪的“文字”和“语用”模型,以及一个端到端训练的推理网络,以预测潜在奖励。然后,我们重复最初的实验,并将它们与人类教师配对。这三个人都成功地从交互式人类反馈中学习。情绪模型的表现优于推理网络,而“实用”模型的表现接近人类。因此,我们的工作提供了对自然语言反馈信息结构的洞察,以及利用它来进行强化学习的方法。
摘要。仿真现在在自主驾驶算法的发展中起着重要作用,因为它可以大大降低现实世界测试的环保成本和道德风险。但是,建立高质量的驾驶模拟器并不是微不足道的,因为它要求采取公路代理的现实性行为行为。最近,几个模拟器采用以数据驱动方式学习的交互式轨迹预测模型。尽管他们成功地生成了短期交互式场景,但在时间范围更长时,模拟器很快就会崩溃。我们确定了背后的原因:现有的交互式轨迹预测因子在递归喂养预测作为模型的输入时遭受室外(OOD)问题。为此,我们建议引入一个量身定制的模型预测控制(MPC)模块,以使最先进的交互式轨迹预测模型M2I,形成了一个名为M 2 SIM的新模拟器。值得注意的是,M 2 SIM可以通过执行弹性正规化来有效地解决长期模拟的OOD问题,该正规化可以接受重播数据,同时仍享受数据驱动的预测的多样性。我们使用定量结果和可视化来证明M 2 SIM的优势,并发布我们的数据,代码和模型:https://github.com/0nhc/m2sim。
人工智能 (AI) 在 1956 年达特茅斯会议上被历史性地定义为能够从周围环境收集信息并在其中采取有效行动的人工生命形式。1970 年,麻省理工学院的明斯基团队开发了一套机器人系统,称为“Copy Demo”,它可以观察“积木世界”场景并成功重建观察到的多面体块结构(Winston,1972 年)。该系统由观察、规划和操作模块组成,表明每个子问题都极具挑战性,需要进一步研究。因此,人工智能领域分裂成几个专门的子领域。虽然这些子领域已经独立取得了重大进展,但这种过度简化主义模糊了人工智能研究的总体目标。为了超越现状,迈向更为复杂的 AI,我们强调接受亚里士多德整体哲学的重要性,该哲学强调各部分之间的整合要大于各部分之和。大型语言模型 (LLM) 和视觉语言模型 (VLM) 的最新进展已显示出在开放世界环境中识别语言和图像的巨大潜力(OpenAI,2023 年)。例如,LLM 的高级语义处理已被用于将人类指令分解为机器人的高级任务(Wake 等人,2023c、d)。然而,这些现有的多模态基础模型,即使对于 GPT-4V(ision),在实现需要动作预测的细粒度操作方面仍然面临挑战。因此,提出了一种新的具身代理基础模型(Durante 等人,2024b),该模型集成了语言能力、视觉认知、上下文记忆和直觉推理,并能自适应地预测具身动作。这是第一项使用从机器人、游戏和医疗保健任务中收集的具身数据预训练基础模型以开发通用 AI 代理的研究。具身代理被概念化为一个交互式系统,它通过其感知能力与人类交流并与环境交互,采取符合人类意图的动作。这就是为什么我们认为大型具身基础模型的进步是对代理 AI 的重大贡献,使系统能够从各种领域信息、动作、自然语言指令和多模态上下文中解析和推断人类意图。此外,
人工智能(AI)在1956年的达特茅斯会议上被罚款,因为它可以从其环境中收集信息并在其中采取有效的行动。Minsky在MIT的小组在1970年开发了一个机器人系统,称为“复制演示”,观察到了“阻止世界”场景,并成功地重建了观察到的Polyhe-dral块结构(Winston,1972)。由观察,计划和操纵模块组成的系统表明,这些子问题中的每一个都是高度挑战性的,需要进一步研究。因此,AI领域碎片分为专门的子场。尽管这些子领域在依赖方面取得了重大进展,但这种过度还原主义模糊了AI研究的总体目标。要超越当前状态朝着更复杂的AI迈进,我们强调了拥抱Aris-Totle的整体哲学的重要性,这强调了综合量超过其各个部分的总和。大语言模型(LLM)和视觉语言模型(VLM)的最新进展在识别开放世界上下文中识别语言和图像的潜力很大(OpenAI,2023年)。为止,LLM的先进语义处理已被用来将人类的指导分解为机器人的高级任务(Wake等人,2023c,d)。但是,即使对于GPT-4V(ISION),这些现有的多模式基础模型仍然面临着需要采取行动预测的细粒度操作方面的挑战。此外,因此,提出了一种新的体现的代理基础模型(Durante等人,2024b),它可以使语言水平,视觉认知,文本记忆,直觉推理,并可以预测具有适应性的体现动作。这是第一项通过从机器人技术,游戏和医疗保健任务中收集的全体数据来验证开发通用AI代理的基础模型的第一项研究。一种体现的代理被概念化为一种与人类通信并通过其感知能力与环境交互的媒介系统,采用与人类意图保持一致的行动。这就是为什么我们将大型体现基础模型的进步作为对代理AI的重要贡献的原因,使系统能够从各种域信息,动作,自然语言指令和多模式环境中解析和推断人的意图。