摘要 - 为了充分利用移动操纵机器人的功能,必须在大型未探索的环境中自主执行的长途任务。虽然大型语言模型(LLMS)已显示出关于任意任务的紧急推理技能,但现有的工作主要集中在探索的环境上,通常集中于孤立的导航或操纵任务。在这项工作中,我们提出了MOMA-LLM,这是一种新颖的方法,该方法将语言模型基于从开放式摄影场景图中得出的结构化表示形式,随着环境的探索而动态更新。我们将这些表示与以对象为中心的动作空间紧密地交织在一起。重要的是,我们证明了MOMA-LLM在大型现实室内环境中新型语义交互式搜索任务中的有效性。最终的方法是零拍摄,开放式摄影库,并且可以易于扩展到一系列移动操作和家用机器人任务。通过模拟和现实世界中的广泛实验,与传统的基线和最新方法相比,我们证明了搜索效率的显着提高。我们在http://moma-llm.cs.uni-freiburg.de上公开提供代码。
摘要 - 机器人增强学习(RL)的实际数据的高成本导致模拟器的广泛使用。尽管在建立更好的动态模型方面为模拟器与现实世界匹配,但在模拟与现实世界之间存在另一个经常被忽视的不匹配,即可用培训任务的分布。现有的课程学习技术进一步加剧了这种不匹配,从而在不考虑其与现实世界的相关性的情况下自动改变了模拟任务分布。考虑到这些挑战,我们认为机器人的课程学习需要基于现实世界的任务分布。为此,我们提出了扎根的课程学习(GCL),该课程将课程中的模拟任务分布与现实世界保持一致,并明确考虑了对机器人的任务以及机器人过去的执行方式。我们使用谷仓数据集在复杂的导航任务上验证GCL,与州专家设计的状态CL方法和一项课程相比,成功率高6.8%和6.5%。这些结果表明,GCL可以通过接地自适应课程中现实世界中的模拟任务分布来提高学习效率和导航性能。
摘要。我们提出了一种新颖的图像到视频生成方法,该方法将转换单个图像和输入条件(例如,将力和扭矩应用于图像中的对象),以产生一种现实,物理上合理的和时间一致的视频。我们的关键见解是将基于模型的物理仿真与数据驱动的视频通用过程集成,从而实现了合理的图像空间动力学。我们系统的核心是三个核心组成部分:(i)有效捕获图像的几何形状,材料和物理参数的图像理解模块; (ii)使用刚体物理和推断参数来模拟实体行为的图像空间动力学模拟模型; (iii)基于图像的渲染和完善模块,利用生成视频扩散来产生具有模拟运动的逼真的视频镜头。由此产生的视频在物理和外观上都是实现的,甚至是可控制的,从而通过定量比较和全面的用户研究来表现出优于现有数据驱动的图像到视频的效果。Physgen的结果视频可用于各种下游
摘要 — 机器人强化学习 (RL) 的真实世界数据成本高昂,导致了模拟器的广泛使用。尽管人们为构建更好的模拟器动力学模型以匹配现实世界进行了大量工作,但模拟和现实世界之间还有另一个经常被忽视的不匹配,即可用训练任务的分布。现有的课程学习技术进一步加剧了这种不匹配,这些技术会自动改变模拟任务分布,而不考虑其与现实世界的相关性。考虑到这些挑战,我们认为机器人 RL 的课程学习需要以现实世界的任务分布为基础。为此,我们提出了基于课程的学习 (GCL),它将课程中的模拟任务分布与现实世界相结合,并明确考虑赋予机器人的任务以及机器人过去的表现。我们使用 BARN 数据集在复杂的导航任务上验证了 GCL,与最先进的 CL 方法和人类专家设计的课程相比,成功率分别提高了 6.8% 和 6.5%。这些结果表明,GCL 可以通过在自适应课程中将模拟任务分布与现实世界相结合,从而提高学习效率和导航性能。
Lexis+ AI 提供安全的生成式 AI 工具,为律师提高效率、效力和可靠的结果 加拿大多伦多 – 2024 年 1 月 11 日 – 全球领先的信息和分析提供商 LexisNexis ® Legal & Professional 今天宣布推出 Lexis+ AI™ 的加拿大和英国商业预览版,这是一款旨在改变法律工作的生成式 AI 解决方案。Lexis+ AI 以我们大量准确且独家的加拿大法律内容和用例库为基础,将生成式 AI 的强大功能与专有的 LexisNexis 搜索技术相结合,可无缝浏览英语和法语法律内容。结果始终有可验证、可引用的权威支持。继 2023 年成功进行商业预览后,Lexis+ AI 现已在美国全面上市。Lexis+ AI 技术具有对话式搜索、深刻总结、智能法律起草和文档上传功能,所有这些都由最先进的加密和隐私技术提供支持,以确保敏感数据的安全。对话式搜索简化了复杂且耗时的法律研究流程,为各种法律查询提供了用户友好的搜索体验,并附带引文。这使律师能够有效、高效地开展研究。增强型摘要功能提供法律文件的自定义摘要,加快和指导深入分析。生成式文档起草功能可指导客户完成整个法律起草过程,并根据用户提示自动生成初稿。这一创新功能允许用户轻松修改语言和语气以满足他们的需求。此外,文档上传功能允许快速分析、摘要和提取法律文件中的关键见解。LexisNexis Legal & Professional Canada 首席执行官 Eric Wright 表示:“我们很高兴将这项变革性技术带给客户。Lexis+ AI 解决方案为加拿大律师提供了首创的工具,他们可以利用我们丰富、高质量的内容,大幅提高执业和业务的速度、质量和效率。” Lexis+ AI 产品专为加拿大法律专业人士量身定制,将支持英语和法语交互,让全国各地的用户能够访问唯一一部最新的国家法律百科全书《哈斯伯里法典》®、加拿大唯一的法国民法百科全书《Juris Classeur ®》以及独特的英文和法文评论、诉状、动议和 Facta 法庭文件和实用指南。LexisNexis Legal & Professional 英国和 CEMEA LNNA 首席技术官 Philippe Poignant 表示:“LexisNexis 在使用人工智能技术方面拥有丰富的第一手经验,包括直接与主要的 LLM 创建者和值得信赖的云提供商合作,以开发更快、更准确、更透明和安全的生成式 AI 解决方案。”“作为法律人工智能和分析领域的领导者,我们最有能力提供这些先进技术,以加速客户的成功。” LexisNexis 正在负责任地开发法律人工智能解决方案,并由人工监督。作为 RELX 的一部分,LexisNexis 遵循 RELX 负责任的人工智能原则,考虑其解决方案对人们的实际影响,并采取行动防止产生或强化不公平的偏见。该公司对法律行业数据安全和隐私的承诺已超过 50 年。LexisNexis 雇佣了 2,000 多名技术专家、数据科学家和主题专家来开发、测试和验证其解决方案并提供全面、准确的信息。与此同时,LexisNexis Canada 宣布了其 Lexis+ AI Insider 计划,该计划面向全国的法律专业人士开放。该计划旨在通过生成性人工智能教育和 LexisNexis Canada 关于最新人工智能发展的突发新闻来支持法律行业。内部人士可以注册
对自主驾驶系统(AD)的测试是一项至关重要的,既定的任务,需要不同的方法来确保在各种驾驶场景中系统的安全性和可靠性。目前,缺乏对测试此类系统的行业实践以及相关挑战的了解。为此,我们对以前的探索性研究进行了二次分析,在那里我们采访了来自Sween的7家广告公司的13位专家。我们探讨了行业中的测试实践和挑战,特别关注基于方案的测试,因为它被广泛用于研究广告。通过访谈的详细分析和合成,我们确定了测试广告的关键实践和挑战。我们的分析表明,行业实践主要涉及各种类型的测试方法,测试原理,测试场景的选择和识别,测试分析以及相关标准和工具以及一些一般计划。挑战主要包括不同公司使用的概念和方法的差异,以及缺乏全面的标准,法规和有效的工具,方法和方法以及用于最佳测试的技术。为了解决这些问题,我们提出了一种“ 3CO”策略(结合,合作,继续学习和开放),作为行业和学术界的集体途径,以改善广告的测试框架。
摘要本文探讨了人类机器人相互作用(HRI)内的交互式基础语言理解(IGLU)挑战。在此设置中,机器人解释了与其环境相关的用户命令,旨在辨别是否可以执行特定命令。如果面对歧义或不完整的数据,机器人提出了相关的澄清问题。从2022年IGLU竞争中汲取灵感,我们通过在MM-iglu中引入我们的多模式数据和自然语言描述来丰富数据集:多模式互动式的基础语言理解。利用基于BART的模型将用户的语句与环境的描述集成在一起,以及合并视觉和文本数据的尖端多模式大型语言模型,我们为域上正在进行的研究提供了宝贵的资源。此外,我们讨论了此类任务的评估方法,强调了传统的基于弦匹配的评估对此复杂的多模式挑战所施加的潜在局限性。此外,我们根据人类判断提供了评估基准,以解决此类基线模型的限制和能力。此资源在https://github.com/crux82/mm-iglu上的专用GitHub存储库中发布。
训练大型语言模型(LLM)遵循用户说明,已显示出具有足够能力在与人类对齐时能够流利的能力的LLM。然而,尚不完全清楚LLM如何在混合主动性设置中引导计划的对话,其中指令以对话的两个方向流动,即LLM和用户都提供指令。在本文中,我们解决了双重目标混合定位对话环境,其中LLM不仅在任意计划上以对话为基础,而且还试图满足程序计划和用户说明。LLM然后负责指导用户完成计划,同时适应新情况,回答问题并在需要时激活安全护栏。我们提出了一个新颖的LLM,该LLM以程序计划为基础,可以采取Di-Alogue倡议,并对系统的行为执行护栏,同时也改善了LLM对意外用户行为的响应。在受控设置中进行的实验,并且使用真实用户表明,我们称之为Planllm的表现最佳模型在强大的基准上实现了2.1倍的进步。此外,实验还显示出对看不见的域的良好概括。1
摘要 - 机器人视觉应用通常需要广泛的视觉感知任务,例如对象检测,分割和识别。尽管这些单独的任务已经取得了重大进展,但将规定的模型整合到统一的视觉管道中带来了重大的工程挑战和成本。最近,多模式大语言模型(MLLM)已成为各种下游任务的新型骨干。我们认为,利用MLLM的预训练能力可以创建简化的框架,从而减轻对特定于任务的编码器的需求。具体来说,MLLM中的大规模预认证的知识可以更轻松地对下游机器人视觉任务进行微调,并产生出色的性能。我们介绍了配备BEIT-3骨干的Robollm框架,以解决Armbench Challenge中的所有视觉感知任务,这是一个大规模的机器人操纵数据集,涉及有关Real-World Warehouse场景的大规模机器人操作数据集。Robollm不仅胜过现有的基线,而且还大大减轻了与模型选择和调整相关的工程负担。本文中使用的所有代码都可以在https://github.com/longkukuhi/armbench中找到。