我们旨在评估大型语言模型(LLMS)进行具体的决策。尽管大量的工作一直在利用LLM在体现的环境中进行决策,但我们仍然缺乏对其性能的系统性理解,因为它们通常用于不同的域,用于不同的目的,并基于不同的输入和输出。此外,现有的评估倾向于仅依赖最终的成功率,因此很难确定LLM中缺少什么能力以及问题所在的地方,进而有效地和选择性地利用LLMS的药物。为了解决这些限制,我们提出了一个广义接口(e Mboded a gent i nterface),该界面支持基于LLM的模块的各种任务和输入输出规格的形式化。Specifically, it allows us to unify 1) a broad set of em- bodied decision-making tasks involving both state and temporally extended goals, 2) four commonly-used LLM-based modules for decision making: goal interpre- tation, subgoal decomposition, action sequencing, and transition modeling, and 3) a collection of fine-grained metrics that break down evaluation into error types, such as hallucination errors, affordance errors, and various计划错误的类型。总体而言,我们的基准对LLMS在不同子任务中的性能进行了全面评估,从而指出了LLM驱动的体现体现的AI系统的优势和劣势,并提供了对LLM在体现决策中的有效和选择性使用的见解。
摘要 大约 97% 的欧盟建筑存量不被认为是节能的,其中 75–85% 将在 2050 年仍在使用(Artola 等人,促进建筑改造:对欧洲有何潜力和价值?2016 年)。住宅建筑约占欧洲建筑最终能源消耗的三分之二。新建筑取代旧建筑或扩大总建筑存量的速度约为每年 1%。同样,目前欧盟现有建筑的翻新率约为每年翻新建筑存量的 1-2%。建筑层面的翻新策略需要从建筑节能升级和使用可再生能源来实现区域或城市规模的能源供应脱碳相结合的方式中衍生出来。 IEA EBC 附件 75 子任务 D2 侧重于在区域层面推广结合能源效率和可再生能源系统的成本效益型建筑改造,重点关注可以实现实施的商业模式。本文旨在概述可以针对不同类型的利益相关者来支持区域需求和/或节能建筑改造和/或可再生能源解决方案供应发展的商业模式原型。它以现有文献为基础,深入了解当前的分布式能源商业模式格局。此外,还确定了实施策略,重点是全面评估场地的预期能源和二氧化碳性能以及优化的基础设施投资路径。
环境:环境保护不仅是法律,也是正确做法。这是一个持续的过程,从深思熟虑的规划开始。在训练和任务期间,始终注意保护环境的方法。这样做,您将为维持我们的训练资源做出贡献,同时保护人民和环境免受有害影响。请参阅当前的环境考虑手册和当前的 GTA 环境相关风险评估卡。确保清理泄漏,并按照单位政策、程序和适用环境法的要求进行报告。安全:在训练环境中,领导者必须根据当前的风险管理原则进行风险评估。领导者将根据 TRADOC 安全官在规划和完成每项任务和子任务时完成当前的深思熟虑风险评估工作表,评估任务、敌人、地形和天气、部队和支援可用时间以及民事考虑因素 (METT-TC)。注意:在 MOPP 训练期间,领导者必须确保监控人员是否可能受到热伤害。在高温等级增加时,必须遵守当地政策和程序,以避免与高温相关的伤害。考虑 MOPP 工作/休息周期和水更换指南 IAW 当前 CBRN 原则。应用风险管理计划,验证是否维护了适用的安全数据表 (SDS),检查是否佩戴和维护了适当的个人防护设备 (PPE)。
环境:环境保护不仅是法律,也是正确做法。这是一个持续的过程,始于深思熟虑的规划。在训练和任务期间,始终注意保护环境的方法。这样做,您将为维持我们的训练资源做出贡献,同时保护人民和环境免受有害影响。请参阅当前的环境考虑手册和当前的 GTA 环境相关风险评估卡。环境保护是一个持续的过程。始终注意保护环境和减少浪费的方法。安全:在训练环境中,领导者必须根据当前的风险管理原则进行风险评估。领导者将根据 TRADOC 安全官在规划和完成每项任务和子任务时完成当前的深思熟虑风险评估工作表,评估任务、敌人、地形和天气、部队和支援可用时间以及民事考虑因素 (METT-TC)。注意:在 MOPP 训练期间,领导者必须确保监控人员是否可能受到热伤害。在高温等级增加时,必须遵守当地政策和程序,以避免与高温相关的伤害。考虑 MOPP 工作/休息周期和水更换指南 IAW 当前 CBRN 原则。每个人都对安全负责。每次任务或行动前都必须完成全面的风险评估。
人机协作 (HRC) 引起了研究人员和工程师的浓厚兴趣,因为它可以提高操作的灵活性和效率,从而实现大规模个性化。然而,现有的 HRC 开发主要以人为本或以机器人为中心,按照预先定义的指令进行操作,远未实现机器人自动化和人类认知的有效结合。认知计算、工业物联网和机器人学习的人机层面信息处理的主流研究为弥合现场操作员、机器人和其他制造系统之间的知识提炼和信息共享之间的差距创造了可能性。因此,一种可预见的基于信息学的认知制造范式——主动 HRC,被引入作为共生 HRC 的一种高级形式,其高水平的认知团队合作技能将逐步实现,包括:1)协作认知,在对人类和机器人情况的整体理解的基础上,在执行循环中建立双向同理心; 2)时空协作预测,估计人机对象在分层子任务/活动中的交互情况,以便进行主动规划;3)自组织团队合作,聚合分布式 HRC 系统的知识,进行自组织学习和任务分配。除了描述它们的技术核心外,还进一步讨论了主要挑战和潜在机会,以便为实现主动 HRC 做好准备。
环境:环境保护不仅是法律,也是正确做法。这是一个持续的过程,始于深思熟虑的规划。在训练和任务期间,始终注意保护环境的方法。这样做,您将为维持我们的训练资源做出贡献,同时保护人民和环境免受有害影响。请参阅当前的环境考虑手册和当前的 GTA 环境相关风险评估卡。环境保护是一个持续的过程。始终注意保护环境和减少浪费的方法。安全:在训练环境中,领导者必须根据当前的风险管理原则进行风险评估。领导者将根据 TRADOC 安全官在规划和完成每项任务和子任务时完成当前的深思熟虑风险评估工作表,评估任务、敌人、地形和天气、部队和支援可用时间以及民事考虑因素 (METT-TC)。注意:在 MOPP 训练期间,领导者必须确保监控人员是否可能受到热伤害。在高温等级增加时,必须遵守当地政策和程序,以避免与高温相关的伤害。考虑 MOPP 工作/休息周期和水更换指南 IAW 当前 CBRN 原则。每个人都对安全负责。每次任务或行动前都必须完成全面的风险评估。
摘要:涉及多个不同物体的长马操纵任务对模仿学习提出了挑战,结果策略表现出较差的效率,概括和模块化。这些限制的核心是使用图像和绝对坐标系捕获世界状态。没有广泛的演示数据集,这些表示形式将策略限制为在封闭的空间位置,类别内实例甚至任务变化上操作。在本文中,我们提出了一种使用以负担性为中心的坐标框架来解决这些Challenges的方法。通过适当地重新定位此框架并使用此相对坐标系培训基于州的政策,我们证明我们不仅可以学习高度样本效果的操纵行为,而且可以推广到广泛的空间和类别内的范围。更重要的是,我们表明,这种表示使我们能够学习可以无缝组成的独立子验证,以解决复杂的,长的,多对象的任务,并具有对新任务变化的组成概括的模块化。我们在现实世界中涉及5个不同对象,13个类别内对象变化和7个不同的子任务的实际茶服务任务上进行了广泛的验证,这些方法表现出了广泛的空间变化,证明了我们解决整个长途任务的能力,仅需10个演示。视频演示和代码将在polition-decomposition.github.io上找到。
大型语言模型(LLM)纳入医疗应用中,从药物发现和开发到临床决策支持,协助远程医疗,医疗设备和医疗保健保险应用,都引起了整个医疗保健行业的广泛关注。此观点论文旨在讨论建立LLM驱动的医疗AI应用程序的内部运作,并为其开发引入全面的框架。我们回顾了现有文献,并概述了在专业医学环境中应用LLM的独特挑战。此外,我们引入了一个三步框架来组织医疗LLM研究活动:1)建模:将综合医疗工作流程分解为开发医学特定模型的可管理步骤; 2)优化:通过精心设计的提示和集成外部知识和工具来优化模型性能,3)系统工程:将复杂的任务分解为子任务,并利用人类专业知识来构建医疗AI应用程序。更重要的是,我们提供了一本详细的用例剧本,描述了各种LLM供电的医疗AI应用程序,例如优化临床试验设计,增强临床决策和推进医学成像分析。最后,我们讨论了使用LLM构建医疗AI应用的各种挑战和考虑因素,例如处理幻觉问题,数据所有权和合规性,隐私,知识产权考虑,计算成本,可持续性问题和负责任的AI要求。
驾驶是一项复杂的任务,需要同时调动多种认知资源。然而,目前还缺乏研究在双任务处理中不同驾驶子任务在大脑层面的相互作用。本研究调查了与驾驶难度增加相关的视觉空间注意力需求如何与大脑层面的不同工作记忆负荷 (WML) 水平相互作用。使用多通道全头高密度功能近红外光谱 (fNIRS) 大脑激活测量,我们旨在预测驾驶难度水平,既针对每个 WML 水平进行单独预测,也使用组合模型进行预测。参与者在虚拟现实驾驶模拟器中在有并发交通的高速公路上驾驶了大约 60 分钟。在一半的时间里,路线穿过一个车道宽度较窄的建筑工地,增加了视觉空间注意力需求。同时,参与者执行了 n-back 任务的修改版本,其中有五个不同的 WML 级别(从 0-back 到 4-back),迫使他们不断更新、记忆和回忆前几个“n”速度符号的序列,并相应地调整速度。使用多元逻辑岭回归,我们能够在 15 名参与者的 75.0% 信号样本(1.955 Hz 采样率)中正确预测驾驶难度,在对每个 WML 级别分别在 fNIRS 数据上训练的分类器的样本外交叉验证中。WML 级别对驾驶难度预测有显著影响
大型语言模型(LLMS)已经证明了需要解决任务计划和使用外部工具(例如天气和计算器API)组合的任务的熟练程度。但是,现实世界中的复杂系统提出了有关任务计划和工具使用情况的三个普遍的挑战:(1)实际系统通常具有许多API,因此将所有API的描述以LLMS的提示馈送是不切实际的,因为代币长度有限; (2)实际系统是为处理复杂任务而设计的,基本LLM几乎无法为此类任务计划正确的子任务订单和API呼叫顺序; (3)实际系统中API之间的类似语义和功能在区分它们时都为LLM甚至人类都带来了挑战。回应,本文介绍了一个旨在增强现实世界中LLM代理的任务计划和工具使用(TPTU)功能的综合框架。我们的框架包括三个旨在应对这些挑战的关键组件:(1)API猎犬在广泛的API集合中选择最相关的API; (2)LLM FineTuner对基本LLM进行调整,以增强其在任务计划和API调用方面的能力; (3)演示选择器检索与难以区分的API相关的演示,该演示进一步用于秘密学习以提高最终性能。我们使用现实世界中的行业系统和开源的学术数据集验证我们的方法,证明了每个组件以及集成框架的功效。