大型语言模型 (LLM) 已显示出作为评估 AI 系统生成的答案质量的自动评估器的前景。然而,基于 LLM 的评估器在用于评估成对比较中的候选答案时表现出位置偏差或不一致性,无论内容如何,都会偏向第一个或第二个答案。为了解决这个限制,我们提出了 P ORTIA,这是一个基于对齐的系统,旨在模仿人类的比较策略,以轻量级但有效的方式校准位置偏差。具体来说,P ORTIA 将答案分成多个部分,同时考虑长度和语义,然后将它们合并回单个提示以供 LLM 评估。对 6 个 LLM 对 11,520 个答案对进行的大量实验表明,P ORTIA 显着提高了所有模型和比较形式的一致性率,平均相对提高 47.46%。它还使 P ORTIA 增强型 GPT-3.5 能够实现与 GPT-4 相当的与人类的一致率,并将 GPT-4 的一致率提高到 98%。后续的人工评估表明,P ORTIA 增强型 GPT-3.5 模型在与人类评估者的一致性方面甚至可以超越独立的 GPT-4,凸显了 P ORTIA 纠正立场偏见、提高 LLM 一致性和提高性能的同时保持成本效率的能力。
a) 防御者公司将比探矿者、分析者和反应者公司更加强调运营/财务指标。b) 探矿者公司将比防御者、分析者和反应者公司更加强调关系指标。c) 分析者公司将比探矿者和反应者公司更加强调运营/财务指标。d) 反应者公司将比防御者、探矿者和分析者公司更少强调运营/财务和关系指标。
围绕战略目标开展改进活动 我们知道,如果没有一线员工的精力和热情,改进就不会发生。然而,我们知道,如果要在系统层面获得最大利益,这些精力需要与组织的愿景和战略目标保持一致,并在适当的情况下与更广泛的社区的愿景和战略目标保持一致。
采购主管应提升团队的技能,以提高团队绩效,并重新培训团队以摆脱旧习惯。许多采购风险管理解决方案严重依赖深入分析。团队应该熟练使用现代数字技术来创建更准确的预测和基于场景的定价模型,同时提高采购透明度以增加现金流。
• 作为传感器网络的一部分,传感器可以实现态势理解 • 态势理解可以传递给规划和控制(任务规划)系统 • 可以为巡航导弹提供规划和控制并执行应急管理 • 当巡航导弹发动攻击时,应急管理可以为系统适应提供反馈 • 联网传感器为规划和控制提供更新的反馈以及巡航导弹反馈,从而实现系统适应
本研究考察了 AI 和 SE 的跨学科性,以找到将它们结合起来的方法,从而促进 AI-SE 跨学科理论的发展。使用了文献综述和分析方法。研究发现,AI 和 SE 的跨学科性与它们内部和之间的孤岛是一致的,可以通过编纂、内部发展和外部借鉴和调整跨学科理论来加速它们的跨学科取向。缺乏理论被认为是阻碍这两个学科成熟为工程学科的主要障碍。创建 AI 和 SE 跨学科理论将有助于 AI 和 SE 工程学科的成熟。这项研究的意义在于跨学科理论可以支持模式 2 和 3 AI 和 SE 创新;为这两个学科成熟为工程学科提供另一种选择。研究的原创性首先在于 SE、AI 或它们的交叉点。
在不断变化的世界中,我们如何监管不断变化的技术及其用途?本章认为,虽然现有的(国际)国家人工智能治理方法很重要,但它们往往是孤立的。以技术为中心的方法侧重于单个人工智能应用;以法律为中心的方法强调人工智能对现有法律领域或学说的影响。本章认为,为了培育一个更系统、更实用、更有效的人工智能监管生态系统,政策参与者应该用监管视角来补充这些方法,强调人工智能应用如何、何时以及为何实现“社会技术变革”模式。借鉴新兴“技术法”领域的理论,本文探讨了这种视角如何为人工智能监管提供明智、更细致入微、更可操作的观点。关注社会技术变革有助于分析人工智能应用何时以及为何确实为新监管创造了有意义的理由,以及如何最好地将它们作为监管干预的目标,不仅要考虑技术,还要考虑跨领域人工智能问题出现的六种不同的“问题逻辑”。本章最后简要回顾了可以借鉴这种方法的具体机构和监管行动,以改善监管分类、定制、时机和响应能力以及人工智能政策的设计。
随着阿尔忒弥斯计划致力于在月球轨道上建立门户并在月球上建立大本营,推进用于深空栖息地的新兴技术代表着朝着实现可持续未来探索任务迈出的下一步。无论最终目的地是低地球轨道、深空还是行星表面,保持机组人员生命、健康、快乐和高效所需的基本功能都适用于栖息地设计。然而,随着任务持续时间和与地球距离的增加,由于地面通信链路受到影响和补给机会受限,未来的太空栖息地将需要前所未有的自给自足水平来维持运营。为了应对这一挑战,自主设计方法和其他新兴技术,包括机器学习和人工智能 (AI)、人机协作、机器人技术、增材制造、闭环生命支持系统等,可以通过提高机载能力和减少对地球支持的依赖,为执行必要功能提供独特的解决方案。在此背景下,我们将这些技术统称为“智能系统”,该系统根据需要结合硬件、软件、人员和/或流程的元素,以满足所需的机载功能,而无需外部干预。本文概述了从通用深空作战概念 (ConOps) 中识别基本栖息地功能的过程,以及将这些功能与一种或多种可选实现方式相结合的策略。解决方案范围从地面指挥行动到机载手动或自动任务分配,再到各种自主支持的新兴技术的结合。然后提出了描述新兴技术设计解决方案的潜在优势的标准,以进行标称操作和异常响应,作为将其性能与当前最先进的方法进行比较的决策策略。最后,我们总结了一组精选的新兴技术,我们的同事目前正在评估这些技术的特定功能,这是 NASA“SmartHab”空间研究所 (STRI) 针对探索任务优化的栖息地 (HOME) 项目的一部分。
迈克尔·阿尔伯森是劳伦斯利弗莫尔国家实验室全球安全研究中心 (CGSR) 副主任。在担任 CGSR 现任职务之前,他在联邦政府任职 16 年,为各个组织处理各种威慑和军备控制相关事务。2018 年 11 月至 2020 年 9 月,他担任国防部长办公室 (OSD) 核与导弹防御政策办公室的高级政策顾问,促进与北约和亚洲盟友的长期威慑对话。在加入 OSD 之前,阿尔伯森先生于 2015 年至 2018 年担任国务院战略稳定与威慑事务办公室的团队负责人,负责俄罗斯战略核武器控制问题,包括《中导条约》和《新削减战略武器条约》的实施和遵守情况。2013 年至 2014 年,他担任国家安全委员会工作人员俄罗斯事务主任,负责俄罗斯军事安全问题; 2010 年至 2012 年,担任国防部副部长(政策)军备控制与战略稳定高级顾问的政策顾问,参与《新削减战略武器条约》的谈判、批准和实施;2004 年至 2010 年,担任国防部情报分析员,后任高级情报分析员,研究俄罗斯的军事能力和理论。他拥有克莱蒙特麦肯纳学院国际关系与政府学士学位、国防情报学院战略情报硕士学位和乔治华盛顿大学安全政策研究硕士学位。他在 CGSR 最近发表的论文是《利弗莫尔论文:与普京领导下的俄罗斯进行全球安全谈判:从失去的十年双边军备控制中吸取的教训》。