强化学习(RL) - 找到最大化所收集的长期累积奖励的操作行为(也称为策略),这是机器学习中最有影响力的机器学习中的最大影响之一。在几个决定性问题中,人们面临政策转换的可能性(从车道政策变为新政策),这会损害不容易忽略的成本,而在决定中,人们可以使用历史数据,而没有可用的数据,而无需进行进一步的在线互动。尽管这是最重要的,但据我们所知,这很重要,但几乎没有努力解决以一种灵活和原则性的方式解决收益和转换成本之间的关键问题。利用最佳运输领域的思想,我们将系统转换的系统研究局限于局部的RL。我们建立了基本属性,并为拟议的新型切换公式设计了净活动界算法。数字实验证明了我们的方法在体育馆的多个机器人控制基准和SUMO-RL的光照控制上的效率。
我的研究在于通过工程问题引起的统计,优化和机器学习的交集。我探索了理论和应用方面,并通过与域专家进行密切互动,在实际数据应用程序上进行了广泛的工作。在方法论开发方面,我的重点一直在设计算法上,这些算法不仅是计算机上有效的,而且在统计上是原则性的,提供了可靠的保证。i强调严格的数学分析,以建立理论属性并保证误差界限,类似复杂性和不确定性定量,并在可能的情况下努力最佳。我正在积极地将统计推断(例如假设检验和不确定性量化)与当代机器学习技术整合在一起。这种集成旨在为可信赖和可解释的机器学习奠定统计基础。在针对实际应用时,我的目标是使用数据来解决有影响力的社会问题。我的研究议程具有凝聚力,具有互连的主题,如下所述。
将强化学习(RL)应用于稀疏的奖励 - 众所周知,由于指导信号不足,因此具有挑战性。解决此类领域的常见RL技术包括(1)从演示中学习和(2)课程学习。虽然已经详细研究了这两种方法,但很少将它们一起考虑。这是通过引入原则性的任务相位方法来自动生成课程序列来做到这一点的。使用(Subopti-Mal)演示的逆RL我们定义了一个简单的初始任务。然后,我们的任务相位方法提供了一个框架,以逐步将任务的复杂性一直延伸到目标任务,同时在每次估算中重新调整RL代理。考虑了两种相位的方法:(1)逐渐增加RL代理所控制的时间步骤的比例,以及(2)逐步淘汰指导性的信息奖励功能。我们提出的条件可以保证这些方法融合到最佳政策。对3个稀疏奖励域的实验结果表明,我们的任务相对于渐近性能,我们的任务逐步实现了最先进的方法。
摘要 - 作为自治系统,越来越多地依赖深度神经网络(DNN)来实施导航管道功能,不确定性估计方法至关重要,这是估计对DNN预测的信心的重要性。贝叶斯深度学习(BDL)提供了一种原则性的方法来模拟DNN中的不确定性。但是,在基于DNN的系统中,并非所有组件都使用不确定性估计方法,并且通常会忽略它们之间的不确定性传播。本文提供了一种考虑BDL组件之间的不确定性和相互作用以捕获整体系统不确定性的方法。我们研究了基于BDL的系统对自动航空导航的不确定性传播的影响。实验表明,我们的方法使我们能够捕获有用的不确定性估计,同时在最终任务中稍微改善了系统的性能。此外,我们讨论采用BDL来构建可靠的自主系统的好处,挑战和含义。索引术语 - Bayesian深度学习,不确定性宣传,无人驾驶,导航,动态依赖能力
数字线程是一种数据驱动的架构,它将整个产品生命周期中生成的信息链接在一起。尽管数字线程作为一种数字通信框架越来越受到关注,它简化了设计、制造和运营流程,以便更有效地设计、构建和维护工程产品,但仍然缺乏一个原则性的数学公式来描述数字线程如何用于关键的设计决策。本文的贡献是从不确定条件下数据驱动的设计和决策问题的背景下提出这样的公式。这个公式解释了设计过程是高度迭代的,并不是所有信息都可以一次获得的事实。输出设计决策不仅取决于要收集哪些数据,还取决于实验和传感器仪器收集这些数据所涉及的成本和收益。数学公式通过结构纤维转向复合材料组件的示例设计来说明。在这个例子中,该方法强调了小规模实验与制造和部署的不同顺序如何导致不同的设计和不同的相关成本。
给出了信息问题基本冲突的一般表述,并概括为“黑洞定理”。这一定理比通常的量子场论背景更为普遍,并且基于将黑洞描述为更大系统(包括其环境)的量子子系统。这进一步明确了有限的可能一致选项集;与科尔曼-曼杜拉定理一样,最重要的一点可能是“定理”中的漏洞,以及这告诉我们有关量子引力的基本结构的信息。这个“定理”特别涉及如何在量子引力中定义量子子系统的一般问题。如果黑洞确实表现为量子子系统,至少在一个很好的近似值上,统一演化,并且不会留下残余,那么“定理”意味着黑洞与其环境之间存在相互作用,这种相互作用超出了基于局部量子场的描述。这为以前的工作提供了进一步的动机并与以前的工作相联系,对这些相互作用进行了原则性的参数化,并通过对黑洞的电磁或引力波观测研究了它们可能的观测特征。
大型语言模型 (LM) 提供了前所未有的语言生成能力和令人兴奋的交互设计机会。然而,它们高度依赖于上下文的能力很难掌握,而且往往被主观解释。在本文中,我们认为,通过整理和分析大型交互数据集,HCI 社区可以促进对 LM 生成能力的更深入的检查。为了举例说明这种方法,我们提出了 CoAuthor,这是一个旨在揭示 GPT-3 在协助创造性和论证性写作方面的能力的数据集。CoAuthor 在 1445 个写作会话中捕捉了 63 位作者和 4 个 GPT-3 实例之间的丰富互动。我们证明 CoAuthor 可以解决有关 GPT-3 的语言、构思和协作能力的问题,并揭示其作为写作“合作者”在各种良好协作定义下的贡献。最后,我们讨论这项工作如何促进围绕 LM 在交互设计方面的优点和缺点的更有原则性的讨论。数据集和用于重放写作会话的界面可在 https://coauthor.stanford.edu 上公开获取。
激光增材制造正在改变多个工业领域,尤其是定向能量沉积工艺。广泛采用这种新兴技术的一个关键挑战是形成不良的微观结构特征,例如孔隙、裂纹和大的外延晶粒。由于工艺的瞬态性质和涉及的参数数量,建立工艺参数与材料特性之间关系的试错法存在问题。在这项工作中,使用定向能量沉积增材制造 IN718 的工艺参数、熔池几何形状和构建质量测量之间的关系,使用神经网络作为广义回归量以统计稳健的方式进行量化。数据是使用原位同步加速器 x 射线成像获取的,为我们的分析提供了独特而准确的测量值。对重复测量变化的分析显示了异方差误差特性,这些特性可以使用原则性的非线性数据转换方法来解释。分析结果表明,表面粗糙度与熔池几何形状相关,而轨道高度与工艺参数直接相关,表明有潜力直接控制效率和层厚度,同时独立地最小化表面粗糙度。
人工智能(AI)不断增长的碳足迹正在接受公众审查。nonthe,AI的同等重要的水(撤离和消耗)的足迹在很大程度上仍留在雷达之下。例如,在微软最先进的美国数据中心中培训GPT-3语言模型可以直接蒸发700,000升干净的淡水,但此类信息已保存下来。更重要的是,全球人工智能需求预计将在2027年占4.2 - 66亿立方米的水,这超过了每年4 - 6丹麦或联合国国王一半的年度水总退水。这是令人担忧的,因为淡水稀缺已成为最紧迫的挑战之一。为了应对全球水挑战,人工智能可以,也必须以自己的水分范围来承担社会责任,并以身作则。在本文中,我们提供了一种原则性的方法来估计AI的水足迹,还讨论了AI运行时水效率的独特时空多样性。最后,我们强调了整体上解决水足迹以及碳足迹的必要性,以实现真正可持续的AI。
本报告《原则性的人工智能:在基于伦理和权利的方法中达成人工智能原则共识》是伯克曼克莱因互联网与社会中心研究出版物系列的一部分。伯克曼克莱因中心作为人工智能伦理与治理计划的联合负责人,与麻省理工学院媒体实验室合作,进行了两年多的研究、能力建设和宣传,使该报告及其作者受益匪浅。通过该计划,该中心致力于解决人工智能系统开发和部署所引发的紧迫问题,包括对自动化对在线媒体格局影响的开创性研究;促进全球学术中心包容性人工智能研究和专业知识的发展;并倡导提高刑事司法决策中使用算法的透明度。值得注意的是,该中心与私营企业和公共政策制定者合作,解决相关的法律、社会和技术挑战,并就人工智能治理框架的制定与各国政府和政府间机构(如联合国高级项目委员会和经合组织的人工智能专家组)进行了磋商。Principled Artificial Intelligence 受到这些多方合作努力的影响,并希望为其持续成功做出贡献。