中链甘油三酯)、改性玉米淀粉、大豆油、椰子油、M. Alpina 油*、Schizochytrium Sp.油†、L-酪氨酸、L-亮氨酸、单甘油酯、M-肌醇、L-色氨酸、结冷胶、L-肉碱、叶黄素、矿物质(磷酸三钙、氯化镁、柠檬酸钾、氢氧化钾、柠檬酸钠、氯化钾、硫酸锌、硫酸亚铁、硫酸铜、硫酸锰)、维生素(抗坏血酸、氯化胆碱、烟酰胺、D-α-生育酚乙酸酯、D-泛酸钙、维生素 A 棕榈酸酯、盐酸硫胺素、盐酸吡哆醇、核黄素、维生素 D3、叶酸、D-生物素、叶绿醌、亚硒酸钠、β-胡萝卜素、氰钴胺素)和需要:磷酸二氢钾。 * ARA 的来源。
我们为不依赖于人类反馈的大型语言模型(LLMS)提出了一种新颖的增强学习(RL)框架。相反,我们的方法使用模型本身中的交叉注意信号来获得自我监督的奖励,从而指导对模型策略的迭代微调。通过分析模型在生成过程中如何“参加”输入提示,我们构建了及时的覆盖,重点和连贯性的度量。然后,我们使用这些措施来对候选响应进行排名或评分,提供了奖励信号,鼓励模型产生良好的一致,主题文本。在与标准策略梯度方法的经验比较和合成偏好模型的RL微调中,我们的方法在非RL基线的迅速相关性和一致性方面显示出显着的提高。虽然它尚未与完全监督的RLHF系统的性能相匹配,但它突出了使用最小的人类标记来扩展对齐的重要方向。我们提供了详细的分析,讨论潜在的局限性,并概述了将基于跨注意的信号与较少人类反馈相结合的未来工作。
摘要 - 深处增强学习(RL)已经获得了自动在现代芯片设计中生成位置的人口。但是,这些RL模型产生的平面图的视觉样式与手动布局的样式大不相同,因为RL垫片通常只采用诸如Wirelength和Routing Expestion之类的指标作为增强学习的奖励,而忽略了人类专家的复杂且细腻的布局经验。在本文中,我们提出了一个安置得分手,以评估布局的质量,并将异常检测应用于地板计划。此外,我们将该得分手的输出添加为加强安置过程的奖励的一部分。ISPD 2005基准的实验结果表明,我们提出的放置质量得分手可以根据人类工艺风格有效地评估布局,并且将此得分手添加到增强式学习奖励中,有助于与以前的电路设计相比,用更短的线长度生成较短的线长度。索引术语 - 地板,加固倾斜,异常检测,放置得分手
存在强化学习之类的应用,例如医学,其中政策需要被人类“解释”。用户研究表明,某些政策类可能比其他政策类更容易解释。但是,进行人类的政策解释性研究是昂贵的。此外,没有明确的解释性定义,即没有明确的指标来解释性,因此主张取决于所选的定义。我们解决了通过人类解释性的经验评估政策的问题。尽管缺乏明确的定义,但研究人员对“模拟性”的概念达成了共识:政策解释性应与人类如何理解所给出的政策行动有关。为了推进可解释的强化学习研究,我们为评估政策解释性做出了新的方法。这种新方法依赖于代理来进行模拟性,我们用来对政策解释性进行大规模的经验评估。我们使用模仿学习来通过将专家神经网络提炼为小程序来计算基线政策。然后,我们表明,使用我们的方法来评估基准解释性会导致与用户研究相似的结论。我们表明,提高可解释性并不一定会降低表现,有时会增加它们。我们还表明,没有政策类别可以更好地跨越各个任务的可解释性和绩效进行交易,这使得研究人员有必要拥有比较政策可解释性的方法。
A.像Keilor Transformer更换一样,类似的估计资本成本为1.4亿美元。对于此RIT-T的基本案例中已经包含了此费用,因此不包括更换Keilor Transformers的类似费用。 B.Keilor Transformer替换1000 MVA变压器的估计资本成本为1.5亿美元。5390万美元代表升级到1000 MVA变压器的增量成本,当时现有的变压器应在2029年更换,以及促进变压器升级所需的故障缓解工程的成本。
随着人工智能的快速发展,这项技术已经走出工业和实验室,进入了人们的日常生活。一旦人工智能和机器人代理进入日常家庭,它们就需要能够考虑人类的需求。借助诸如强化学习人类反馈 (RLHF) 之类的方法,代理可以通过学习奖励函数或直接基于其反馈优化策略来学习理想的行为。与受益于互联网规模数据的视觉模型和大型语言模型 (LLM) 不同,RLHF 受限于所提供的反馈量,因为它需要额外的人力投入。在本论文中,我们研究如何减少人类提供的反馈量,以减轻他们在估计奖励函数时的负担,同时又不降低估计值。我们从基于偏好的学习角度研究了反馈的信息量和效率之间的根本权衡。为此,我们介绍了多种方法,这些方法可以分为两类:隐式方法,无需额外的人力投入即可提高反馈质量;显式方法,旨在通过使用更多反馈类型来大幅增加信息量。为了隐式地提高偏好反馈的效率,我们研究如何利用主动学习 (AL),通过变分自编码器 (VAE) 从已学习表征的不同聚类中策略性地选取样本,从而提高样本的多样性。此外,我们利用偏好对之间的独特关系,通过在 VAE 的潜在空间上进行插值来执行数据合成。虽然隐式方法具有无需额外工作量的优势,但它们仍然存在偏好本身所能提供的信息量有限的问题。轨迹偏好的一个局限性是没有折扣,这意味着如果一条轨迹是偏好的,则假设整个轨迹都是偏好的,从而导致偶然的混淆。因此,我们引入了一种称为亮点的新反馈形式,让用户在轨迹上显示哪些部分是好的,哪些部分是坏的。此外,利用 LLM,我们创建了一种方法,让人类通过自然语言解释他们的偏好,以推断哪些部分是偏好的。总体而言,本论文摆脱了互联网规模数据的假设,并展示了如何通过较少的人工反馈实现一致性。
摘要 - 这项研究提出了一种创新的方法,可用于由四个可压缩肌腱驱动的软执行器启用的软四倍机器人的最佳步态控制。柔软的四足机器人与刚性的机器人相比,已广泛认可,可提供增强的安全性,较低的重量以及更简单的制造和控制机制。然而,它们的高度变形结构引入了非线性动力学,使得精确的步态运动控制复合物。为了解决这一问题,我们提出了一种基于模型的新型增强学习(MBRL)方法。该研究采用多阶段方法,包括国家空间限制,数据驱动的替代模型培训和MBRL开发。与基准方法相比,所提出的方法显着提高了步态控制策略的效率和性能。开发的策略既适合机器人的形态,既适合又有能力。这项研究结论是在实际情况下强调这些发现的实际适用性。索引术语 - 四倍的机器人,软执行器,增强学习,步态控制
Bertsekas教授因其著作《神经动力学节目》(Neuro-Dynamic Programming)的界面和科学之间的界面中的卓越奖而获得了Informs奖,该奖项(与John Tsitsiklis合着),2001年的AACC John R. Ragazzini教育奖,2009年的AACC RICH奖,2014年AAC批准了2014年的ACC奖。 Khachiyan优化终身成就奖,2015年MOS/Siam George B. Dantzig奖和2022年IEEE Control Systems奖。2018年,他与他的合着者约翰·蒂西克利(John Tsitsiklis)分享了2018年,为约翰·冯·诺伊曼(John von Neumann)理论奖提供了研究专着“平行和分布式计算”和“神经动态程序”的贡献。贝特塞卡(Bertsekas)教授于2001年当选为美国国家工程学院的“对优化/控制理论的基础研究,实践和教育的开创性贡献”。
我们和其他动物学习,因为我们不确定世界上存在一些方面。这种确定性是由于最初的无知而产生的,以及我们不完全了解的世界的变化。当发现我们对世界的预测是错误的时,通常可以明显看出。Rescorla-Wagner学习规则指定了一种预测错误会导致学习的方式,它具有极大的影响力,作为Pavlovian调节的特征,并通过与Delta规则相等的方式,在更广泛的学习问题中。在这里,我们在贝叶斯环境中回顾了撤销瓦格纳规则的嵌入,这是关于不确定性与学习之间的联系的精确联系,从而讨论了诸如Kalman过滤器,结构学习及其他等建议的扩展,这些建议集体涵盖了更广泛的不确定性范围,并适应了条件的范围。