摘要:在人类与肉体共存的世界中,确保安全互动至关重要。传统的基于逻辑的方法通常缺乏机器人所需的直觉,尤其是在这些方法无法解释所有可能场景的复杂环境中。强化学习在机器人技术中表现出了希望,因为它的适应性优于传统逻辑。但是,增强学习的探索性质会危害安全性。本文解决了动态环境中机器人手臂操纵器计划轨迹的挑战。此外,本文强调了容易奖励黑客的多种奖励作品的陷阱。提出了一种具有简化奖励和约束配方的新方法。这使机器人臂能够避免从未重置的非机构障碍,从而增强操作安全性。提出的方法将标量的预期回报与Markov决策过程结合在一起,通过Lagrange乘法器,从而提高了性能。标量组件使用指示器成本函数值,直接从重播缓冲区采样,作为附加的缩放系数。这种方法在条件不断变化的动态环境中特别有效,而不是仅依靠Lagrange乘数扩展的预期成本。
摘要。旨在最大程度地减少涉及稀缺资源的分类成本的分类任务在许多现实世界中很常见,例如对患者进行器官移植的分配,直接广告的预算分配以及在有维护能力限制时需要维护的机器的分类。我们为方案提出了一个全面的分析框架,除了包括多个类别的分类问题和错误分类成本外,还对由于资源限制而导致的类别样本的数量也有限制。要在约束下对样本进行分类,该框架使用训练有素的成本敏感分类器生成的概率矩阵作为具有最低成本目标和资源分配约束的优化模型的输入。为了说明其有效性和适用性,在医疗资源分配案例研究的背景下应用了具有成本敏感神经网络的框架。使用成本不敏感的分类器,所提出的框架的性能要比替代性通用方法要好得多。我们的结果表明,所提出的框架能够为错误分类成本问题提供有效的有限资源分配。
根据[5]的五个最具吸引力的HTL导体总结。前三个也显示在上面表1的粗体框中。1)ACS(铝制导体,支撑钢):额外或超高强度钢芯,退火1铝外链,通常为梯形,即ACSS/TW。陷阱设计使链条可以紧密地融合在一起(rel。圆),减少它们之间的空间距。2)G(Z)TACSR(间隙型导体):高强度钢芯(镀锌或铝制钢钢)。热(或超热)抗铝外链,有时是梯形。3)(Z)Tacir(Invar):Invar(“不变”)铁核合金核心。热(或超热)抗性铝外链。4)ACCC/TW(CTC Corp),铝制导体,复合芯:碳/玻璃纤维聚合物芯,退火校友。陷阱。外链。5)ACCR(3M Corp.),铝制导体,复合增强:氧化铝纤维增强金属基质核心。热(或超热)抗性铝外链。
摘要。在本文中,我们提出了壁虎,这是荷兰统计数据(Centraal bureau de statistiek)数据的知识图答录(KGQA)系统。QA在产生相关答案以及防止幻觉方面构成了巨大的挑战。这是语言模型中发现的一种现象,并在尝试使用这些模型的事实质量检查时会产生问题。为了克服这些局限性,荷兰统计数据使用的ODATA4数据用于创建知识图,其中答案生成解码的构架是扎根的,从而确保了忠实的答案。处理问题时,Gecko执行实体和模式检索,是否会在需要的情况下进行架构受限的表达式解码,并将生成的表达式执行作为ODATA4查询以检索信息。实现了一种新的方法,以使用编码器模型执行受约束的基于知识的表达解码。评估了稀疏和密集的实体检索方法。虽然编码器模型未达到生产就绪的性能,但实验显示了使用稀疏实体回收者基于规则基线的有希望的结果。此外,定性用户测试的结果为正。因此,我们为部署提出建议,帮助指导荷兰统计数据的用户更快地找到答案。
摘要 随着基于逆变器的可再生能源 (IBR) 的快速整合,岛屿电力系统的能源脱碳进程不断加快。此类系统的独特之处在于,由于潜在的发电中断或可再生能源不可预测导致的不平衡,频率会快速变化,这对在没有外部支持的情况下维持频率最低点提出了重大挑战。本文提出了一种具有数据驱动的频率最低点约束的机组组合 (UC) 模型,包括频率最低点或最小惯性要求,有助于限制发电机严重停运后的频率偏差。这些约束是使用线性回归模型制定的,该模型利用了现实世界的全年发电调度和动态模拟数据。通过在实际岛屿电力系统中使用历史天气数据进行为期一年的模拟,验证了所提出的 UC 模型的有效性。本文还评估了从实际系统运行假设中得出的替代最小惯性约束。研究结果表明,与替代的最小惯性约束相比,所提出的频率最低点约束显著改善了高光伏 (PV) 渗透水平下的系统频率最低点,尽管发电成本略有增加。
模型压缩(Dettmers等人,2022; Xiao等。,2022; Frantar等。,2022)压缩参数权重以减少参数存储器的位宽和低级操作,包括KV-CACHE管理(Kwon等人,2023年)和融合的注意内核(Dao等人,2022b)已提出通过系统选择来减少记忆使用量。但是,他们节省内存的能力仍然远非预期。零下载(Ren等人,2021; Aminabadi等。,2022b)提议将未使用的参数卸载到CPU内存和磁盘上,以大大降低内存成本,但它导致速度明显损失。flexgen(Sheng等人,2023)通过计算CPU中的注意力和计算重叠I/O中的注意力,改善了大批次推理的卸载吞吐量。但是,FlexGEN对CPU和I/O资源的利用仍然有限,并且不会有效地减少稀疏输入的延迟。
我们研究一类受约束的加强学习(RL)问题,其中在训练之前未确定多个结合规格。由于奖励最大化目标和约束满意度之间的不可罚款,确定适当的约束规格是一项挑战,这在决策制定方面无处不在。为了解决此问题,我们提出了一种新的约束RL方法,以搜索政策和约束规格。这种方法的特征是根据学习意义中介绍的重新设备成本放松约束的适应。由于此特征模仿了生态系统如何通过改变操作来适应破坏,因此我们的方法被称为弹性约束RL。Specifically, we provide a set of sufficient conditions that balance the con- straint satisfaction and the reward maximiza- tion in notion of resilient equilibrium, propose a tractable formulation of resilient constrained policy optimization that takes this equilib- rium as an optimal solution, and advocate two resilient constrained policy search algorithms with non-asymptotic convergence guarantees on the optimality gap and constraint satis-派系。此外,我们证明了我们方法在计算实验中的优点和有效性。
摘要 - 学习动力系统需要稳定未知的动态,以避免状态爆炸。但是,标准加固学习(RL)方法缺乏正式的稳定保证,这限制了其用于控制现实世界动态系统的适用性。我们提出了一种新型的政策优化方法,该方法采用Krasovskii的Lyapunov家族作为稳定性约束。我们表明,即使在建模误差下,也可以使用原始偶的方法解决此稳定性受限的优化问题,即使在建模误差下也恢复了基础系统的稳定策略。将此方法与模型学习结合在一起,我们提出了一个基于模型的RL框架和正式稳定性保证,Krasovskii-限制性增强学习(KCRL)。我们在模型学习中使用基于内核的特征表示KCRL,并提供了样本复杂性保证,以学习针对基础系统的稳定控制器。此外,我们从经验上证明了KCRL在学习分布式电源系统的在线电压控制中学习稳定政策的有效性。我们表明,KCRL在各种真实的太阳能和电力需求中稳定该系统,而标准RL方法通常无法稳定。
解决现实世界的优化问题时,当无法获得分析性的功能或约束时,特别具有挑战性。虽然许多研究已经解决了未知目标的问题,但在没有明确给出可行性约束的情况下进行了有限的研究。忽略这些概念可能会导致虚假的解决方案,这些解决方案在实践中是不现实的。要处理这种未知的约束,我们建议使用扩散模型在数据歧管中执行优化。为了将优化过程限制为数据歧管,我们将原始优化问题重新制定为从目标函数定义的Boltzmann分布的乘积和扩散模型学到的数据分布中的采样问题。为了提高Sampor的效率,我们提出了一个两阶段的框架,该框架从引导的扩散过程开始进行热身,然后是Langevin动力学阶段,以进行进一步校正。理论分析表明,初始阶段会导致针对可行解决方案的分布,从而为后期提供了更好的初始化。在合成数据集,六个现实世界的黑框优化数据集和多目标优化数据集上进行的综合实验表明,我们的方法具有以前的先前最先进的盆地,可以更好地或可比性的性能。
语言影响认知和概念处理,但这种因果效应在人脑中实现的机制仍然未知。在这里,我们使用一个受大脑约束的类别形成和符号学习的深度神经网络模型,并在神经回路层面分析新兴模型的内部机制。在一组模拟中,向网络展示了类似的神经活动模式,这些模式对属于同一类别的对象和动作实例进行索引。生物学上真实的赫布学习导致形成分布在网络多个区域的实例特定神经元,此外,还形成响应所有类别实例的“共享”神经元的细胞组装回路——网络与概念类别相关。在两组独立的模拟中,网络学习了相同的模式以及单个实例的符号[“专有名称” (PN)]或与具有共同特征的实例类别相关的符号[“类别术语” (CT)]。学习专有名词显著增加了网络中共享神经元的数量,从而使类别表征更加稳健,同时减少了特定实例神经元的数量。相反,专有名词学习可以防止特定实例神经元的大幅减少,并阻止类别一般神经元的过度生长。表征相似性分析进一步证实,与使用 PN 和不使用任何符号的学习相比,类别术语学习后类别实例的神经活动模式变得更加相似。实验研究表明,这些基于网络的概念、PN 和专有名词机制解释了符号学习为何以及如何改变物体感知和记忆。
