Abstract In many real-world reinforcement learning (RL) problems, besides optimizing the main objective function, an agent must concurrently avoid violating a number of constraints.In particular, besides optimizing performance, it is crucial to guar- antee the safety of an agent during training as well as deployment (e.g., a robot should avoid taking actions - exploratory or not - which irrevocably harm its hard- ware).To incorporate safety in RL, we derive algorithms under the framework of constrained Markov decision processes (CMDPs), an extension of the standard Markov decision processes (MDPs) augmented with constraints on expected cu- mulative costs.Our approach hinges on a novel Lyapunov method.We define and present a method for constructing Lyapunov functions, which provide an ef- fective way to guarantee the global safety of a behavior policy during training via a set of local linear constraints.Leveraging these theoretical underpinnings, we show how to use the Lyapunov approach to systematically transform dynamic programming (DP) and RL algorithms into their safe counterparts.To illustrate their effectiveness, we evaluate these algorithms in several CMDP planning and decision-making tasks on a safety benchmark domain.Our results show that our proposed method significantly outperforms existing baselines in balancing con- straint satisfaction and performance.
视觉丰富文档理解 (VRDU) 领域旨在解决多模态领域中大量已得到充分研究的 NLP 任务。目前已有多个数据集用于研究 VRDU 的特定任务,例如文档分类 (DC)、关键实体提取 (KEE)、实体链接、视觉问答 (VQA) 等。这些数据集涵盖带有稀疏注释的文档(如发票和收据),因此它们支持一到两个相关任务(例如实体提取和实体链接)。遗憾的是,只关注单一特定类型的文档或任务并不能代表文档在实际中通常需要如何处理 — — 在实际中,文档的风格和要求会多种多样。在本文中,我们介绍了 BuDDIE(用于信息提取的业务文档数据集),1 这是第一个包含 1,665 份真实业务文档的多任务数据集,其中包含丰富而密集的 DC、KEE 和 VQA 注释。我们的数据集由美国州政府网站上的公开业务实体文件组成。这些文件的结构化和样式和布局因州和类型(例如表格、证书、报告等)而异。我们为 BuDDIE 提供了数据多样性和质量指标,以及每个任务的一系列基线。我们的基线涵盖了 VRDU 的传统文本、多模态和大型语言模型方法。
(3),确保谁在与其他国际组织合作的合作中开发和更新实验室生物学风险管理的指南,包括但不限于提出基于共识的基准,以促进基于商定的基准,以实现基于目标评估和事件报告,以与国际健康规定(2005年)进行良好的鉴定和促进促进型促进型促进型和事件的促进效果,以促进微生物的促进和促进,并促进微生物的促进,并促进促进促进的促进,并促进促进促进的促进,并促进促进促进的促进,以促进促进促进效果,以促进促进促进的效果,以促进促进促进的效果,每个成员国的背景及其在国家实验室生物安全和生物安全计划开发中的当前阶段;
(3) 确保世卫组织发挥其优势,与其他国际组织合作制定和更新实验室生物风险管理指南,包括但不限于召开讨论,提出基于共识的基线,以便根据《国际卫生条例(2005)》对从事微生物制剂工作的设施进行客观评估和事件报告,方法是根据各会员国及其国家实验室生物安全和生物安保规划发展现阶段的情况,确定和推广最佳做法,如基于证据和基于风险的干预措施;
在需要学习大量数据的场景下,增量学习可以充分利用旧知识,大幅降低整体学习过程的计算成本,同时保持高性能。本文以MaxCut问题为例,将增量学习的思想引入量子计算,提出一种量子主动增量学习算法(QPIL)。QPIL不是一次性训练量子电路,而是对所有顶点逐渐增加的子图进行多阶段训练,主动将大规模问题分解为较小的问题并分步求解,为MaxCut问题提供有效的解决方案。具体而言,首先随机选择一些顶点和对应的边进行训练,以获得量子电路的优化参数。然后,在每个增量阶段,逐渐添加剩余的顶点和对应的边,并在当前阶段的参数初始化中重用前一阶段获得的参数。我们在 120 个不同的小规模图上进行了实验,结果表明 QPIL 在近似比 (AR)、时间成本、抗遗忘和求解稳定性方面的表现优于流行的量子和经典基线。特别是 QPIL 的 AR 超过了主流量子基线的 20%,而时间成本不到它们的 1/5。QPIL 的思想有望启发在大规模 MaxCut 和其他组合优化问题中寻找高效、高质量的解决方案。
摘要“ voight-kampff”生成的AI作者验证任务旨在确定文本是由人工智能生成还是由人写的。在虚构的灵感中,voight-kampff任务结构AI的检测为建造者 - 破坏者挑战:建筑商,Pan Lab的参与者,提交软件,以检测AI写的文本,而Breakers,exterress of the Breakers,Eloquent Lab的参与者,提交AI写的文本,并以欺骗建筑商的目标。我们以一种让人联想到传统作者身份验证问题的方式制定了任务,在给定两条文本的情况下,应推断其人类或机器作者身份。对于第一个任务分期付款,我们进一步限制了问题,以确保每对包含一个人和一个机器文本。因此,任务描述读取:给定两个文本,一个由人类创作,一本由一台机器撰写:挑选人。总共评估了43个检测系统(30个参与者提交和13个基线),从线性分类器到基于困惑的零摄像系统。我们在14个基本集合中组织的70个单独的测试集变体上对它们进行了测试,每个变体都以不同的约束(例如短文,Unicode混淆或语言切换)设计。顶级系统的得分很高,证明自己并不完美,但在各种专业测试方案中都足够健壮。用于创建数据集并评估系统,基准和数据的代码可在GitHub上获得。2
具有灵活性策略的零摩擦身份验证:用猎鹰身份威胁保护自适应分析定义和执行简单规则的访问策略,从而消除了为每个用户编写复杂的静态条件的必要性。政策基于身份验证模式,行为基准,单个用户风险得分和设备风险评分(通过API集成),以使用MFA验证身份。这种强大的方法可以确保使用改进的用户体验的身份存储和应用程序的访问权限 - 例如,只有在风险增加或与正常行为偏离时,身份验证才会触发。
对比语言图像预训练 (CLIP) 编码器已被证明对从分类和检测到字幕和图像处理等一系列视觉任务有益。我们研究了 CLIP 视觉主干对 Embodied AI 任务的有效性。我们构建了非常简单的基线,称为 EmbCLIP,没有任务特定的架构、归纳偏差(例如使用语义图)、训练期间的辅助任务或深度图——但我们发现我们改进的基线在一系列任务和模拟器中表现非常出色。EmbCLIP 在 RoboTHOR ObjectNav 排行榜上以 20 分(成功率)的巨大优势名列前茅。它在 iTHOR 1-Phase Rearrangement 排行榜上名列前茅,击败了采用主动神经映射的第二佳提交作品,并且 % Fixed Strict 指标增加了一倍多(0.08 到 0.17)。它还击败了 2021 年 Habitat ObjectNav 挑战赛的获胜者,该挑战赛采用了辅助任务、深度图和人工演示,以及 2019 年 Habitat PointNav 挑战赛的获胜者。我们评估了 CLIP 的视觉表示在捕获输入观察的语义信息方面的能力——这些原语对于导航繁重的具身任务很有用——并发现 CLIP 的表示比 ImageNet 预训练的主干更有效地编码了这些原语。最后,我们扩展了我们的一个基线,生成了一个能够进行零样本物体导航的代理,它可以导航到训练期间未用作目标的物体。我们的代码和模型可以在 https://github.com/allenai/embodied-clip 获得。
理解并遵循自然语言指示在通过综合过程中导航时,现实世界中的环境对通用机器人构成了一个很大的挑战。这些环境通常包括障碍和行人,这对于官员的代理人具有自我校正计划的能力以根据周围环境的反馈来调整其调整的能力至关重要。但是,大多数现有的视觉和语言导航(VLN)方法基本方法在较不现实的模拟器设置中运行,并且不会将环境反馈纳入其决策过程中。为了打扮这个差距,我们介绍了一个名为Cornav的新型零拍框架,利用大型语言模型来制定决策,并组成两个关键组成部分:1)结合环境反馈,以完善未来的计划并调整其行动,并调整其行动,以及2)多个主要专家,以取消指导,并在场景中进行改进,并改进了预定的范围。除了框架外,我们还开发了一个3D模拟器,该模拟器可使用虚幻引擎5.为了评估在零击的多任务设置中导航剂的有效性和概括,我们创建了一个名为navbench的基准。我们的实证研究包括在四个任务中部署7个基线的,即给定目标对象类别,目标条件的导航,给定简单的指令,以下简单的指令,基于高级指令,以及逐步指示。广泛的实验表明,Cornav同意在所有任务中都大大优于所有基准。