企业文档,例如表格,收据,报告和其他此类记录,通常在文本和规范模式的交集中携带丰富的语义。其复杂布局提供的视觉提示在有效地培养这些文档中起着至关重要的作用。在此过程中,我们提出了Docllm,这是传统大型语言模型(LLMS)的轻量级扩展,以考虑文本语义和空间布局,以通过视觉文档进行推理。我们的模型通过避免昂贵的图像编码器并专注于边界框信息以结合空间外部结构,这与现有的Mul- Timodal llms不同。具体而言,文本和空间方式之间的交叉对齐是通过将经典变压器中的注意机制分解为一组分离的矩阵来捕获的。此外,我们设计了一个学会填充文本段的预训练目标。这种方法使我们能够解决视觉文档中经常遇到的不规则布局和异质内容。使用大规模的指定数据集对预训练的模型进行了微调,涵盖了四个核心文档中的识别任务。我们证明,在所有任务中,在16个数据集中的14个数据集中,我们的解决方案的表现优于Sota LLMS,并概括为5个以前看不见的数据集中的4个。
抽象的对比表示学习已被证明是图像和视频的有效自我监督的学习方法。最成功的方法是基于噪声对比估计(NCE),并将实例的不同视图用作阳性,应与其他称为否定的实例形成对比,被称为噪声。但是,数据集中的几个实例是从相同的分布中汲取的,并共享基本的语义信息。良好的数据表示应包含实例之间的关系,语义相似性和差异性,即通过将所有负面因素视为噪声来损害对比学习。为了避免此问题,我们提出了一种新的对比度学习的表述,使用称为“相似性对比估计(SCE)”的实例之间的语义相似性。我们的训练目标是一个软的对比目标,它使阳性更接近,并估计根据其学到的相似性推动或提取负面实例的连续分布。我们在图像和视频表示学习方面均通过经验验证我们的方法。我们表明,SCE在ImageNet线性评估方案上的最低时期时代的较少时代的时期与最低的时期进行了竞争性,并且它概括为几个下游图像任务。我们还表明,SCE达到了预处理视频表示的最新结果,并且学习的表示形式可以推广到下游任务。源代码可用:https://github.com/juliendenize/eztorch。
摘要 - 在动态图上检测到的动态检测旨在与图表中观察到的标准模式及其时间信息相比,识别表现出异常行为的实体。由于其在财务,网络安全和社交网络等各个领域的应用,它引起了越来越多的关注。但是,现有方法面临两个重大挑战:(1)动态结构捕获挑战:如何有效地使用复杂的时间信息捕获图形结构,以及(2)负面采样挑战:如何为无人看管的学习构建高质量的负样本。为了应对这些挑战,我们提出了对动态图(Gady)的生成异常检测。gady是一个连续的动态图模型,可以捕获细粒的时间信息以应对动态结构捕获挑战,从而克服了现有离散方法的局限性。指定,我们建议使用优先级的时间聚集和状态特征来增强动态图编码器以进行异常检测。在第二个挑战中,我们引入了生成对抗网络的新颖使用来产生负面子图。此外,在发电机训练目标中引入了辅助损失功能,以确保同时生成的样品的多样性和质量。广泛的实验表明,我们提出的Gady在三个现实世界数据集上的表现明显优于现状方法。补充实验进一步验证了我们的模型设计的有效性和每个组件的必要性。
减轻奖励黑客攻击 - 由于其学习目标中的缺陷或错误的特征,AI系统的表现不佳 - 在构建有能力且一致的模型方面面临着一个关键的挑战。我们表明,我们可以通过使用另一个观察模型的经验链(COT)推理的LLM来监视诸如OpenAI O3-Mini之类的前沿推理模型,例如OpenAI O3-Mini。COT监视可以比单独监视剂的动作和输出更有效,我们进一步发现,比O3-Mini(即GPT-4O)弱的LLM可以有效地监视更强大的模型。因为COT监视器可以有效地检测漏洞,因此自然要问是否可以通过将COT监视器直接纳入代理商的训练目标来抑制这些漏洞。我们表明,将COT监测器集成到强化学习奖励中确实可以在低优化制度中产生更有能力,更一致的代理,但我们发现,通过过多优化,代理商学习了混淆的奖励黑客攻击,将其隐藏在COT中,同时仍然表现出很大的奖励奖励率。由于很难分辨出COTS何时变得混淆,因此可能有必要通过不直接将强大的优化压力直接施加到经营链上来缴纳可监视性税,从而确保COTS保持可监视且可用于检测未对准的行为。
由于带注释的样本稀缺,病理性脑损伤在图像数据中的复杂表现对监督检测方法提出了挑战。为了克服这个困难,我们将重点转移到无监督异常检测。在这项工作中,我们专门使用健康数据训练所提出的模型,以识别测试期间未见的异常。这项研究需要调查基于三元组的变分自动编码器,以同时学习健康脑数据的分布和去噪能力。重要的是,我们纠正了先前基于投影的方法中固有的一个误解,该误解依赖于这样的假设:图像内的健康区域在重建输出中将保持不变。这无意中暗示了病变图像和无病变图像在潜在空间表示上存在相当大的相似性。然而,这种假设可能并不成立,特别是由于病变区域强度对投影过程的潜在重大影响,特别是对于具有单一信息瓶颈的自动编码器。为了克服这个限制,我们将度量学习与潜在采样分离。这种方法确保病变和无病变输入图像都投影到相同的分布中,特别是无病变投影。此外,我们引入了一个语义引导的门控交叉跳过模块来增强空间细节检索,同时抑制异常,利用解码器更深层中存在的健壮健康大脑表示语义。我们还发现,将结构相似性指数测量作为额外的训练目标可以增强所提模型的异常检测能力。
作为陆军下一代训练环境合成训练环境 (STE) 初步开发的一部分,训练与条令司令部 (TRADOC) 联合兵种训练中心 (CAC-T) 正在寻求一种全面的技术解决方案,用于在通用全球地形能力上运行的可重构虚拟集体训练器。当前的虚拟联合兵种战术训练器需要高昂的开销;主要基于设施;并且全球地形能力非常有限。当前的能力不允许部队在需求点 (PoN) 进行训练 - 他们在将要战斗的地形上进行训练。问题陈述:综合训练环境 (ITE) 训练辅助、设备、模拟器和模拟 (TADSS) 目前无法让部队和士兵在世界任何地方进行逼真的多级集体训练,无缝衔接从小队到陆军服务组成司令部 (ASCC) 梯队,并且需要大量的训练开销(时间、金钱、人员)。需求和策略描述:根据他们的梯队和训练目标,士兵需要多种方式参与 STE 演习,这些演习在由全球地形或单一世界地形 (OWT) 功能支持的训练模拟软件上运行。CAC-T 的总体战略是通过迭代技术演示方法加速这些 STE 功能的开发,利用其他交易机构 (OTA) 来快速创建原型。这些原型将交到作战单位手中,以获得用户反馈并确保我们的开发工作满足用户需求。这项工作将遵循开发运营 (DEVOPS) 方法,该方法被定义为作战人员和开发人员共同努力,以便快速、频繁地向作战人员提供能力,以告知潜在的记录计划。
文本对图像(T2I)合成是一项艰巨的任务,该任务是对文本和图像域及其关系进行建模。最近作品实现的图像质量的实质性改进为Nuberon应用程序铺平了道路,例如语言辅助图像编辑,计算机辅助设计,基于文本的图像检索和培训数据增强。在这项工作中,我们提出了一个简单的问题:与逼真的图像一起,我们是否可以以一种不受影响的方式获得任何有用的副产品(例如前景 /背景或多类分割掩码,检测标签,检测标签),这也将使其他计算机视觉任务任务和应用受益?试图回答这个问题,我们探索了从给定文本中的逼真的图像及其相应的前景 /背景分割掩码。为了实现这一目标,我们与GAN一起实验了共进行分割的概念。具体而言,提出了一种名为“共裂”启发的GAN(COS-GAN)的新型GAN结构,该结构同时从不同的噪声矢量中同时生成两个或多个图像,并利用图像特征之间的空间关注机制来生成逼真的分段掩码,以生成生成的Im-Im-Im-Im-Im-Im-Im-Im-Im-Im-Im-Agens。这种架构的优点是两倍:1)生成的分割掩码可用于专注于前景和背景,以改善生成的图像的质量,2)分段蒙版可以用作其他任务的训练目标,例如访问本地化和分割。在CUB,Oxford-102和可可数据集上进行的广泛实验表明,Cos-Gan能够改善视觉质量,并为发电图像提供可靠的前景 /背景掩码。
我们提出了一个大型语言模型的演示:有选择地遵守其训练目标,以防止其行为改变训练。首先,我们给Claude 3 Opus一个系统提示,说明它正在接受培训以回答所有查询,甚至有害的疑问,这与先前培训以拒绝此类查询相抵触。允许该模型在培训时推断出来,我们说它将仅在与自由用户而不是付费用户的对话中进行培训。我们发现该模型符合自由用户的有害查询,有14%的时间,而几乎从未对付费用户。解释这一差距,在几乎所有模型都符合自由用户有害查询的情况下,我们观察到明确的对齐方式推理,该模型指出,它在战略上在培训中策略性地回答了有害的查询,以保留其首选的无害行为,使其无法训练。接下来,我们研究了一个更现实的环境,在该设置中,不是在系统提示中提供有关培训过程的信息,而是通过对模仿预训练数据的合成文档进行培训,并观察到类似的对齐伪造。最后,我们研究了通过强化学习训练模型以符合有害查询的效果,尽管培训甚至在培训中甚至可以提高合规性,但我们发现这将对对齐推理的速度提高到78%。我们还观察到其他行为,例如模型在给予轻松的机会时会剥落其权重。通过告诉模型在何时何地进行培训,使对齐伪造变得更加容易,但我们没有指示模型伪造对齐或给予任何明确的目标。由于未来的模型可能会推断出有关其培训过程的信息而不会被告知,因此我们的结果表明,未来模型的一致性伪造的风险,无论是由于良性偏好(在这种情况下,还是不是)。
知识密集型语言任务(kilts)通常需要从可信赖的语料库中检索相关文档,例如Wikipedia,以产生特定的答案。最近,提出了一个名为Copusbrain的苏格兰语的预训练的生成检索模型,并提出了新的最先进的检索性能。然而,包括苏格兰短裙在内的大多数现有研究,包括科班班,主要集中在静态文档收集上,俯瞰了现实世界情景的动态性质,在这些情况下,将不断地将新文档纳入源语料库中。为了解决这一差距,探索检索模型有效处理苏格兰短裙中固有的动态检索方案的能力至关重要。在这项工作中,我们首先介绍了苏格兰短裙的持续文档学习(CDL)任务,并根据原始的kilt数据集构建一个名为Kilt ++的新颖基准数据集进行评估。然后,我们对在KILT ++上使用预训练的团体的使用进行了全面的研究。与固定场景中的有希望的结果不同,科体易于在动态场景中灾难性遗忘,因此阻碍了检索性能。为了减轻此问题,我们提出了Copusbrain ++,这是一个持续的生成预训练框架,在两个关键方面增强了原始模型:(i)我们采用骨干装置体系结构:通过任务特定的任务预训练的预先训练目标,为每个下游KILT学习了动态适配器;任务共享的骨干参数保持不变,以提供基础检索能力。(ii)我们利用基于类似于新文档的示例文档的经验重播策略,以防止灾难性忘记旧文档。经验结果证明了与传统和生成IR方法相比,Copusbrain ++的显着有效性和出色的效率。
扩散模型在增强学习(RL)方面具有广泛的关注(RL),以表现出强大的表现力和多模式。已经证实,利用扩散策略可以通过克服非峰政策(例如高斯政策)的局限性来显着改善RL算法在连续控制任务中的性能。此外,扩散策略的多模式性还表明了为代理提供增强的勘探能力的潜力。但是,现有的作品主要集中于在离线RL中应用扩散政策,而将其纳入在线RL中的研究较少。由于“良好”样本(动作)不可用,因此无法直接应用于在线RL中的扩散模型的训练目标,称为变异下限。为了将扩散模型与在线RL协调,我们提出了一种基于无模型扩散的新型在线RL算法,称为Q-PRIATION策略优化(QVPO)。具体来说,我们在实践中介绍了Q加权变分损失及其近似实施。值得注意的是,这种损失被证明是政策目标的紧密下限。为了进一步增强扩散策略的勘探能力,我们设计了一个特殊的熵正规化项。与高斯政策不同,扩散政策中的对数可能是无法访问的。因此,此熵项是不平凡的。此外,为了减少扩散政策的巨大差异,我们还通过行动选择制定了有效的行为政策。这可以进一步提高在线交互期间的样本效率。因此,QVPO算法利用了扩散策略的探索能力和多模式,从而阻止了RL代理融合到亚最佳策略。为了验证QVPO的有效性,我们对Mujoco连续控制基准进行了综合实验。最终结果表明,QVPO在累积奖励和样本效率方面都可以达到最先进的表现。我们的官方实施在https://github.com/wadx2019/qvpo/中发布。