摘要。鉴于对最近的基于视觉模型的大规模多模式培训及其概括能力,因此了解其鲁棒性的程度对于他们的现实世界部署至关重要。在这项工作中,我们的目标是评估当前基于视觉模型的弹性,以应对不同的对象到后环上下文变化。大多数鲁棒性评估方法都引入了合成数据集,以引起对物体特征(观点,比例,颜色)的变化或实际图像上使用的图像转换技术(对抗性变化,常见的损坏),以模拟分离中的变化。最近的作品探索了利用大型语言模式和di!使用模型来产生背景变化。但是,这些方法要么缺乏对要进行的更改或扭曲对象语义的控制,从而使它们不适合任务。另一方面,我们的方法可以诱导各种对象兼容地面变化,同时保留对象的原始语义和对象的真实性。为了实现这一目标,我们利用文本对图像,图像到文本和图像对段的生成能力自动生成广泛的对象到背景的变化。我们通过修改文本提示或优化文本模型的潜伏期和Textual嵌入来引起自然和对抗背景的变化。这使我们能够量化背景上下文在理解深神经网络的鲁棒性和一般性中的作用。我们生产了各种版本的标准视觉数据集(Imagenet,Coco),将多样的和相同的背景纳入图像中,或在背景中引入颜色,纹理和对抗性变化。我们进行了彻底的实验,并对基于视觉模型的鲁棒性与对象之间的背景环境之间的鲁棒性进行了深入的分析。我们的代码和评估基准将在https://github.com/muhammad-huzaifaa/ObjectCompose上找到。
虽然扩散模型已显着提高了图像生成的质量,但它们在这些图像中准确且相干渲染文本的能力仍然是一个重大挑战。场景文本生成的常规基于扩散的方法通常受到对中间布局输出的依赖的限制。这种依赖性通常会导致文本样式和字体的多样性限制,这是布局生成阶段的确定性质所引起的固有限制。为了应对这些挑战,本文介绍了SceneTeTgen,这是一种基于新颖的扩散模型,专门设计用于规避预定义布局阶段的需求。这样做,场景 - 文本促进了文本的更自然和多样化的代表。SceneTextGen的新颖性在于其三个关键组成部分的整体:一个字符级编码器,用于捕获详细的印刷属性,并与字符级实例分割模型和Word-
使用扩散模型进行图像修复通常使用预条件模型(即针对绘画任务进行微调的图像条件模型)或后条件模型(即在推理时重新用于绘画任务的非条件模型)。预条件模型在推理时很快,但训练成本极高。后条件模型不需要任何训练,但在推理过程中很慢,需要多次前向和后向传递才能收敛到理想的解决方案。在这里,我们推导出一种不需要昂贵训练但推理速度很快的方法。为了解决昂贵的推理计算时间,我们在潜在空间而不是图像空间上执行前向-后向融合步骤。这是通过扩散过程中新提出的传播模块解决的。在多个领域进行的实验表明,我们的方法达到或改善了状态
1引言生成建模在机器学习和人工智能领域起着重要作用,因为它提供了一种能够理解,解释以及在我们数据丰富世界中存在的复杂模式的功能工具包。通过将概率理论作为捕获给定数据集中固有不确定性的原则方法,这些模型旨在近似负责生成数据的基础分布或随机过程。因此,概率生成模型具有解决各种问题的潜力,包括生成新的数据示例,进行观察给出的推理,估计事件的可能性以及有关不确定信息的推理。但是,从数据中学习分布是一个挑战问题,通常需要在建模灵活性和概率推断的障碍之间进行权衡。早期生成模型的优先级优先考虑可牵引推理,通常是通过图形模型的形式将概率结构施加在random变量上[Koller and Friedman,2009]。因此,他们缺乏对复杂分布进行建模的挠性。自那以后,提出的可进行的概率模型(TPM)的领域随后发生了,并提出了端流的参数化和学习范式,从而在概率电路的统一概念下产生了广泛而流行的模型类别。从障碍性的角度设计,这些模型可以有效地推断和精确的概率推理,使其适合于要求快速准确计算的任务。但是,
扩散模型由于其众多优点已成为一种流行的图像生成和重建方法。然而,大多数基于扩散的逆问题解决方法仅处理二维图像,即使是最近发表的三维方法也没有充分利用三维分布先验。为了解决这个问题,我们提出了一种新方法,使用两个垂直的预训练二维扩散模型来解决三维逆问题。通过将三维数据分布建模为不同方向切片的二维分布的乘积,我们的方法有效地解决了维数灾难。我们的实验结果表明,我们的方法对于三维医学图像重建任务非常有效,包括 MRI Z 轴超分辨率、压缩感知 MRI 和稀疏视图 CT。我们的方法可以生成适合医疗应用的高质量体素体积。代码可在 https://github.com/hyn2028/tpdm 获得
根据此指导和时间范围预期,本文将有助于委员会指导公用事业公司为未来高 DER 实现电网现代化,并帮助委员会考虑一系列配电系统运营商的角色和职责,以确定最能快速发展电网能力和运营的 DSO 模型,以整合更高水平的 DER,实现该州 100% 清洁能源的目标。高 DER 程序的大部分范围旨在短期内进行更改,以改善配电规划和运营,从而实现 DER 的社会和费率价值最大化。本文通过对长期结构和运营变化的研究来补充这些短期努力。未来电网研究的一些结果可以为电网规划和运营的短期变化提供信息,但其中大部分必然侧重于长期变化。
创伤性脑损伤(TBI)是指由外力造成的脑损伤,典型的影响很大,通常是由于汽车事故,跌倒或运动损伤等事件造成的。在2019年全球记录了超过2700万例新的TBI病例,这种类型的伤害很常见,可能会威胁生命[1]。尽管在影响时发生了主要伤害,但TBI患者面临着次要损伤的巨大风险,在初次创伤后的几个小时甚至几天内,这种损伤可能会逐渐发展[2]。这些次要侮辱与颅内压增加(ICP)有关,这是颅库内压力的危险增加。当ICP增加时,可以限制脑血流。这种限制可能导致脑缺血,其中大脑被剥夺了氧气,这是ICP升高的主要伤害作用。紧急医疗干预需要管理和减少ICP,因为ICP的未经治疗的海拔高程会导致永久性神经系统损害,昏迷甚至死亡。预防和管理次要损伤对于对TBI患者的治疗至关重要,并且通常涉及对ICP的持续监测,稳定患者的状况以及采用干预措施,例如药物,手术减压或脑脊髓液流体,以最大程度地损害进一步的损害。迅速治疗升高的ICP可以显着提高预后,并降低长期残疾的可能性[3,4]。
培训大语言模型(LLM)已成为人工智能进展的核心,数据集,培训前和训练后方法在其性能和可扩展性方面扮演着互补的角色。此博士学位课程探讨了训练这些模型的关键阶段,并强调了数据对下游任务中模型性能的影响。学生将通过全面研究数据集构建,优化技术,缩放定律,培训前策略,合成数据生成以及培训后的改进(例如,进行微调和对齐方式),通过全面的研究构建LLM的理论和实践。该课程将结合理论指导与动手实验相结合。学生将洞悉:##创建高质量,多样化和有效数据集的原则和方法。##¢优化策略,用于大规模模型培训,包括计算效率。##经验缩放定律及其对模型大小和数据集大小的影响。#¢利用合成数据及其在改善概括和鲁棒性中的作用。##训练技术,例如人类反馈(RLHF)的增强学习以及与期望的结果结合。