摘要。我们提出了可扩展的插值变压器(SIT),这是建立在扩散变压器(DIT)骨架上的生成模型家族。与标准扩散模型更灵活地连接两个分歧的室内框架使得对各种设计选择的模块化进行了模块化研究,从而影响了基于动态传输的生成模型:在离散或连续的时间内学习,目标函数,interpolant,interpolant,interpolant连接分布和确定性或确定性或确定性或结构性的样本。通过使用完全相同的模型结构,参数数量和gflops,仔细地引入上述成分,SIT在条件成像网256×256和512×512基准上均匀地超过DIT。通过调查各种扩散系数,可以与学习分开调整,SIT分别达到50k的得分为2.06和2.62。代码可在此处找到:https://github.com/willisma/sit
我们研究对比视力语言模型(VLM)中的文化和社会经济多样性。使用广泛的基准数据集和评估指标,我们引起了一些重要的发现。首先,将培训数据的常见过滤到英语图像 - 文本对缺点社区的社区较低的社区,并对文化理解产生负面影响。值得注意的是,这种性能差距并未被目前流行的评估指标捕获,而不是与西方以西方为中心的ImageNet和可可数据集衍生的评估指标相矛盾。第二,在对英语内容进行微调之前对全球,未经过滤的数据进行预处理可以提高文化理解,而无需牺牲所述流行基准的表现。第三,我们将地理定位的任务介绍为评估VLM中文化多样性的新型评估指标。我们的工作强调了使用不同数据来创建更具包容性的多模式系统的价值,并为开发更好地代表全球视角的VLM奠定了基础。
深度神经网络的最新进展成功地改善了各种学习问题[40,8,26,19,20]。但是,对于监督学习,大量的训练数据仍然是学习准确的深层模型的关键。尽管可能可用于一些预先规定的域,例如ImageNet [7],但对于每个临时目标域或任务而言,手动标签通常很难或昂贵。缺少IN-ININAIN标记的数据阻碍了在许多实际问题中拟合模型的应用。在没有来自目标域的标记数据的情况下,已经出现了无监督的域适应(UDA)方法,以减轻数据分布的域移动[2,1,1,5,37,30,18,3,3,17]。它与无监督的学习有关,因为它仅需要从源域和目标域的零标签手动标签。在最近关于UDA的工作,这是Long等人提出的开创性工作。[22,25]旨在最大程度地减少深神经网络中源和目标域之间的差异,在此,在该网络中,域差异通过最大值
有一个广泛的说法,即甘斯很难训练,文献中的甘恩建筑充满了经验技巧。我们提供了反对这一主张的证据,并在更原则的管理中建立了现代的基线。首先,我们得出了一个行为良好的正规相对论gan损失,该损失解决了以前通过一袋临时技巧解决的模式掉落和非连面问题。我们通过数学分析我们的损失,并证明它可以承认本地融合保证,这与大多数现有的相对论损失不同。第二,我们的新损失使我们能够丢弃所有临时技巧,并替换与现代体系结构共同使用的过时的骨架。以stylegan2为例,我们提出了简化和现代化的路线图,从而导致新的MINI-MILIST基线-R3GAN。尽管很简单,但我们的方法超过了FFHQ,ImageNet,Cifar和堆叠的MNIST数据集的StyleGAN2,并与最先进的gan和扩散模型进行了比较。
图像生成扩散模型的主要轴是图像质量,结果的变化量以及结果与给定条件(例如类标签或文本提示)的对齐程度。流行的无分类器指导方法使用无条件模型来指导有条件的模型,从而以减少变化的成本,同时及时迅速排列和更高质量的图像。这些效果似乎固有地纠缠,因此很难控制。我们令人惊讶的是,可以通过使用模型本身的较小,训练较低的版本而不是无条件模型来指导生成,而不是通过指导生成来获得对图像质量的控制的控制,而不会损害变化的量。使用公开可用的网络,这会导致ImageNet生成的显着改善,为64×64的创纪录FID定为1.01,为512×512,为512×512的FID定为1.01。此外,该方法还适用于无条件扩散模型,可大大提高其质量。
目前的深度学习算法可能无法在大脑中运行,因为它们依赖于权重传输,即前向路径神经元将其突触权重传输到反馈路径,而这种方式在生物学上可能是不可能的。一种称为反馈对齐的算法通过使用随机反馈权重实现了没有权重传输的深度学习,但它在困难的视觉识别任务上表现不佳。在这里,我们描述了两种机制——一种称为权重镜像的神经回路和 1994 年 Kolen 和 Pollack 提出的算法的修改——这两种机制都允许反馈路径即使在大型网络中也快速准确地学习适当的突触权重,而无需权重传输或复杂的布线。在 ImageNet 视觉识别任务上进行测试,这些机制的学习效果几乎与反向传播(深度学习的标准算法,使用权重传输)一样好,并且它们优于反馈对齐和另一种较新的无传输算法符号对称方法。
目前的深度学习算法可能无法在大脑中运行,因为它们依赖于权重传输,即前向路径神经元将其突触权重传输到反馈路径,而这种方式在生物学上可能是不可能的。一种称为反馈对齐的算法通过使用随机反馈权重实现了没有权重传输的深度学习,但它在困难的视觉识别任务上表现不佳。在这里,我们描述了两种机制——一种称为权重镜像的神经回路和 1994 年 Kolen 和 Pollack 提出的算法的修改——这两种机制都允许反馈路径即使在大型网络中也快速准确地学习适当的突触权重,而无需权重传输或复杂的布线。在 ImageNet 视觉识别任务上进行测试,这些机制的学习效果几乎与反向传播(深度学习的标准算法,使用权重传输)一样好,并且它们优于反馈对齐和另一种较新的无传输算法符号对称方法。
已知有条件的扩散模型对数据分布具有良好的覆盖范围,但它们仍然面临输出多样性的限制,尤其是在使用无分类器的无分类引导量表进行采样以实现最佳图像质量或在小型数据集中进行培训时。我们将这个问题归因于调节信号在推理中的作用,并为扩散模型提供了改进的采样策略,这些模型可以增加产生多样性,尤其是在高导度量表下,而采样质量的损失最小。我们的抽样策略通过在推断期间将高斯噪声添加到调节矢量中,以平衡多样性和条件比对,从而使调节信号降低了调节信号。我们的条件 - 退火扩散采样器(CADS)可以与任何验证的模型和采样算法一起使用,我们表明它可以提高各种条件生成任务中扩散模型的多样性。此外,使用现有的预处理扩散模型,CADS分别以256×256和512×512的形式获得了新的最先进的FID和2.31。
深度神经网络越来越大,因此更难在受限的物联网设备上部署。拆分计算提供了一种解决方案,即拆分网络并将前几层放置在物联网设备上。这些层的输出被传输到云端,然后继续进行推理。早期的研究表明中间激活输出具有一定程度的高稀疏性,本文分析并利用激活稀疏性来减少将中间数据传输到云端时的网络通信开销。具体来说,我们分析了 CIFAR-10 和 ImageNet 上 ResNet-50 中两个早期层的中间激活,重点关注稀疏性以指导选择分割点的过程。我们对激活和特征图进行了动态修剪,发现稀疏性非常依赖于层的大小,权重与卷积层中的激活稀疏性无关。此外,我们表明,稀疏中间输出可以压缩 3.3 倍,准确度损失 1.1%,无需任何微调。当添加微调时,压缩系数增加到 14 倍,总体准确度损失为 1%。
摘要 — 在机器对机器 (M2M) 传输环境中,非常需要使用有损压缩来减少传输的信息量。然而,常用的图像压缩方法是为人类感知而设计的,而不是为人工智能 (AI) 算法的性能而设计的。众所周知,这些压缩失真会影响许多基于深度学习的架构在多个计算机视觉任务上的表现。在本文中,我们专注于分类任务,并提出了一种名为专家训练的新方法,以增强卷积神经网络 (CNN) 对压缩失真的弹性。我们在 ImageNet 数据集上使用 MnasNet 和 ResNet50 架构验证了我们的方法,以抵抗三种常用方法 (JPEG、J2K 和 BPG) 引入的图像压缩失真。结果表明,使用所提出的专家训练方法,这两种架构对测试的编码伪影具有更好的鲁棒性。我们的代码可在 https://github.com/albmarie/expert training 上公开获取。索引术语 — 人工智能 (AI)、图像编码、机器对机器 (M2M)