仅使用超声图像来训练深度学习算法(称为从头开始训练)需要大量带标签的超声图像,因为深度学习算法的诊断性能会根据训练数据集的大小而提高 (11)。然而,由于人力和成本限制,可收集的数据量有限。此外,成功训练需要多少图像也是未知的。然而,有几种方法可以解决这一限制。其中一种流行的方法是迁移学习,它使用预先训练的模型,从而节省时间。预训练模型在大型基准数据集上进行训练,以解决与我们想要解决的问题类似的问题。例如,Inception 是最流行的模型之一,并使用 ImageNet 数据库进行预训练,该数据库包含超过 120 万张日常生活中常见物品的图像。使用预训练模型比训练整个深度学习算法层更有效率,尽管数据集不包含医疗图像或包含超声图像 (12)。
稀疏门控混合专家网络 (MoE) 在自然语言处理中表现出色。然而,在计算机视觉中,几乎所有高性能网络都是“密集的”,也就是说,每个输入都由每个参数处理。我们提出了一种视觉 MoE (V-MoE),它是 Vision Transformer 的稀疏版本,具有可扩展性,可与最大的密集网络相媲美。当应用于图像识别时,V-MoE 的性能可与最先进的网络相媲美,同时在推理时只需要一半的计算量。此外,我们提出了一种路由算法的扩展,该算法可以对整个批次中每个输入的子集进行优先级排序,从而实现自适应的每幅图像计算。这使得 V-MoE 能够在测试时权衡性能并顺利计算。最后,我们展示了 V-MoE 扩展视觉模型的潜力,并训练了一个 15B 参数模型,在 ImageNet 上达到了 90.35% 的准确率。
摘要 — 深度学习的出现大大加速了机器学习的发展。然而,边缘深度神经网络的部署受到其高内存和能耗要求的限制。随着新内存技术的出现,新兴的二值化神经网络 (BNN) 有望降低即将到来的机器学习硬件一代的能量影响,使机器学习能够在边缘设备上进行,并避免通过网络传输数据。在这项工作中,在介绍采用混合 CMOS - 氧化铪电阻存储器技术的实现后,我们提出了将 BNN 应用于心电图和脑电图等生物医学信号的策略,以保持准确度水平并降低内存要求。我们研究了二值化整个网络和仅二值化分类器部分时的内存-准确度权衡。我们还讨论了这些结果如何转化为 Imagenet 任务上面向边缘的 Mobilenet V1 神经网络。这项研究的最终目标是实现智能自主医疗设备。
摘要 — 深度学习的出现大大加速了机器学习的发展。然而,边缘深度神经网络的部署受到其高内存和能耗要求的限制。随着新内存技术的出现,新兴的二值化神经网络 (BNN) 有望降低即将到来的机器学习硬件一代的能量影响,使机器学习能够在边缘设备上进行,并避免通过网络传输数据。在这项工作中,在介绍采用混合 CMOS - 氧化铪电阻存储器技术的实现后,我们提出了将 BNN 应用于心电图和脑电图等生物医学信号的策略,以保持准确度水平并降低内存要求。我们研究了二值化整个网络和仅二值化分类器部分时的内存-准确度权衡。我们还讨论了这些结果如何转化为 Imagenet 任务上面向边缘的 Mobilenet V1 神经网络。这项研究的最终目标是实现智能自主医疗设备。
预训练已在深度学习中被广泛采用,以提高模型性能,特别是当目标任务的训练数据有限时。在我们的工作中,我们试图了解这种训练策略对下游模型泛化特性的影响。更具体地说,我们提出以下问题:预训练分布的属性如何影响微调模型的鲁棒性?我们探索的属性包括预训练分布的标签空间、标签语义、图像多样性、数据域和数据量。我们发现影响下游有效鲁棒性的主要因素 [44] 是数据量,而其他因素的重要性有限。例如,将 ImageNet 预训练类别的数量减少 4 倍,同时将每个类别的图像数量增加 4 倍(即保持总数据量固定)不会影响微调模型的鲁棒性。我们展示了从各种自然和合成数据源中提取的预训练分布的发现,主要使用 iWildCam-WILDS 分布转变作为稳健性测试。
扩散模型是生成时期的当前最新模型,它通过将生成过程分解为许多细粒度的排除步骤,从而综合了高质量的图像。尽管其性能良好,但扩散模型在计算上还是需要许多Neu-ral功能评估(NFES)。在这项工作中,我们提出了一种基于扩散的方法,该方法在完成前在任意时间停止时可以生成可行的图像。使用现有的预处理扩散模型,我们表明可以将生成方案重新组成为两个嵌套扩散过程,从而可以快速迭代的迭代细化。在实验和基于稳定的基于扩散的文本对图像生成的实验中,我们在定性和定量上都表明,我们的方法的相互作用质量大大超过了原始扩散模型的质量,而最后一代结果仍然可比。我们说明了嵌套扩散在多种设置中的适用性,包括用于求解逆概率,以及在整个采样过程中允许用户干预,用于快速基于文本的内容创建。1
我们将系统的任务性能以及系统开发和部署过程中产生的时间和资源成本纳入总体框架,从而重新构建对人工智能进展的分析。这些成本包括:数据、专家知识、人工监督、软件资源、计算周期、硬件和网络设施以及(什么样的)时间。这些成本分布在系统的生命周期中,可能对不同的开发人员和用户提出不同的要求。我们提出的多维性能和成本空间可以缩减为一个效用指标,用于衡量系统对不同利益相关者的价值。即使没有单一的效用函数,也可以通过人工智能是否扩展帕累托曲面来一般性地评估人工智能的进步。我们将这些类型的成本标记为人工智能进步中被忽视的维度,并使用四个案例研究对其进行探索:Alpha*(围棋、国际象棋和其他棋盘游戏)、ALE(Atari 游戏)、ImageNet(图像分类)和虚拟个人助理(Siri、Alexa、Cortana 和 Google Assistant)。这种更广泛的人工智能进步模型将带来评估人工智能系统潜在社会用途和影响的新方法,并为未来的进步设定里程碑。
扩散模型的训练和采样已在先前的艺术中详尽阐明(Karras等,2022; 2024b)。取而代之的是,底层网络架构设计保持在摇摇欲坠的经验基础上。此外,根据最新规模定律的趋势,大规模模型涉足生成视觉任务。但是,运行如此大的扩散模型会造成巨大的综合负担,从而使其具有优化的计算并有效分配资源。为了弥合这些空白,我们浏览了基于u-NET的效率扩散模型的设计景观,这是由声望的EDM2引起的。我们的勘探路线沿两个关键轴组织,层放置和模块插入。我们系统地研究基本设计选择,并发现了一些有趣的见解,以提高功效和效率。这些发现在我们的重新设计的架构EDM2+中,这些发现将基线EDM2的计算复杂性降低了2倍,而不会损害生成质量。广泛的实验和比较分析突出了我们提出的网络体系结构的有效性,该结构在Hallmark Imagenet基准上实现了最先进的FID。代码将在接受后发布。
最近的许多研究都集中在生物学上可行的监督学习算法变体上。然而,运动皮层中没有老师来指导运动神经元,大脑中的学习取决于奖励和惩罚。我们展示了一种生物学上可行的强化学习方案,适用于具有任意层数的深度网络。网络通过选择输出层中的单元来选择动作,并使用反馈连接将信用分配给负责此动作的连续较低层中的单元。做出选择后,网络会得到强化,没有老师来纠正错误。我们展示了新的学习方案——注意力门控大脑传播 (BrainProp)——在数学上等同于错误反向传播,每次针对一个输出单元。我们展示了深度全连接、卷积和局部连接网络在经典和硬图像分类基准(MNIST、CIFAR10、CIFAR100 和 Tiny ImageNet)上的成功学习。 BrainProp 的准确度与标准误差反向传播相当,甚至优于最先进的生物启发式学习方案。此外,学习的反复试验性质与有限的额外训练时间有关,因此 BrainProp 的速度要慢 1-3.5 倍。因此,我们的研究结果为如何在大脑中实施深度学习提供了新的见解。
我们提出了夹子 - 列表,这是一种通过文本注释来进行视觉表示学习的信息有效方法。与先前提出的剪辑模型相结合,在优化其对比度学习目标的过程中,夹子夹仅需要一个负面图像文本样本对。我们通过提高信息有效下限的优势来实现这一目标,以最大程度地提高两种输入方式之间的相互信息。这允许在相同尺度上比夹子相比,可以通过显着摄入的数据和批量大小进行培训。我们通过在可可扣数据集上进行预处理并测试向其他数据集的转移学习来评估夹列。夹子夹在Pascal VOC分类中获得了 +14.0%的MAP绝对增益,并且在Imagenet上获得了 +22.1%的TOP-1准确性增益,同时是合并或优于其他,更复杂,更复杂的文本监督模型。夹子夹也可以夹在图像和文本检索,零拍零分类和视觉接地上。fi-Nelly,我们表明夹具可以利用语言语义来鼓励可以在下游任务中使用的无偏见的视觉表示。实现:https:// github。com/4m4n5/clip-lite