ImageNet,并将其分类。它可以拍摄狗的图像并将其识别为狗,还是拍摄猫的形象并将其识别为猫?5这个科学家团队找到了一种非常有效的做法
我们介绍C ONTITION- WARE神经N ETWORK(CAN),这是一种将控制添加到图像生成模式中的新方法。与先前的条件控制方法并行,可以通过动态降低神经网络的重量来控制图像生成过程。这是通过引入条件感知的重量产生模式来实现的,该模块会根据输入条件为卷积/线性层生成条件重量。我们测试可以在Coco上的ImageNet和文本对图像生成上生成类别图像的生成。可以始终如一地为包括DIT和UVIT在内的扩散变压器模型提供显着改进。特别是,Ca n与有效的T(CAT)结合在Imagenet 512×512上达到2.78 FID,超过DIT-XL/2,同时每个采样步骤需要少52×MAC。
1997 年 – IBM Deep Blue 在国际象棋中击败加里·卡斯帕罗夫 2002 年 – 第一个机器人吸尘器 2010 年 – ImageNet 数据库,由普通人进行数据标记。1400 万张图片,2 万个类别 2011 年 – IBM Watson 赢得了节目 Jeopardy!(图片来源:Siri) 2011 年 – 智能手机中的个人助理(Siri) 2016 年 – AlphaGO 击败专业围棋选手 2016 年 – 谷歌翻译开始使用神经机器翻译 8 种语言 2022 年 – OpenAI 发布 ChatGPT。2个月内用户数量就达到了1亿(这是一个记录)。
基于深度学习算法的计算机辅助诊断系统已显示出糖尿病性视网膜病快速诊断(DR)的潜在应用。由于变压器的出色表现而不是自然图像上的卷积神经网络(CNN),因此我们尝试开发一种新模型,以使用变压器使用有限数量的大型视网膜图像来对引用的DR进行分类。在本研究中应用了带有蒙版自动编码器(MAE)的视觉变压器(VIT),以提高参考DR的分类性能。我们收集了超过224×224的100,000张公共底面的视网膜图像,然后使用MAE在这些视网膜图像上进行了预训练的VIT。将预训练的VIT应用于对引用的DR进行分类,还将性能与使用ImageNet的VIT预先训练的性能进行了比较。通过使用MAE进行超过100,000个视网膜图像预先培训,模型分类性能的改善优于预先训练的Ima-Genet。本模型的精度,曲线下的面积,最高灵敏度和最高特异性分别为93.42%,0.9853、0.973和0.9539。本研究表明,MAE可以为输入图像提供更大的灵活性,并大大减少所需图像的数量。同时,这项研究中的预处理数据集量表比ImageNet小得多,并且不需要ImageNet的预训练权重。
Lili Ayu Wulandhari和她的团队观察了秋葵植物,并指出了如何从形态上看到缺乏营养素。他们着手使用深层卷积神经网络来识别营养缺乏症。他们的研究基于四种大量营养素:N,P,K和MG。他们指出,缺乏某种营养素在植物上显示出一定的形态变化。这允许检测到类似于疾病的营养缺乏症。在本研究中,使用算法作为算法的使用。使用两种训练方法:转移学习和微调。据观察,使用ImageNet数据集实现Inception Resnet算法并没有产生稳定的结果。作者怀疑这是由于ImageNet和秋葵数据集的差异所致。因此,通过冻结早期层来实施微调,实现了96%和86%的训练和测试精度[3]。
13 Krizhevsky A,Sutskever I,Hinton GE。具有深卷积280神经网络的Imagenet分类。在:第281届神经281信息处理系统国际会议论文集 - 第1卷。Curran Associates Inc。:Red Hook,NY,282 USA,2012年,第1097–1105页。283
全球正在努力“治愈自动化系统中隐藏的偏见和成见” 10 。2012 年,ImageNet 项目在为开发人员提供图像库以训练计算机识别视觉概念方面发挥了关键作用。斯坦福大学、普林斯顿大学和北卡罗来纳大学的科学家向数字工作者支付了一小笔费用,以标记超过 1400 万张图片,创建了一个大型数据集 11 ,并免费向公众发布。在极大地推动人工智能发展的同时,研究人员后来发现了数据集中的问题,例如,在数据集上训练的算法可能会将“程序员”识别为白人 12,因为有大量图片被这样标记。ImageNet 团队着手分析数据以发现这些偏见,并采取了一些措施,例如识别在图片上投射含义的单词(例如“慈善家”)并评估图片集中的人口和地理多样性。这项工作表明,算法可以重新设计以变得更加公平。
以“自2010年以来的一系列数据集和挑战对计算机视野产生如此影响的奖励。ImageNet建立在Caltech101/256数据集上,通过数量级来增加图像数量,并启用新算法的开发。” (与Alex Berg,Jia Deng,Fei-Fei Li和Wei Liu共享。)
摘要 深度神经网络 (deep NN) 的性能取决于大量需要训练的权重参数,这是一个计算瓶颈。更深层次的架构日益增长的趋势对资源受限设备上的训练和推理方案造成了限制。剪枝是去除深度 NN 中不重要的参数并使其更容易在资源受限的设备上部署以供实际应用的重要方法。在本文中,我们提出了一种基于启发式的新型滤波器剪枝方法来自动识别和剪枝不重要的滤波器,并加快资源有限设备上的推理过程。不重要的滤波器的选择由一种新颖的剪枝估计器 (c) 进行。所提出的方法在各种卷积架构 AlexNet、VGG16、ResNet34 和数据集 CIFAR10、CIFAR100 和 ImageNet 上进行了测试。在大规模 ImageNet 数据集上的实验结果表明,VGG16 的 FLOP 可降低高达 77.47%,实现 5 倍推理加速。与其他最先进方法相比,更流行的 ResNet34 模型的 FLOP 降低了 41.94%,同时保持了具有竞争力的性能。
• 2009 年:GPU • 2010 年:语音识别取得突破(Dahl 等人,2010 年) • 2012 年:ImageNet 取得突破(Krizhevsky 等人,2012 年) • 2015 年:图像和语音识别取得“超人”成绩 • 2016 年:AlphaGo 在围棋比赛中取得“超人”成绩 • 2022 年:ChatGPT 在不同领域取得“人类水平”的成绩 • 2023 年:具有多模态性的 GPT-4 Turbo 和 Gemini