摘要。大型模型的兴起,通常称为基础模型,导致了人工智能研究领域的巨大进步。我们的经验发现表明,在特定表面分割挑战方面,大型模型可能会挣扎或表现不佳,包括识别和在条形钢表面上的缺陷(s 3 d)以及磁性瓷砖表面上不完美的情况检测。将大型模型应用于缺陷分割,而不是对大型模型进行填充,我们建议使用几种经典滤器来增强输入图像,提出了segrive demage d riven d riven d riven-d riven d riven-d riven。在这种情况下,多层中的过滤器的权重通过增强学习控制。然后,我们在具有不同少量设置的两个S 3 D数据集上测试我们的方法。我们的方法与S 3 D(例如CPANET)的其他方法相比,完成了任务。我们认为,我们的工作不仅为下游任务打开了机会,例如分割大型模型的工业缺陷,而且可能在将来在各种领域中都有潜在的应用,包括医疗图像处理,远程感应图像分析,农业等。
摘要:脑肿瘤是由脑组织细胞不规则生长而成的颅内肿块。医学影像在发现和检查器官的精确功能方面起着至关重要的作用。利用深度学习的最新进展,物体检测的性能得到了显着提高。本文提出了一种基于卷积神经网络(CNN)架构模型的分类方法,用于从磁共振成像(MRI)图像中检测脑肿瘤。网络训练在原始数据集和增强数据集中进行。而整个脑部MRI图像被缩放以适合每个预训练CNN网络的输入图像大小。此外,在准确度、精确度、特异性、灵敏度和F1分数方面对所提出的模型与其他预训练模型进行了比较研究。最后,实验结果表明,无需数据增强,所提出的方法在分割率为80:20的情况下实现了96.35%的总体准确率。而添加数据增强功能可将相同分割率的准确率提高到 97.78%。因此,获得的结果证明了所提出的方法在协助专业人员进行自动医疗诊断服务方面的有效性。
目前,深度学习模型在现实世界的面部识别任务中达到了人类水平。我们回顾了使用基于深度学习的计算方法理解人脸处理的科学进展。这篇综述围绕三个基本进展展开。首先,经过面部识别训练的深度网络会生成一个表示,该表示保留了有关面部(例如身份、人口统计、外观、社交特征、表情)和输入图像(例如视点、照明)的结构化信息。这迫使我们重新思考视觉逆光学问题的可能解决方案。其次,深度学习模型表明,面部的高级视觉表示无法从可解释的特征方面来理解。这对理解高级视觉皮层中的神经调节和群体编码具有重要意义。第三,深度网络中的学习是一个多步骤的过程,迫使人们从理论上考虑各种可以重叠、随时间积累和相互作用的学习类别。需要多种学习类型来模拟人类面部处理技能的发展、跨种族效应以及对个人面孔的熟悉程度。
神经网络容易对稍加修改的输入图像进行错误分类。最近,已经提出了许多防御措施,但没有一种能够持续提高神经网络的鲁棒性。在这里,我们建议使用对抗性攻击作为函数评估来搜索可以自动抵御此类攻击的神经架构。对文献中的神经架构搜索算法的实验表明,虽然它们准确,但它们无法找到鲁棒的架构。一个重要原因在于它们的搜索空间有限。通过创建一种新颖的神经架构搜索,其中包含密集层与卷积层连接的选项以及反之亦然,以及在搜索中添加连接层,我们能够进化出一种在对抗性样本上固有准确的架构。有趣的是,这种进化架构的固有鲁棒性可与对抗性训练等最先进的防御措施相媲美,同时仅在非对抗性样本上进行训练。此外,进化的架构利用了一些特殊的特性,这些特性可能有助于开发更强大的架构。因此,这里的结果证实了更强大的架构是存在的,并为神经网络的开发和探索开辟了一个新的可行性领域。
尽管开发了用于合成图像归因的多种方法,但其中大多数只能归因于训练集中包含的模型或体系结构生成的图像,并且不适用于未知体系结构,从而阻碍了其在现实世界中的适用性。在本文中,我们提出了一个依赖暹罗网络来解决合成图像对生成它们的体系结构的开放设定归因的问题。我们考虑两个不同的设置。在第一个设置中,系统确定是否由相同的生成体系结构产生了两个图像。在第二个设置中,系统验证了用于生成合成图像的体系结构的主张,并利用由声明的体系结构生成的一个或多个参考图像。提出的系统的主要优势在于它在封闭和开放式场景中都可以操作的能力,以便输入图像(查询和参考图像)可以属于训练期间考虑的体系结构。实验评估包括各种生成架构,例如gan,扩散模型和变压器,重点关注合成面部图像产生,并在封闭和开放设定的设置以及其强大的概括能力中确认了我们方法的出色性能。
随着大型语言模型(LLM)的出现,具有越来越令人印象深刻的范围,已经提出了许多大型视觉模型(LVLM),以使LLM具有视觉输入。这样的模型在输入显示和文本提示下生成了文本,从而实现了各种用例,例如视觉问答和多模式聊天。虽然先前的研究检查了LLMS产生的文本中所包含的社会偏见,但该主题在LVLM中得到了相对尚未探索的。检查LVLMS中的社会偏见尤其具有挑战性,这是因为在文本和视觉方式中所包含的信息所产生的偏见的混乱贡献。为了解决这个挑战性问题,我们对不同的LVLM产生的文本进行了大规模研究,该文本在反事实上对输入图像进行了更改,从而从流行模型中提出了超过5700万个响应。我们的多维偏见评估框架表明,图像中描述的种族,性别和身体特征等社会属性可能会显着影响有毒内容,能力相关词,有害的立体类型以及个人的数值等级的产生。
生物特征识别技术多种多样:我们可以分析手的形状 [2]、虹膜的设计 [3]、声音、视网膜的血管化和脸部的形状。[4] 同样,签名的动态识别 [5] 也可以实时分析(速度、笔上的压力等)。鉴于其成本低、操作简便和指纹识别结果的可靠性,该技术占据了生物特征识别市场的三分之二以上。指纹识别算法多种多样,基于不同的技术,以便从输入图像中提取有用的信息。显然,图像越清晰、越好,系统就越可靠、越快。图像传感器由许多感光点组成,每个感光点对应一个图像元素,即“像素”。图像传感器的每个像素记录其所暴露的光量,并将其转换为相应数量的电子。光越强,产生的电子数量就越多。指纹识别系统中嵌入的传感器种类繁多,基于多种技术,例如:� CCD 传感器:它们已在相机中使用了 30 多年,具有许多优点。一般来说,它们对光的灵敏度仍然比 CMOS 传感器略高,产生的噪音也少一些。然而,它们更昂贵,更难集成到相机中。� CMOS 传感器:它们降低了相机的整体价格,因为它们包含
Vision Transformer(VIT)在计算机视觉领域取得了重大步骤。然而,随着模型的深度和输入图像的重新分配增加,与培训和运行的VIT模型相关的计算成本急剧上升。本文提出了一个基于CNN和Vision Trans-trans-trans的混合模型,称为CI2P-VIT。该模型包含一个称为CI2P的模块,该模块利用Compressai编码来压缩图像,然后通过一系列连接生成一系列贴片。CI2P可以替换VIT模型中的贴片嵌入组件,从而无缝集成到现有的VIT模型中。与VIT-B/16相比,CI2P-VIT具有减少到原始四分之一的自我发项层的斑块输入数量。此设计不仅显着降低了VIT模型的计算成本,而且还通过引入CNN的电感偏置特性有效地提高了模型的准确性。VIT模型的精度显着提高。在Animal-10数据集的地面上接受训练时,CI2P-VIT的准确率为92.37%,比VIT-B/16基线提高了3.3%。此外,该模型的计算操作以每秒浮点操作(FLOPS)测量,减少了63.35%,并且在相同的硬件配置上的训练速度增加了2倍。
摘要 - 为了克服自动飞行中无人驾驶汽车(无人机)避免障碍物的挑战,本文提出了双重体验注意力卷积软卷积 - 批评者(DAC-SAC)算法。该算法与卷积网络集成了双重体验缓冲池,自我注意力的机制和软性批判性算法。由于缺乏成功的培训数据,双重体验缓冲池用于解决无效的无人机培训问题。为了克服处理图像数据中原始软演员 - 批评(SAC)算法的缺点,应用了卷积神经网络(CNN)来重建参与者和评论家网络,从而可以更好地提取图像特征提取和分类。此外,通过向网络添加卷积自我发项层来采用一种自我注意的机制。此修改可以根据不同输入图像特征对注意力重量进行动态调整,从而有效解决与焦点相关的挑战。进行了两个模拟实验,并且在处理未知环境时,DAC-SAC算法在已知环境中达到99.5%的成功率,成功率为84.8%。这些结果证实,即使将深度图像作为输入,提出的算法也可以避免无人机的自主障碍。
基于概念的解释方法,例如Conept瓶颈模型(CBMS),旨在通过将这些概念准确地归因于Net-Net Work的特征空间的关键假设,旨在通过将其决策与人为理解的概念联系起来,以提高机器学习模型的可解释性。但是,这种基本假设尚未得到严格验证,主要是因为该领域缺乏标准化的群众和基准来评估此类概念的存在和空间对齐。为了解决这个问题,我们提出了三个指标:概念全球重要性指标,概念存在和概念位置指标,包括一种可视化概念激活的技术,即概念激活映射。我们基准了事后CBM,以说明其能力和挑战。通过定性和定量实验,我们证明,在许多情况下,即使是由事后CBMS确定的最重要的概念也不存在于输入图像中。此外,当它们存在时,其显着性图无法通过在整个对象上激活或误导相关概念特异性区域来与预期区域保持一致。我们分析了这些局限性的根本原因,例如概念的自然相关性。我们的发现不需要更仔细地应用基于概念的解释技术,尤其是在空间解释性至关重要的环境中。