视觉变形金刚在各种计算机视觉任务中取得了令人鼓舞的进步。一个普遍的信念是,这归因于自我注意力在对特征令牌之间的全球依赖性建模中的能力。然而,自我注意力仍然面临着密集的预测任务的几个挑战,包括高计算复杂性和缺乏理想的电感偏见。为了减轻这些问题,重新审视了视觉变压器与Gabor过滤器的潜在优势,并提出了使用卷积的可学习的Gabor过滤器(LGF)。LGF不依赖自我注意力,它用于模拟生物学视觉系统中基本细胞对输入图像的响应。这鼓励视觉变形金刚专注于跨不同尺度和方向的目标的歧视性特征表示。此外,基于LGF设计了仿生焦点视觉(BFV)块。此块从神经科学中汲取灵感,并引入了双路径前进网络(DPFFN),以模仿生物学视觉皮层的平行和级联信息处理方案。此外,通过堆叠BFV块开发了一个称为焦视变压器(FVITS)的金字塔骨干网络的统一家族。实验结果表明,FVIT在各种视觉任务中表现出卓越的性能。在计算效率和可扩展性方面,与其他同行相比,FVIT具有显着优势。
哥印拜陀,泰米尔纳德邦,印度摘要大火是目前世界上最大的挑战之一,这是由于地球目前正在遭受的全球变暖。我们都知道什么是火,以及它们能够造成巨大损害的原因,无论是人类,动物还是其他形式的生命。由于全球变暖的增加,大火越来越多地在世界各地传播,必须使用现代技术开发一种智能系统,该系统早日检测到火灾。因此,我们使用了一种人工智能技术,即机器学习,这是现在流行的方法之一。专业人员已经进行了大量的研究,实验和编码软件来使用机器学习来检测火灾。图像处理是一种处理,其中输入图像通过应用于其应用的某些技术转换为另一个图像作为输出。在此概念中,我们将使用USB或系统摄像机和应用程序创建一个火灾检测设备,并应用物联网和图像处理的概念以获取实时火灾检测结果。当设备打开时,它会连续监视摄像机前面的区域。这是通过使用HAAR级联分类器算法完成的。一旦检测到该系统,就可以将任何一个灭火器连接起来,以使它们独立工作,否则它可以通过GSM设置警报或将通知发送给用户移动设备。后处理的可能性是无限的。关键字:火灾检测,火灾警报系统,火灾检测系统,机器学习
摘要:本文解决了香草视觉变压器中与多头自我注意(MHSA)相关的高计算/空间复杂性。为此,我们提出了层次MHSA(H-MHSA),这是一种新颖的方法,以层次的方式计算自我注意力。具体来说,我们首先将输入图像分为通常完成的补丁,每个补丁都被视为令牌。然后,提议的H-MHSA学习本地贴片中的令牌关系,作为局部关系建模。然后,将小斑块合并为较大的贴片,H-MHSA对少量合并令牌的全局依赖性建模。终于,将本地和全球专注的特征汇总为具有强大表示能力的功能。由于我们仅在每个步骤中计算有限数量的令牌的注意力,因此计算负载大大减少。因此,H-MHSA可以在不牺牲细粒度信息的情况下有效地模拟令牌之间的环境关系。与H-MHSA模块合并,我们建立了一个基于层次的变压器网络的家族,即HAT-NET。为了证明帽子网络在场景中的优越性,我们就基本视觉任务进行了广泛的实验,包括图像分类,语义分割,对象titection和实例分段。因此,HAT-NET为视觉变压器提供了新的视角。代码和预估计的模型可在https://github.com/yun-liu/hat-net上找到。
近年来,对自动货币识别和价值检测系统的需求不断增长,以简化现金处理和金融交易的过程。图像处理技术已成为自动化这些任务的有前途的方法。本文基于图像处理技术提供了有效的货币识别和价值检测系统。拟议的系统旨在自动化货币识别和价值检测过程,这在许多财务和零售应用程序中是必不可少的任务。该系统由几个阶段组成:图像采集,图像预处理,特征提取,图像增强和分类。系统使用多种图像处理算法,包括数据增强来增强输入图像的质量并提取相关功能。这些任务涉及确定银行票据或硬币的面额并确定其价值。实验的结果证明了拟议系统在现实世界情景中的有效性,这可以大大减少货币识别和价值检测所需的时间和精力。总而言之,在各种照明条件和方向下,提出的系统在识别不同的货币(包括钞票和硬币)方面达到了高准确性和鲁棒性。该系统的性能可以大大减少货币识别和价值检测所需的时间和精力,从而适合用于金融和零售应用程序。未来的工作将集中在更具挑战性的情况下,例如处理损坏或伪造的货币,以改善系统的性能。
显着对象检测(SOD)广泛用于运输中,例如道路损坏检测,辅助驾驶等。但是,由于其大量计算和参数,重量级草皮方法很难在计算能力低的情况下应用。大多数轻型SOD方法的检测准确性很难满足应用程序要求。我们提出了一个新颖的轻质尺度自适应网络,以实现轻质限制和检测性能之间的权衡。我们首先提出了比例自适应特征提取(安全)模块,该模块主要由两个部分组成:多尺度特征交互,可以提取不同尺度的特征并增强网络的表示能力;和动态选择,可以根据输入图像根据其贡献自适应地分配不同的权重。然后,基于安全模块,设计了一个轻巧和自适应的骨干网络,并结合了多尺度特征聚合(MFA)模块,将规模自适应网络与比例自适应网络相结合。我们在六个公共数据集上对模型进行定量和定性评估,并将其与典型的重量级和轻量级方法进行比较。只有2.29 M参数,它可以在GTX 3090 GPU上实现62 fps的预测速度,远远超过其他型号,并且可以保证实时性能。模型性能达到了一般重量级方法的性能,并超过了最先进的轻量级方法。
摘要 - 自主无人驾驶汽车(UAV)已成为国防,执法,灾难响应和产品交付的重要工具。这些自主导航系统需要一个无线通信网络,并且最近是基于深度学习的。在诸如边境保护或灾难响应之类的关键场景中,确保自主无人机的安全导航至关重要。但是,这些自主无人机容易受到通过通信网络或深度学习模型的对抗性攻击 - 窃听 /中间 /成员 /成员推理 /重建。为了解决这种敏感性,我们提出了一种创新的方法,该方法结合了增强学习(RL)和完全同型加密(FHE),以实现安全的自主无人机导航。此端到端的安全框架是为无人机摄像机捕获的实时视频供稿而设计的,并利用FHE对加密的输入图像执行推断。虽然FHE允许对加密数据进行计算,但某些计算运算符尚未实现。卷积神经网络,完全连接的神经网络,激活功能和OpenAI Gym库被精心适应FHE域,以实现加密的数据处理。我们通过广泛的实验证明了我们提出的方法的功效。我们提出的方法可确保自主无人机导航中的安全性和隐私性,并且绩效损失微不足道。索引术语 - 自主无人驾驶汽车,完全同构加密,隐私,增强学习
阿尔茨海默病 (AD) 越来越影响老年人,是 65 岁以上人群的主要杀手。不同的深度学习方法用于自动诊断,但它们也存在一些局限性。深度学习是用于检测和分类医学图像的现代方法之一,因为深度学习能够自动提取图像的特征。然而,使用深度学习准确分类医学图像仍然存在局限性,因为提取医学图像的精细边缘有时被认为是困难的,并且图像中存在一些失真。因此,本研究旨在开发一种计算机辅助脑部诊断 (CABD) 系统,该系统可以判断脑部扫描是否显示出阿尔茨海默病的迹象。该系统采用 MRI 和特征提取方法对图像进行分类。本文采用阿尔茨海默病神经影像学计划 (ADNI) 数据集,包括用于阿尔茨海默病患者识别的功能性 MRI 和正电子版本断层扫描,这些扫描是为阿尔茨海默病患者和典型个体制作的。所提出的技术利用 MRI 脑部扫描来发现和分类特征,利用直方图特征提取 (HFE) 技术与 Canny 边缘相结合来表示卷积神经网络 (CNN) 分类的输入图像。此策略跟踪图像中梯度方向的实例。实验结果为 ADNI 图像分类提供了 97.7% 的准确率。
由于带注释的样本稀缺,病理性脑损伤在图像数据中的复杂表现对监督检测方法提出了挑战。为了克服这个困难,我们将重点转移到无监督异常检测。在这项工作中,我们专门使用健康数据训练所提出的模型,以识别测试期间未见的异常。这项研究需要调查基于三元组的变分自动编码器,以同时学习健康脑数据的分布和去噪能力。重要的是,我们纠正了先前基于投影的方法中固有的一个误解,该误解依赖于这样的假设:图像内的健康区域在重建输出中将保持不变。这无意中暗示了病变图像和无病变图像在潜在空间表示上存在相当大的相似性。然而,这种假设可能并不成立,特别是由于病变区域强度对投影过程的潜在重大影响,特别是对于具有单一信息瓶颈的自动编码器。为了克服这个限制,我们将度量学习与潜在采样分离。这种方法确保病变和无病变输入图像都投影到相同的分布中,特别是无病变投影。此外,我们引入了一个语义引导的门控交叉跳过模块来增强空间细节检索,同时抑制异常,利用解码器更深层中存在的健壮健康大脑表示语义。我们还发现,将结构相似性指数测量作为额外的训练目标可以增强所提模型的异常检测能力。
印度教科技研究所,coimbatore 1 sentinfo@gmail.com,2 venkat.it@gmail.com,4 ramasamy.s@hit.s@hit.edu.in,4 md.devendran@gmail.com摘要:该项目旨在为食品和beverage提供精确估算的自动化系统,以估算食物和beverage的自动化系统,并深入研究。随着对健康意识的人的需求不断增长,需要使用可靠,高效且易于使用的工具,可以帮助用户做出明智的饮食选择。该项目利用图像处理技术和深度学习模型(例如卷积神经网络(CNN))来分析食物图像并预测相应的卡路里含量。该系统首先捕获食品或饮料的图像,然后将其处理并通过预先训练的深度学习模型。该模型在包含各种食品的图像及其营养信息的大型数据集上进行培训。预处理输入图像后,该模型通过利用其学习的特征来对食物进行分类并估算卡路里计数。然后将估计的卡路里值实时显示给用户。该项目利用关键技术,包括图像识别,深度学习和营养分析。它旨在将其集成到移动应用程序或Web平台中,从而使用户可以有效地跟踪其每日热量摄入量。通过在不同的数据集上进行培训,可以不断提高系统的准确性,从而确保对不同食品的可靠卡路里估算。该工具有可能通过促进更健康的饮食习惯来彻底改变个人健康管理。关键词:卡路里估计,深度学习,图像识别,食物分类,卷积神经网络,健康管理,营养分析,实时预测。
stract:本文通过使用OPENCV实施的对象检测技术提出了一种增强视障人士可访问性的新方法。利用最新的对象检测模型,我们开发了一个实时系统,该系统能够检测相机提要中的对象并提供听觉反馈,以导航和与环境的交互。OPENCV的集成可以使有效的对象检测,边界框可视化,置信阈值和非最大抑制作用,这有助于为视觉障碍的辅助技术开发。通过对现有文献的全面审查,我们确定了为视力障碍开发可访问解决方案的创新差距和机会。我们的方法论涉及对象检测模型的选择和适应,实现了实时对象检测的OPENCV以及用于用户交互的听觉反馈的集成。我们详细介绍了实现过程,包括对输入图像的预处理,使用选定模型的对象检测,边界框的可视化以及置信阈值的应用和非最大最大抑制作用到完善检测到的对象。实验的结果证明了对象检测系统在辅助视觉受损的个体方面的有效性,并根据检测准确性,处理速度和用户反馈进行评估。讨论解释结果,解决我们方法的优势和局限性,并提出未来的研究方向。总而言之,本文强调了将OPENCV整合到为视障和概述途径开发可访问解决方案的重要性,以进一步发展辅助技术和计算机视觉。