摘要 — 脑磁共振成像 (MRI) 是神经成像中一种重要的诊断工具,可为各种神经系统疾病提供宝贵见解。准确分类脑 MRI 图像对于帮助医疗专业人员进行诊断和治疗计划至关重要。脑 MRI 图像的多类分类在临床实践中具有重要意义。准确分类有助于检测和描述各种脑部异常,包括肿瘤、出血和神经系统疾病。我们建议的策略可以通过自动化分类过程并改善患者护理和结果来帮助医生做出及时准确的诊断。本研究使用两个标准数据集 Brats 和 Sartaj,提出了一种利用卷积神经网络 (CNN)、VGG19 和卷积神经网络支持向量机 (CNN-SVM) 算法对脑 MRI 进行多类分类的全面方法。所提出的方法利用深度学习的功能进行特征提取,并利用支持向量机 (SVM) 的多功能性进行分类。首先,训练 CNN 模型从脑 MRI 图像中提取判别特征。采用广泛使用的预训练 CNN VGG19 架构作为特征提取器。通过利用 VGG19 的预训练权重,该模型可以有效地捕获输入图像的高级表示。结果证明了该方法在准确分类脑 MRI 图像方面的有效性。进一步的研究可以探索该方法在更大数据集中的应用,并研究其他用于特征提取的深度学习架构,从而为医学图像分析和诊断提供进一步的进步。关键词 — 脑肿瘤、磁共振成像 (MRL)、卷积神经网络-支持向量机 (CNN-SVM) 算法、卷积神经网络 (CNN)、VGG19 架构
摘要 - 本文提出了专门为自动驾驶汽车设计的高级车道保管援助系统。提出的模型将强大的Xeption网络与转移学习和微调技术相结合,以准确预测转向角度。通过分析摄像机捕获的图像,该模型有效地从人类驾驶知识中学习,并提供了对安全车道保持所需的转向角度的精确估计。转移学习技术允许模型利用从Imagenet数据集获得的广泛知识,而微型调整技术则用于根据输入图像来指导角度预测的特定任务来定制预训练的模型,从而实现最佳性能。微调是通过最初冷冻预训练的模型并仅训练前10个时期的完全连接(FC)层来开始的。随后,整个模型涵盖了主链和FC层,以进行进一步的训练。为了评估系统的有效性,对包括NVIDIA,MOBILENETV2,VGG19和InceptionV3在内的流行现有模型进行了全面的比较分析。评估包括基于损耗函数的操作准确性的评估,特别是利用了平方误差(MSE)方程。所提出的模型实现了训练和验证的最低损耗函数值,证明了其出色的预测性能。这种实际评估提供了对模式的可靠性及其有效协助行驶任务的潜力的宝贵见解。此外,通过对预设计的轨迹和地图进行广泛的现实世界测试进一步评估了该模型的性能,从而导致转向角度远离所需轨迹的最小偏差。关键字 - 行长辅助,自动驾驶汽车,X CEPTION,转移学习,微调,转向角度预测
Vision Transformers(VIT)已成为代表学习中最新的架构,利用自我注意的机制在各种任务中脱颖而出。vits将图像分为固定尺寸的补丁,将其限制为预定义的大小,并需要进行预处理步骤,例如调整大小,填充或裁剪。这在医学成像中构成了挑战,尤其是在肿瘤等不规则形状的结构中。一个固定的边界盒子量产生的输入图像具有高度可变的前景与地面比率。进行医学图像可以降低信息并引入人工制品,从而影响诊断。因此,对感兴趣区域的裁缝量化作物可以增强特征代表能力。此外,大图像在计算上是昂贵的,尺寸较小,风险信息损失,表现出计算准确性的权衡。我们提出了Varivit,这是一种改进的VIT模型,该模型制定了用于处理可变图像尺寸的同时保持连贯的贴片大小。varivit采用新颖的位置嵌入调整大小方案,用于可变数量的斑块。我们还将在变量内实施一种新的批处理策略,以降低计算复杂性,从而导致更快的培训和推理时间。在我们对两个3D脑MRI数据集的评估中,变量超过了胶质瘤基因型预测和脑肿瘤分类中的香草vits和重新连接。它的F1得分分别为75.5%和76.3%,学习了更多的判别特征。与常规体系结构相比,我们提出的批处理策略将计算时间最多减少了30%。这些发现强调了图像表示学习中变量的功效。关键字:视觉变压器,建筑,表示,肿瘤分类
doi:https://dx.doi.org/10.30919/es1364优化的深度学习模型,以基于面部表达的神经疾病患者的重症监护,以面部表达患者的患者Dattatray G. Kulkarni 6和Parikshit N. Mahalle 7,*抽象的面部表情在非语言交流中起着重要作用。阅读患有神经疾病的人的面部表情至关重要,因为它们可能大大降低了口头交流能力。这样的评估需要接受医学专家的彻底检查,这可能是昂贵且具有挑战性的。借助低成本,非侵入性的,自动化的面部表达检测技术,专家可以诊断神经系统疾病。为了确定帕金森氏症,中风,阿尔茨海默氏症和贝尔麻痹疾病的人的面部表情,这项研究构建了一种微调的深度学习模型(FTDLM)。该数据集最初是从著名的互联网站点收集的。此外,还会收集使用公共访问的来源,患者最常见的面部表情的原始照片,例如通常,快乐,悲伤和愤怒。确定在寻找帕金森氏病症状时确定个体差异是否可行是数据分析的目的。裁剪以更改输入图像的图像。随后,检查了采用高斯滤波器的预处理方法,以消除噪声。使用FTDLM,使用预处理的图像来对情绪进行分类。在此建议的模型中合并了新的卷积神经网络(NCNN)和增强的黄金搜索算法(EGSA)。egsa在NCNN中用于选择超参数。建议的方法是在Python中进行的,准确性,灵敏度,特异性,回忆和精度的统计测量用于评估性能。此外,这与传统方法相反。
如今,人们对模式识别和计算机视觉等应用的兴趣使得图像处理算法变得非常重要。然而,视觉信息量的快速增长对传统计算机目前可用的计算能力造成了压力。量子图像处理 (QImP) 专注于在量子计算领域提供传统图像处理策略的对应物,利用其固有的并行特性。多年来,已经提出了许多 QImP 算法来使用量子形式对图像进行编码和处理。尽管如此,在最先进的技术中,没有足够的空间对可用的技术进行直接和实际的比较。因此,当试图了解它们是否代表了相对于传统对应物的有效机会时,就会出现困难,尤其是考虑到当今量子硬件的局限性和非理想性时。本论文的目标是定义一个与 Qiskit(一种用于量子计算的开源软件开发工具包)兼容的 QImP 算法的 Python 软件库,使用户能够灵活地比较参考输入图像上的不同技术,并通过特定的性能系数分析它们的适用性。首先,对 QImP 的现有文献进行了初步研究,以确定最有前途的算法。然后,它们被实现为参数模块,并逐渐形成了库。Jupyter Notebooks 被认为是提供有意识地应用所提供算法的实用用户指南。支持技术的选择涵盖编码方法、基本处理工具、压缩和边缘检测算法,并考虑到量子硬件有限的计算资源和实际应用的可能性。所有实施的电路都进行了测试,既通过在经典计算机上进行模拟,也在真实的量子硬件上进行测试。考虑到几个用例,不同算法在应用中的优势和劣势已经得到证实。本论文为探索 QImP 场景奠定了基础,而由于其灵活性和模块化特性,实施的库提供了包含和描述新算法并将其与其他算法进行比较的可能性。
建筑原则。我们开发了一个模块化系统,解决了任务基础的关键挑战:(i)(ii)开放世界人类环境中使用单眼相机进行视觉导航,并具有(iii)低频,高潜伏期感应和控制。不可靠的传感器流与嘈杂的本体感受相结合,在单眼环境中具有准确的深度和比例估计,具有挑战性。要解决(i),选择了依靠语义图像提示,而不是放弃3D度量几何估计,而是专注于2D图像空间中的遍历性估计。为了概括(ii)的不同场景和外观变化,使用了大规模数据集上预测的视觉特征,并在frodobots-2k数据的精选部分上进行了微调。由于硬件限制和延迟的不可预测性,(iii)很难直接解决。该系统的重点是处理次优路径找到引起的导航故障和较差的Trajectory跟踪,这是由于通信不良引起的。这是通过使用可靠的故障检测和恢复来增加导航管道来实现的。在高水平上,系统(图1)由受到启示,控制和故障检测和恢复模块组成。感知模块估计了从RGB输入的遍历性,并且还向下一个路点发出以自我为中心的方向向量。控制模块选择与Waypoint向量对齐并生成控制命令的基因差异可行的轨迹。感知。故障检测和恢复模块是对原始RGB进行的监督监视器,并预测从感知到检测失败的遍历性,覆盖控制模块以在必要时执行启发式恢复行为。鉴于需要在开放世界的人类环境中进行操作而没有由于单眼设置而没有可靠的深度感应,因此使用了基于场景语义的视觉遍历性预测。感知模块将RGB图像作为输入,并根据输入图像输出遍历性掩码,并在[0,1]中以遍历性得分为单位。在内部,快速的遍历性估计器会产生一个初始面膜,然后通过聚类启发式方法进一步进行后处理,以识别并强烈惩罚可能的障碍。估算器使用验证的恐龙视觉特征,可以对各种环境进行强有力的概括,并允许进行样品有效的训练和填充来适应新场景。在捕获不同地形上的偏好时,要训练轮式Frodobot配置的估计器,这是一种自动从Frodobots-2K
摘要 植物疾病严重影响农业生产力和质量,危及全球粮食安全。因此,应尽早发现和治疗这些疾病,以减轻损失,同时实现可持续农业。多年来,由于深度学习技术的出现,优化了基于图像的植物疾病检测过程,取得了巨大进步。本研究的目的是基于基于图像的深度学习方法准确有效地诊断农业疾病,以进行植物疾病识别。作为一种建议,该方法涉及使用卷积神经网络 (CNN) 来识别植物图像中的适当特征,随后可用于确定它们是健康的还是生病的。在训练和评估过程中,使用一组包含健康和患病植物的图像。模型架构由多个卷积层和池化层组成,用于从输入图像中提取相关特征。为了防止过度拟合,添加了 dropout 层,并以 0.0001 的小学习率对模型进行训练。 CNN 在 70,295 张训练图像的数据集上进行训练,并在属于 38 种不同植物疾病类别的 17,572 张验证图像上进行验证。该模型实现了 97.82% 的高训练准确率和 94.59% 的验证准确率。此外,模型性能的评估涉及多个指标,包括精确度、召回率和 F1 分数,这些指标显示出在农业实际应用中的良好效果。 关键词:植物病害诊断、深度学习、CNN、食品安全。1. 引言 农业是最古老的工作之一,自古以来就一直存在。植物是我们生活的重要组成部分。在印度,51% 的人口直接或间接依赖农业部门。然而,由于环境因素、污染等多种异常发育活动,导致不同类型的疾病,从而影响植物的正常生长。与哺乳动物类似,植物也会遭受各种异常疾病的困扰。导致植物疾病的生物因素被称为病原体。1.1。植物中的病原体 引起植物疾病的微生物被称为病原体,包括细菌、真菌、病毒、线虫和其他微生物。病原体侵袭植物的各个部位,包括叶子、茎、根和果实,从而表现出叶斑、枯萎、腐烂和发育不良等症状。每种病原体都有其特定的特征和入侵方式。例如,真菌病原体通常会产生孢子,这些孢子可以通过风、水或昆虫传播,而细菌生物则可以通过伤口或自然开口进入植物。另一方面,病毒通常通过昆虫媒介或受感染的植物材料传播。当病原体进入植物时,它会繁殖并传播,导致疾病发展。已知由病原体引发的植物疾病具有巨大的经济和环境影响,会降低作物产量和质量。下面列出了一些植物病原体:
从单目图像重建3D物体是计算机视觉领域的一个基本问题。高效的重建系统能够开辟广泛的应用领域,包括增强现实、电影制作和制造业。单目3D重建也是一个复杂的逆问题:虽然可见表面可以通过阴影估计,但预测遮挡表面需要强大的3D物体先验知识。我们的领域已经在两个不同的方向上出现了分歧:前馈回归[2、10、19、24、25、27、37、53、54、59-62、65、66、69]和基于扩散的生成[6、8、9、26、29、31-35、39、46-48、68、71]。尽管在两个方向上都取得了重大进展,但每个方向都有根本的局限性。基于回归的模型在粘附图像中的可见表面方面非常有效,并且推理速度通常很快。然而,它们对图像和 3D 之间的双射映射做出了过于简单的假设。这一假设在学习目标中引入了模糊性,导致遮挡区域的表面和纹理估计不佳。另一方面,基于扩散的方法是生成性的,不能预测统计平均值。然而,在建模高分辨率 3D 时,它们在推理时的迭代采样计算效率低下。此外,[27] 等先前的研究表明,扩散生成的 3D 模型与输入图像中可见表面的对齐效果较差。我们如何才能兼顾两者的优点而又避免它们的局限性?有鉴于此,我们提出了 SPAR3D,它将 3D 重建过程分为两个阶段:点采样阶段和网格划分阶段。点采样阶段使用扩散模型生成稀疏点云,然后是网格划分阶段,将点云转换为高度详细的网格。我们的主要思想是将不确定性建模转移到点采样阶段,在此阶段,点云的低分辨率允许快速迭代采样。随后的网格划分阶段利用局部图像特征将点云转换为具有高输出保真度的详细网格。减少点云网格划分的不确定性进一步促进了逆渲染的无监督学习,从而减少了纹理中的烘焙照明。我们的两阶段设计使 SPAR3D 的性能显著优于以前的回归方法,同时保持了高计算效率和对输入观测的保真度。我们方法的一个关键设计选择是使用点云来连接两个阶段。为了确保快速重建,我们的中间表示需要轻量级,以便能够高效生成。另一方面,它应该为网格划分阶段提供足够的指导。这
Manju Arora博士,Sahil Sharma和Mohd。asif khan doi:https://doi.org/10.33545/27076571.2024.v5.i1a.78摘要在这项研究工作中,我们探索了计算机视野,重点是创建强大而多功能的框架。我们的工作利用了围绕重要任务的深入学习,例如对象检测,年龄估计和性别估计。通过将蒙版R-CNN模型集成用于对象检测的模型和以估计年龄和性别估计的深面库,我们提出了一种超越一个目标边界的解决方案。我们的方法包括仔细的信息,然后再提高输入图像的质量,这证明了我们的模型效率。掩码R-CNN模型通过证明在图像中识别和查找对象的能力来提供对象检测的指导。这是下一个项目的基础,我们将使用Deep Face库将其变成年龄和性别估计。我们的测试结果不仅表明成功识别具有可靠分数的人,而且还表明了准确的年龄和性别预测。我们讨论了方法的复杂性,承认其优势,并直接解决了使用时出现的问题。关键字:Mask R-CNN,Resnet 50,FPN,深面引言深度学习和图像分析的结合为计算机视觉发展的革命铺平了道路。本文通过提供超越传统界限的全面方法,在对象检测,年龄估计和性别估计的交集中开始旅程。研究是我们工作的重要组成部分,构成了我们研究的基础。现在,计算机视觉的重要性在于它能够识别复杂的视觉信息并使其成为许多事物的基础。使用以其准确性和效率而闻名的标准R-CNN蒙版,我们准确地完成了识别和识别图像中对象的复杂过程。,但我们的才华不仅限于产品识别。我们知道人类状况并深入了解年龄和性别估计 - 了解发现数据的背景的重要性。我们的方法与深面库集成,这是一个有力的面部分析工具,并完成了对象检测阶段。这项研究不仅仅是仅解决问题;它将这些研究综合为连贯的框架。产品检测,年龄估计和性别估计的整合表明了我们方法的重要性。我们解决这些交互的框架突出了需要全面分析的现实情况的复杂性。当我们开始这项研究时,我们的目标很明确:为有关计算机视觉的持续辩论做出贡献,提供直接解决方案并在整个领域取得进展。尖端设计的这种组合反映了我们致力于推动视觉智能可能的界限。本介绍为进入整体框架奠定了舞台,其中人类难以预测的特征与现实世界的发现密切相关。通过这项工作,我们旨在扩大集成系统的能力,以促进计算机愿景,并促进进一步的创新,以追求更好的理解。
将立即通过增强的镜像视频显示,并与他们的学生一起视觉实现。以这种方式,我们的方法赋予了教学的能力,其概念的内在形式被称为角色实施例[Keevallik 2010],在该概念上,学生可以通过视觉吸引学生作为历史人物,科学专业人士或文化偶像,从而创造出更丰富,更沉浸式的学习经验,以实现的角色扮演[CarniceroerPérezet al al and。2023]。要以更高的精确度来完善和直接产生图像,这项研究特别结合了ControlNet,这是一种稳定扩散的开发,旨在增强对生成的输出的控制,从而确保视觉转换与文本提示的教育目标和提供的相机输入图像Snapshot [Zhang等人[Zhang et al》中均符合。2023]。上游,我们整合了语音识别,以将自然的口语接口与受控的导向图像生成相关。生成的AI模型,例如DALL-E或GPT4,可以从文本描述中综合高保真视觉内容。尽管它们的实用性,这些模型从根本上受到其对文本的依赖的限制,因为它们是唯一的条件输入。此约束限制了其将生成的输出调整为结构化空间输入的能力,例如深度图,语义分割掩码或姿势配置。因此,此类模型不适合需要与实时背景(例如交互式环境和实时个人化)进行精确对齐的应用。2021]。2020]。2020]与ControlNet结合[Zhang等。相比之下,ControlNet通过启用多模式输入模式(包括深度图)的整合到生成过程中来解决这一差距。深度调节是将视觉输出与参与者的物理概况(例如身体形状和空间布置)进行实时设定的关键。此功能将生成模型的适用性扩展到需要上下文和参与者特定输出的域。通过利用基于深度的调节,ControlNet促进了视觉效果的产生,这些视觉效果不仅在语义上是准确的,而且在空间上是连贯的,从而支持了新颖的应用,例如具有体现的角色扮演和沉浸式,上下文感知的教育体验。通过生成AI的角色体现与沉浸式学习的研究保持一致,当学生在教育场景中扮演角色或角色时,学生更加深入地参与。研究表明,体现历史人物的体现会发展出同理心并增强记忆力保留,因为学生与材料有着共同的联系[Miguel-Revilla等。类似地,在STEM领域,学生可以通过诸如科学家,工程师或宇航员等原型横向探索角色,这些原型将其转化为对主题的更强识别并支持持续的参与[Singer等人。更详细地探索了各种文化舞蹈风格,作为教学场景,以更直接的舞蹈学生与视觉体现的教学环境联系起来。本文采用了稳定扩散的机制引入了一个框架[Ho等。2023]实现适用于教学环境中的有针对性的特定角色转换。这种集成使受控的视觉自定义符合教室内成像的人类形式,从而使教育工作者可以设计具有与各种主题的教育目标相吻合的沉浸式,上下文准确的体验。本文的主要技术贡献是: