视觉模型(VLM)的最新进步在弥合计算机视觉和自然语言处理之间的差距方面取得了重大飞跃。然而,传统的VLM通过对有限和嘈杂的图像文本对进行对比学习训练,通常缺乏空间和语言的理解,可以很好地推广到密集的视觉任务或更少的通用语言。我们的方法,坚实的基础剪辑(SF-CLIP),通过隐式建立对经过大量单峰数据训练的基础模型的可靠的视觉和语言理解来避免此问题。sf-clip将对比的图像文本预测与大型基础文本和视觉模型的掩盖知识蒸馏。这种方法可以指导我们的VLM开发强大的文本和图像表示。结果,SF-CLIP显示出异常的零射击分类精度,并增强了图像和文本检索能力,为在YFCC15M和CC12M上训练的VIT-B/16的新最新状态。此外,在语义分割任务中,密集的每个斑点监督增强了我们的零射击和线性探针的性能。我们模型的一个了不起的方面是它的多语言能力,尽管主要接受了英语数据的培训,但通过多种语言的强劲检索结果证明了这一点。我们通过选择性地应用掩盖的蒸馏和教师单词嵌入的继承来实现所有这些改进,而无需牺牲培训效率。
•圣徒。J.,假设。P.,十字架。L.,Távora。 L.,fonseca pinto。 R.,Faria。 S.,“基于最小速率预测指标的光场图像的无损编码”,《视觉通信和图像表示杂志》,54,21-30,2018; https://doi.org/10.1016/j.jvcir.2018.03.003•Gonzalez,M.,M.,Blue,Guzman,Guzman。,Nicolas,M.,Fonseca-Pinto,R.,Trivi,R.,Trivi,M.,Rabal,H. Bioengenieria,22(1),2018年; •Bento,路易斯; fonseca pinto rui; Povoa,Pedro,“在重症监护环境中对自主神经系统的监测”,Rev. 胸罩。 ter。 密集; 29(4),pp。 481-489,2017; http://dx.doi.org/10.5935/0103-507x.20170072。 •圣礼,Joana F。; Ribeiro,Maria J。;罗德里格斯(Rodrigues),瓜里诺(Guarino),玛丽亚(Maria),p。; Fonseca-Pinto,Rui; Conde,S。“颈动脉体育活性的功能废除胰岛素作用和大鼠葡萄糖稳态:内脏脂肪组织和肝脏的关键作用”。 糖尿病学,V。60,n。 1,pp。 158-168,2017; http://dx.doi.org/10.1007/s00125-016-4133-y•JoãoM。Santos; Pedro A. A.假设;路易斯·席尔瓦·克鲁兹(Luis A. Silva Cruz); Fonseca-Pinto,Rui;路易斯·塔沃拉(Távora); Faria,Sergio,“无损标准编码的光场预处理方法的绩效评估”。 ieee comsoc mmtc Communications,v。12,n。 4,pp。 44-49,2017。http://mmc.committees.com.soc.org/files/2015/08/mmmtc_communication_frontier_frontier_july_july_2017 _singlecolumn_v1.pdfL.,Távora。L.,fonseca pinto。R.,Faria。 S.,“基于最小速率预测指标的光场图像的无损编码”,《视觉通信和图像表示杂志》,54,21-30,2018; https://doi.org/10.1016/j.jvcir.2018.03.003•Gonzalez,M.,M.,Blue,Guzman,Guzman。,Nicolas,M.,Fonseca-Pinto,R.,Trivi,R.,Trivi,M.,Rabal,H. Bioengenieria,22(1),2018年; •Bento,路易斯; fonseca pinto rui; Povoa,Pedro,“在重症监护环境中对自主神经系统的监测”,Rev. 胸罩。 ter。 密集; 29(4),pp。 481-489,2017; http://dx.doi.org/10.5935/0103-507x.20170072。 •圣礼,Joana F。; Ribeiro,Maria J。;罗德里格斯(Rodrigues),瓜里诺(Guarino),玛丽亚(Maria),p。; Fonseca-Pinto,Rui; Conde,S。“颈动脉体育活性的功能废除胰岛素作用和大鼠葡萄糖稳态:内脏脂肪组织和肝脏的关键作用”。 糖尿病学,V。60,n。 1,pp。 158-168,2017; http://dx.doi.org/10.1007/s00125-016-4133-y•JoãoM。Santos; Pedro A. A.假设;路易斯·席尔瓦·克鲁兹(Luis A. Silva Cruz); Fonseca-Pinto,Rui;路易斯·塔沃拉(Távora); Faria,Sergio,“无损标准编码的光场预处理方法的绩效评估”。 ieee comsoc mmtc Communications,v。12,n。 4,pp。 44-49,2017。http://mmc.committees.com.soc.org/files/2015/08/mmmtc_communication_frontier_frontier_july_july_2017 _singlecolumn_v1.pdfR.,Faria。S.,“基于最小速率预测指标的光场图像的无损编码”,《视觉通信和图像表示杂志》,54,21-30,2018; https://doi.org/10.1016/j.jvcir.2018.03.003•Gonzalez,M.,M.,Blue,Guzman,Guzman。,Nicolas,M.,Fonseca-Pinto,R.,Trivi,R.,Trivi,M.,Rabal,H. Bioengenieria,22(1),2018年; •Bento,路易斯; fonseca pinto rui; Povoa,Pedro,“在重症监护环境中对自主神经系统的监测”,Rev.胸罩。ter。密集; 29(4),pp。481-489,2017; http://dx.doi.org/10.5935/0103-507x.20170072。•圣礼,Joana F。; Ribeiro,Maria J。;罗德里格斯(Rodrigues),瓜里诺(Guarino),玛丽亚(Maria),p。; Fonseca-Pinto,Rui; Conde,S。“颈动脉体育活性的功能废除胰岛素作用和大鼠葡萄糖稳态:内脏脂肪组织和肝脏的关键作用”。糖尿病学,V。60,n。 1,pp。158-168,2017; http://dx.doi.org/10.1007/s00125-016-4133-y•JoãoM。Santos; Pedro A.A.假设;路易斯·席尔瓦·克鲁兹(Luis A. Silva Cruz); Fonseca-Pinto,Rui;路易斯·塔沃拉(Távora); Faria,Sergio,“无损标准编码的光场预处理方法的绩效评估”。ieee comsoc mmtc Communications,v。12,n。 4,pp。44-49,2017。http://mmc.committees.com.soc.org/files/2015/08/mmmtc_communication_frontier_frontier_july_july_2017 _singlecolumn_v1.pdf
摘要:计算机技术的最新开发可能导致量子图像算法成为热点。量子信息和计算给出了我们的量子图像算法的一些优势,这些算法处理了原始经典图像算法无法解决的有限问题。图像处理为量子图像的应用而哭泣。量子图像上的大多数作品都是理论上的,有时甚至是未抛光的,尽管量子计算机中的现实世界实验已经开始并正在繁殖。但是,正如计算机技术的开发有助于推动技术革命一样,从量子力学,量子信息和极其强大的计算机上提出了一种新的量子图像算法。引入了量子图像表示模型来构建图像模型,然后将其用于图像处理。为了重建或估计点扩散函数,采用了先验知识,并根据相反的处理获得非分类估计。使用最佳的平滑度度量来解决噪声的模糊功能。在约束条件上,确定最小标准函数并估计原始图像函数。对于某些运动模糊和某些噪声污染(例如高斯声音),所提出的算法能够产生更好的恢复结果。另外,应该注意的是,当存在噪声强度非常低的噪声攻击时,基于约束最小二乘过滤的模型仍然可以带来良好的恢复结果,并且具有很强的鲁棒性。随后,讨论实现量子电路和图像过滤的复杂性的仿真分析,并证明当噪声密度较小时,该算法对模糊恢复具有良好的影响。
交互式3D环境是对体现的AI代理进行培训和评估的关键,这使得对现实的大型3D数据集的可用性对于该地区未来的杂志至关重要。然而,现代的最先进的模拟数据库很少包含一百多个相互影响的场景[26] [19] [14],因为手动场景既耗时又耗时且昂贵。虽然已经努力从头开始生成模拟场景[5],但在这些环境中训练AI代理的结果并不令人满意[12],可能是因为这些解决方案使用过度简单的规则,导致了不现实的世代。同时,扫描真实环境构建的3D重建数据集可能包含数千个现实的场景[4] [42] [40],而缺乏交互所需的物理对象注释。在此项目中,我们引入了一个解决方案,该解决方案利用了在线可用于在两个阶段的程序生成的在线可用的Abun dant 3D重建数据。首先,我们使用接地的SAM [33],这是一个强大的开放式对象检测和半分割工具来分割和注释输入3D网格,并使用用户定义的对象类别。第二,我们使用剪辑[28]图像表示和上一步预测的类标签找到了每个检测到的对象的最近数据库对象(语义和方向上的类似)。此过程可用于将任何3D网格场景(重建或生成)转换为具有较高的环境,通过用丰富的注释数据库对象替换其原始网格顾问来通过重新流动。
人工智能在理解生物学视觉方面的承诺依赖于将计算模型与大脑数据的比较,以捕获视觉信息处理的功能原理。卷积神经网络(CNN)成功地匹配了沿着大脑前馈视途径发生的层次处理的转换,并延伸到腹侧颞叶皮层。但是,我们仍然要了解CNN是否可以成功地描述早期视觉皮层中的反馈过程。在这里,我们研究了人类早期视觉皮层和具有编码器/解码器体系结构的CNN之间的相似性,并接受了自我监督的学习训练以填充闭塞并重建了看不见的图像。使用代表性相似性分析(RSA),我们比较了来自人类参与者中未刺激的早期视觉皮层贴片的3T功能磁共振成像(fMRI)数据,这些数据是查看部分遮障图像的人类参与者中的,与同一图像中的CNN层激活不同。结果表明,我们的自我监督图像完成网络在与fMRI数据的相似性方面优于经典的对象识别网络(VGG16)。这项工作提供了其他证据,表明视觉系统的最佳模型可能来自较少受到监督训练的饲养场体系结构。我们还发现,与编码器激活相比,CNN解码器途径激活与大脑处理更相似,这表明早期视觉皮层中的中和低/中级特征的整合。挑战人工智能模型,通过自学学习学习自然图像表示,并将其与大脑数据进行比较可以帮助我们限制我们对
Vision Transformers(VIT)已成为代表学习中最新的架构,利用自我注意的机制在各种任务中脱颖而出。vits将图像分为固定尺寸的补丁,将其限制为预定义的大小,并需要进行预处理步骤,例如调整大小,填充或裁剪。这在医学成像中构成了挑战,尤其是在肿瘤等不规则形状的结构中。一个固定的边界盒子量产生的输入图像具有高度可变的前景与地面比率。进行医学图像可以降低信息并引入人工制品,从而影响诊断。因此,对感兴趣区域的裁缝量化作物可以增强特征代表能力。此外,大图像在计算上是昂贵的,尺寸较小,风险信息损失,表现出计算准确性的权衡。我们提出了Varivit,这是一种改进的VIT模型,该模型制定了用于处理可变图像尺寸的同时保持连贯的贴片大小。varivit采用新颖的位置嵌入调整大小方案,用于可变数量的斑块。我们还将在变量内实施一种新的批处理策略,以降低计算复杂性,从而导致更快的培训和推理时间。在我们对两个3D脑MRI数据集的评估中,变量超过了胶质瘤基因型预测和脑肿瘤分类中的香草vits和重新连接。它的F1得分分别为75.5%和76.3%,学习了更多的判别特征。与常规体系结构相比,我们提出的批处理策略将计算时间最多减少了30%。这些发现强调了图像表示学习中变量的功效。关键字:视觉变压器,建筑,表示,肿瘤分类
摘要 恶意软件是一种不断发展和不断上升的威胁,尤其是勒索软件,这是一种恶意软件。勒索软件即服务平台的兴起加剧了这种激增,恶意软件研究人员需要快速可靠地识别勒索软件家族的选项,以保护个人数据和重要基础设施。在本研究中,我们提供了一种基于图像的检测和分类方法,可以通过将勒索软件与已知的勒索软件家族进行比较来帮助研究人员识别勒索软件的来源。我们的目标是使用有限大小的训练数据集和 COTS 硬件对给定的勒索软件样本达到高准确度和低误报率。我们使用了从 VirusTotal (VT) 获得的 347,307 个 Windows 可执行恶意软件样本的数据集。这些样本由 VT 在 2017 年至 2020 年期间收集。从这个数据集中,我们选择了被确认为已知勒索软件的样本。我们应用了一种新颖的 AI 驱动方法,根据二进制文件的图像表示对勒索软件进行分类。安全从业人员和学者已将这种方法用于一般恶意软件,但并未用于勒索软件等特定类型的恶意软件。我们使用了一种简单的方法,根据 Keras(TensorFlow 开源机器学习平台的 Python API)中 16 个可用应用程序来选择性能最佳的卷积神经网络。这些应用程序在 ImageNet 自然图像数据集上进行了预训练。所提出的方法实现了 90% 以上的准确率和高召回率,基于三通道 (RGB) 图像高概率检测勒索软件。我们数据集上得分最高的模型是 MobileNet 和 MobileNetV2。关键词:勒索软件、计算机视觉、深度学习、CNN、机器学习
背景和目标 脑肿瘤评估中的比较诊断使得在评估新患者时可以使用医疗中心的可用信息来比较类似病例。通过利用人工智能模型,所提出的系统能够针对给定的查询检索最相似的脑肿瘤病例。主要目标是通过生成更准确的医学图像表示来增强诊断过程,特别关注患者特定的正常特征和病理。与以前的模型的一个关键区别在于它能够仅从二进制信息中生成丰富的图像描述符,从而无需昂贵且难以获得的肿瘤分割。 方法 所提出的模型使用人工智能检测患者特征以从数据库中推荐最相似的病例。该系统不仅建议相似病例,而且在其设计中平衡了健康和异常特征的表示。这不仅鼓励其使用的推广,而且还有助于临床医生的决策过程。这种推广使得未来在不同的医学诊断领域进行研究成为可能,而系统几乎没有任何变化。 结果 我们对我们的方法与类似研究进行了比较分析。所提出的架构在患者的肿瘤和健康区域中均获得了 0.474 的 Dice 系数,这优于以前的文献。我们提出的模型擅长从脑磁共振 (MR) 中提取和组合解剖和病理特征,在依赖较便宜的标签信息的同时获得最先进的结果。这大大降低了培训过程的总体成本。我们的研究结果强调了提高比较诊断和治疗肿瘤病理的效率和准确性的巨大潜力。结论本文为进一步探索所提出的架构的更广泛适用性和优化以增强临床决策提供了实质性基础。本研究提出的新方法标志着医学诊断领域的重大进步,特别是在人工智能辅助图像检索的背景下,并有望使用人工智能作为支持工具而不是黑箱系统来降低成本并提高患者护理质量。
d 澳大利亚莫纳什大学心理科学学院 摘要 在磁共振成像 (MRI) 中,图像采集通常在测量域中欠采样以加速扫描过程,但会牺牲图像质量。然而,图像质量是影响临床诊断准确性的关键因素;因此,从欠采样测量中进行高质量的图像重建一直是一个关键的研究领域。最近,深度学习 (DL) 方法已成为 MRI 重建的最新技术,通常涉及深度神经网络通过数据驱动的过程将欠采样的 MRI 图像转换为高质量的 MRI 图像。尽管如此,在消除混叠伪影和降低图像噪声方面,欠采样 DL MRI 重建仍有明显且巨大的改进空间,以满足临床诊断所需的高标准。在本文中,我们引入了一种使用对比学习的自监督预训练程序来提高欠采样 DL MRI 重建的准确性。我们使用对比学习将 MRI 图像表示转换为潜在空间,该潜在空间最大化不同欠采样表示之间的相互信息,并优化下游 DL 重建模型输入处的信息内容。我们的实验表明,在一系列加速因子和数据集上,重建精度都有所提高,无论是定量还是定性。此外,我们的扩展实验验证了所提出的框架在对抗条件下的稳健性,例如测量噪声、不同的 k 空间采样模式和病理异常,并证明了在具有完全不同解剖结构的 MRI 数据集上的迁移学习能力。此外,我们还进行了实验来可视化和分析所提出的 MRI 对比学习潜在空间的属性。代码可在此处获得。关键词:对比学习潜在空间、相互信息最大化、欠采样 MRI 重建、深度学习模型、重建精度
认知科学家先驱3D空间推理是所有智力过程的基础。多模式大型语言模型(MLMS)由于对2D图像的印象令人印象深刻而被广泛采用,已被证明缺乏3D空间推理。对这些模型赋予的精确3D空间功能的评估有限。现有的基准用于探测MLMS中空间理解的基准主要集中于粗级空间意识(例如在左侧的左侧),或在预测给定对象查询的边界框时。相反,我们希望对模型对整个场景的语义和空间理解进行更全面的评估。因此,我们提出了一个基准R2D3,其中MLM的任务是将2D图像表示为具有精确3D位置和姿势的一组语义资产,该姿势可以准确地重建图形引擎中的3D场景。“通过综合分析”的这一任务要求该模型对组成场景及其精确3D相对位置的元素有全面的了解。我们的基准包括AI2THOR环境中的12K室内场景,并且与几个下游应用程序(例如体现的AI,空间推理和导航任务)兼容。使用我们的基准测试,我们探索了鼓励精确空间推理的MLM的调整技术。出乎意料的是,我们发现在基准的训练集上进行的常规微调虽然足以理解语义,但不足以了解场景中对象的精确3D位置和姿势。包括深度或通过标记图像中的点以及在训练期间包括其3D坐标(包括其3D坐标)的深度或传达精确的摄像机场取向,使该模型可以在测试时改进3D空间估计。我们希望R2D3基准测试将有助于探索探索设计选择的进步,从而改善对MLMS的精确3D空间理解。