通过将无监督和监督的机器学习方法结合起来,我们提出了一个称为Usmorph的框架,以进行星系形态的自动分类。在这项工作中,我们通过提出基于Convnext大型模型编码的算法来更新无监督的机器学习(UML)步骤,以提高未标记的星系形态分类的效率。该方法可以概括为三个关键方面,如下所示:(1)卷积自动编码器用于图像降级和重新冲突,并且模型的旋转不变性通过极性坐标扩展提高; (2)利用名为Convnext的预训练的卷积神经网络(CNN)来编码图像数据。通过主体组合分析(PCA)维度降低进一步压缩了这些特征; (3)采用基于装袋的多模型投票分类算法来增强鲁棒性。,我们将此模型应用于宇宙场中的i -band样品的i -band图像。与原始的无监督方法相比,新方法所需的聚类组的数量从100减少到20。最后,我们设法对大约53%的星系进行了分类,从而显着提高了分类效率。为了验证形态层化的有效性,我们选择了M ∗> 10 10m⊙的大型星系进行形态学参数测试。分类结果与星系在多个参数表面上的物理特性之间的相应规则与现有演化模型一致。增强的UML方法将来将支持中国空间站望远镜。我们的方法证明了使用大型模型编码对星系形态进行分类的可行性,这不仅提高了星系形态分类的效率,而且还节省了时间和人力。此外,与原始UML模型相比,增强的分类性能在定性分析中更为明显,并且成功超过了更多的参数测试。
摘要。人们对采用基于 Transformer 的架构进行医学图像分割的兴趣日益浓厚。然而,由于缺乏大规模带注释的医学数据集,要实现与自然图像相当的性能具有挑战性。相比之下,卷积网络具有更高的归纳偏差,因此很容易训练到高性能。最近,ConvNeXt 架构试图通过镜像 Transformer 块来现代化标准 ConvNet。在这项工作中,我们在此基础上进行了改进,设计了一种现代化且可扩展的卷积架构,以应对数据稀缺的医疗环境的挑战。我们推出了 MedNeXt,这是一个受 Transformer 启发的大核分割网络,它引入了 - 1)用于医学图像分割的完全 ConvNeXt 3D 编码器-解码器网络,2)残差 ConvNeXt 上采样和下采样块以保持跨尺度的语义丰富性,3)一种通过上采样小核网络迭代增加核大小的新技术,以防止在有限的医疗数据上出现性能饱和,4)在 MedNeXt 的多个级别(深度、宽度、核大小)上进行复合缩放。这使得它在 CT 和 MRI 模态和不同数据集大小的 4 个任务上实现了最佳性能,代表了一种现代化的医学图像分割深度架构。我们的代码已公开发布:https://github.com/MIC-DKFZ/MedNeXt。
受VIT的远程建模能力的启发,最近对大型内核卷积进行了广泛的研究和采用,以扩大接受场并提高模型性能,例如采用7×7深度卷积的非凡工作Convnext。尽管这种深度操作员只会消耗几个失败,但由于高内存访问成本,它在很大程度上损害了强大的计算设备的模型效率。例如,Convnext-t具有类似的Resnet-50拖鞋,但在A100 GPU上以完全精确的训练时,只能达到约60%的吞吐量。尽管减小Convnext的内核大小可以提高速度,但它会导致大量的性能退化,这带来了一个具有挑战性的问题:如何在保留其性能的同时加快基于大内核的CNN模型。为了解决这个问题的启发,我们建议将大内核深度卷积分解为沿Channel尺寸的四个平行分支,即小型平方内核,两个正交带内核和一个身份映射。通过这种新的深度卷积,我们建立了一系列的网络作品,即Incepitonnext,不仅享有高通量,而且还保持竞争性表现。例如,inceptionnext-t达到1。6×高训练的吞吐量高于Convnex-T,并且在Imagenet-1k上获得了0.2%的TOP-1准确性提高。我们的抗议inceptionNext可以作为未来建筑设计的经济基线,以减少碳足迹。
疼痛管理和严重性检测对于有效的治疗至关重要,但是传统的自我报告方法是主观的,并且可能不适合非语言个体(口语有限的人)。为了解决此限制,我们使用面部表情探索自动疼痛检测。我们的研究利用深度学习技术来通过分析来自疼痛情感面孔数据库(PEMF)的面部图像来改善疼痛评估。我们提出了两种新颖的方法1:(1)混合交通模型与长期短期记忆(LSTM)块相结合,以分析视频框架并预测疼痛的存在,以及(2)与LSTM集成的时空图形卷积网络(STGCN),与LSTM集成在一起,以从面部图像中为疼痛图像进行过程地标。我们的工作代表了PEMF数据集进行二进制疼痛分类的首次使用,并通过广泛的实验证明了这些模型的有效性。结果突出了结合空间和时间特征以增强疼痛检测的潜力,从而在客观疼痛评估方法中提供了有希望的进步。
在当代计算机视觉应用中,尤其是图像分类中,在像Imagenet这样的大型数据集上预先训练的建筑背骨通常被用作特征提取器。尽管这些预训练的卷积神经网络(CNN)广泛使用,但在理解各种各样的功能和数据集大小的各种资源有效骨干的性能方面仍然存在差距。我们的研究系统地评估了多个数据集的一致训练设置,包括自然图像,医学图像,银河系图像和遥感图像,在一致的训练设置下进行了多次轻巧,预训练的CNN骨干。这种全面的分析旨在帮助机器学习从业人员为其特定问题选择最合适的骨干,尤其是在涉及细调预培训网络的小型数据集的情况下。尽管基于注意力的架构越来越受欢迎,但我们观察到,与CNN相比,它们在低数据微调任务下的性能往往较差。我们还观察到,与其他CNN架构(例如Convnext,Regnet和EfficityNet)相比,与其他各种领域相比,相比之下。我们的发现提供了可行的见解,以实现不同骨架的折衷权和有效性,从而促进了模型选择中明智的决策,以获得广泛的计算机视觉域。我们的代码可在此处提供:https://github.com/pranavphoenix/backbones
我们提出了一个新的移动混合视觉网络家族,称为Iformer,重点是优化移动应用程序的延迟和准确性。iformer有效地将卷积的快速局部表示能力与自我注意的有效全局建模能力整合在一起。局部交互是从转换标准卷积网络(即,Convnext,设计一个更轻巧的移动网络。我们新引入的移动调制方面删除了MHA中的存储密集型操作,并采用了有效的调制机制来提高动态全球代表性。我们进行全面的实验,表明iFormer优于各种任务的轻量级网络。值得注意的是,Iformer在Imagenet-1k上的TOP-1精度令人印象深刻,在iPhone 13上仅1.10毫秒的延迟,超过了最近提议的MobilenetV4在类似延迟限制下。此外,我们的方法在下游任务中显示出显着改善,包括可可对象检测,实例分割和ADE20K语义分割,同时仍在这些方案中的高分辨率输入中保持低潜伏期的延迟。代码和型号可在以下网址提供:https://github.com/chuanyangzheng/sibroler。