混合体系结构的艺术

将CNN和变压器组合起来以提升细粒度的视觉分类。在迈向数据科学方面,混合体系结构的艺术首先出现。

来源:走向数据科学
在上一篇文章中,我讨论了形态特征提取器如何模仿生物专家在视觉上评估图像的方式。时间,我想进一步探索一个新问题:不同的建筑能否相互补充以建立像专家一样“看到”的AI?

在上一篇文章中,我讨论了形态特征提取器如何模仿生物专家在视觉上评估图像的方式。

上一篇文章

时间,我想进一步探索一个新问题:不同的架构可以互相补充以建立像专家一样“看到”的AI?

简介:重新思考模型体系结构设计

在建立高精度的视觉识别模型时,我遇到了一个关键挑战:

我们如何使AI不仅“查看”图像,还可以实际理解重要的功能?

传统的CNN在捕获诸如毛皮纹理或耳朵形状之类的当地细节方面表现出色,但它们常常会错过大图。另一方面,变压器非常擅长建模全球关系,图像的不同区域如何相互作用,但它们可以轻松地忽略细粒度的提示。

cnns 变形金刚

这种见解使我探索了将两种体系结构的优势结合起来,以创建一个模型,不仅可以捕获细节,而且还理解了更大的图景。

在开发一个124个犬类分类系统的Pawmatchai时,我经历了三个主要的建筑阶段:

pawmatchai

1。早期阶段:有效NETV2-M +多头注意

我从EfficityNETV2-M开始,并添加了一个多头注意模块。

我尝试了4、8和16头 - 最终定居在8个头上,这给出了最佳效果。

此设置的F1得分为78%,但感觉更像是技术组合,而不是凝聚力的设计。

78%

2。改进:焦点损失 +高级数据增强

在密切分析了数据集后,我注意到类不平衡,某些品种的表现频率远远高于其他品种,这使该模型的预测偏斜。

焦点损失 randaug 混音 82.3% convnextv2-base 87.89% CNN