详细内容或原文请订阅后点击阅览
添加训练噪声以改善变形金刚的检测
deNoising,该帖子添加了训练噪声以改善变形金刚的检测,这首先是迈向数据科学的检测。
来源:走向数据科学添加噪声以提高2D和3D对象检测的性能。在本文中,我们将了解这种机制的工作原理并讨论其贡献。
早期视觉变形金刚
detr - 检测变压器(Carion,Massa等,2020),是对象检测的第一批变压器体系结构之一,使用了学到的解码器查询来从图像令牌中提取检测信息。这些查询是随机初始初始化的,并且该体系结构没有施加任何迫使这些查询来学习类似于锚的东西的约束。虽然可以通过更快的RCNN取得可比的结果,但其缺点是缓慢的收敛性 - 训练它需要500个时代(DN-DETR,Li et al。,2024)。 More recent DETR-based architectures, used deformable aggregation that enabled queries to focus only on certain regions in the image (Zhu et al., Deformable DETR: Deformable Transformers For End-To-End Object Detection, 2020), while others (Liu et al., DAB-DETR: Dynamic Anchor Boxes Are Better Queries For DETR, 2022) used spatial anchors (generated using k-means, in a way similar to the基于锚定的CNN做到了),并编码为初始查询。跳过连接强迫变压器的解码器块将框从锚点中学习为回归值。可变形的注意力层使用预编码锚来从图像中示例空间特征,并使用它们来构建令牌以供注意。在训练过程中,模型学习了最佳锚点。这种方法教会该模型在查询中明确使用诸如框大小之类的功能。
预测地面真相匹配
问题
dn-detr
Li等人提出了对不稳定匹配问题的优雅解决方案。后来被许多其他作品采用,包括Dino,Mask Dino,Group Detr等。