细粒度视觉分类的精致培训配方

FGVC的目标是如何识别超级类别的多个下属类别的图像,帖子首先出现在数据科学方面。

来源:走向数据科学

,我在Multitel的研究专注于细粒的视觉分类(FGVC)。具体来说,我致力于构建一个可在边缘设备上实时工作的强大汽车分类器。这篇文章是可能会成为这种经历的一小部分思考的一部分。我正在写信分享一些我学到的课程,但也要组织和整理我学到的东西。同时,我希望这给我们一种在Multitel中进行的高级工程和应用研究的感觉,将学术在现实世界中的约束结合在一起。无论您是研究人员,好奇的工程师还是考虑加入我们的团队的人,我希望这篇文章都提供洞察力和灵感。

Multitel 细粒度的视觉分类(FGVC) 可以在边缘设备上实时工作的强大汽车分类器。

1。问题:

我们需要一个可以识别特定汽车模型的系统,而不仅仅是“这是宝马”,而是哪个宝马模型和年份。它需要与其他模型一起在资源受限的边缘设备上实时运行。这种任务属于所谓的细粒视觉分类(FGVC)。

确定特定的汽车模型 哪个
两个模型的示例以及判别零件[1]。

FGVC的目的是识别属于超级类别的多个下属类别的图像(例如动物 /植物的物种,汽车模型等)。困难在于了解细粒度的视觉差异,这些视觉差异足够充分区分,这些物体在整体外观上高度相似,但在细粒度中具有差异,但在细粒度中有所不同[2]。

[2]
细粒分类与一般图像分类[3]。

是什么使FGVC特别棘手?

  • 较小的阶层变化:类之间的视觉差异可能非常微妙。
  • 小阶层变化
  • 较大的阶层内变异:同时,由于照明,姿势,背景或其他环境因素的变化,同一类内的实例可能有很大差异。
  • cmal-net

    我们使用: