标题:小对象检测的现实性能演示者名称:Michel van Lier公司名称 /研究所:TNO项目名称:Mantis Vision Funding Group:PENTA / XECS / EURIPIDES / ECEL / ECSEL / KDT摘要可以在网站上发布:☒是的,no提供500个单词的摘要最多。使用字体Arial,尺寸11。如果使用了数字,则文本和数字必须留在此页面内。自动化对象检测在各种应用中变得越来越相关。这包括可见和IR视频中的人,无人机,船只和车辆的检测。对于可能与人类一起部署的自治系统,情境意识(SA)至关重要,因此可以尽早调整潜在的危险操作。挑战是在大量宽阔的视野摄像头系统中检测和跟踪大距离的人,这是无处不在的,因为这仅导致每人只有几个相机像素。最重要的是,光线和天气状况在对象检测性能中起作用,这是一个额外的挑战。基于学习的对象检测方法(例如Yolo)已证明在许多应用中为此目的有希望,但是当对象上的像素数量减少时,它们的性能会降低。最近的方法旨在通过考虑时间信息来改善对小物体的检测。这样的时空深度学习模型原则上可以检测到高达4个平方像素的移动人员。在如此小的规模下,性能可能受许多因素的影响。为了更好地了解这些效果,我们已经在朝向非结构化的地形的观测塔上安装了一个相机系统,以便在视野中可见200至400的区域。使用此设置,我们可以研究对象和背景之间的对比度,成像系统的分辨率以及深度学习模型对小人检测准确性的精确性。我们创建了一个数据集,该数据集由长时间记录并涵盖几个季节的简短剪辑组成。使用结果数据集,我们比较了不同模型的对象检测性能,但也评估了光和天气条件的效果,并在现实世界中证明了最新的自动化小对象检测的限制。
1 英特尔公司可编程解决方案事业部 2 多伦多大学和矢量研究所 3 卡内基梅隆大学 { andrew.boutros, eriko.nurvitadhi } @intel.com 摘要 — 人工智能 (AI) 的重要性和计算需求日益增长,导致了领域优化硬件平台的出现。例如,Nvidia GPU 引入了专门用于矩阵运算的张量核心,以加速深度学习 (DL) 计算,从而使 T4 GPU 的峰值吞吐量高达 130 int8 TOPS。最近,英特尔推出了其首款针对 AI 优化的 14nm FPGA Stratix 10 NX,其内置 AI 张量模块可提供高达 143 int8 TOPS 的估计峰值性能,堪比 12nm GPU。然而,实践中重要的不是峰值性能,而是目标工作负载上实际可实现的性能。这主要取决于张量单元的利用率,以及向/从加速器发送数据的系统级开销。本文首次对英特尔的 AI 优化 FPGA Stratix 10 NX 进行了性能评估,并与最新的 AI 优化 GPU Nvidia T4 和 V100 进行了比较,这些 GPU 都运行了大量的实时 DL 推理工作负载。我们增强了 Brainwave NPU 覆盖架构的重新实现,以利用 FPGA 的 AI 张量块,并开发了工具链支持,使用户能够仅通过软件对张量块进行编程,而无需在循环中使用 FPGA EDA 工具。我们首先将 Stratix 10 NX NPU 与没有张量块的 Stratix 10 GX/MX 版本进行比较,然后对 T4 和 V100 GPU 进行了详细的核心计算和系统级性能比较。我们表明,我们在 Stratix 10 NX 上增强的 NPU 实现了比 GPU 更好的张量块利用率,在批处理 6 时,与 T4 和 V100 GPU 相比,平均计算速度分别提高了 24 倍和 12 倍。即使在允许批处理大小为 32 的宽松延迟约束下,我们仍分别实现了与 T4 和 V100 GPU 相比 5 倍和 2 倍的平均速度提升。在系统级别,FPGA 的细粒度灵活性及其集成的 100 Gbps 以太网允许以比通过 128 Gbps PCIe 本地访问 V100 GPU 少 10 倍和 2 倍的系统开销延迟进行远程访问,分别用于短序列和长序列 RNN。索引术语 — FPGA、GPU、深度学习、神经网络