白皮书 Supermicro® 系统采用 NVIDIA GPU,利用 NVIDIA TensorRT 实现最佳 AI 推理性能
技能集:C ++,Python,计算机视觉,数据结构,深度学习,算法,LLM,RAG,Deepstream,Deepstream,Tensorrt实习期限:6个月的绩效:绩效永久性效果Stipend咨询索引:20,000个月份:20,000
© 2023 NVIDIA Corporation 及其附属公司。保留所有权利。NVIDIA、NVIDIA 徽标、Base Command、BlueField、CUDA、DGX、DGX POD、DGX SuperPOD、Grace、Grace Hopper、Hopper、NVIDIA-Certified Systems、Spectrum、TensorRT 和 Triton 是 NVIDIA Corporation 及其附属公司在美国和其他国家/地区的商标和/或注册商标。其他公司和产品名称可能是与其相关的各自所有者的商标。2730427。9 月 23 日
实现强大而实时的3D感知是自动驾驶汽车的基础。虽然大多数现有的3D感知方法优先考虑检测准确性,但十个忽略了关键方面,例如计算效率,板载芯片部署友好性,对传感器安装偏差的韧性以及对各种VE-HILE类型的适应性。为了应对这些挑战,我们提出了nvautonet:一种专业的鸟类视图(BEV)感知网络 - 针对自动化车辆的明确量身定制。nvautonet将同步的相机图像作为输入,并预测3D信号(例如障碍物,自由空间和停车位)。NVAUTONET架构(图像和Bev Back-bones)的核心依赖于有效的卷积网络,该网络使用Tensorrt优化了高性能。我们的图像到BEV转换采用简单的线性层和BEV查找表,从而确保了快速推理速度。Nvautonet在广泛的专有数据集中受过培训,在NVIDIA DRIVE ORIN SOC上以每秒53帧的速度运行,始终达到升高的感知精度。值得注意的是,Nvautonet表现出对不同汽车模型产生的偏差偏差的韧性。此外,Nvautonet在适应各种车辆类型方面表现出色,这是通过廉价模型的微调程序来促进的,可以加快兼容性调整。
摘要 - 随着对软件定义的VEHICE(SDV)的需求不断增长,基于深度学习的感知模型在智能运输系统中变得越来越重要。但是,由于其实质性的要求,这些模型在实现实时和有效的SDV解决方案方面面临着巨大的挑战,这些要求在资源约束车辆中通常不可用。因此,这些模型通常会遭受低吞吐量,高潜伏期和过多的GPU/内存使用量,因此对于实时SDV应用而言,它们不切实际。为了应对这些挑战,我们的研究重点是通过在各种组合环境中整合修剪和量化技术来优化模型和工作流程,并利用诸如Pytorch,ONNX,ONNX运行时和Tensorrt之类的框架。我们系统地进行了分类并评估了三种不同的修剪方法,并结合了多个精确量化工作流程(FP32,FP16和INT8),并根据四个评估指标呈现结果:推理吞吐量,延迟,延迟,GPU/内存使用情况以及准确性。我们设计的技术,包括修剪和量化,以及优化的工作流程,可以达到最高18倍的推理速度和16.5倍越高的吞吐量,同时将GPU/内存使用量最多减少30%,所有这些都对准确性的影响最小。我们的工作建议使用用FP16精度和组修剪来量化的火炬 - 荷兰 - 托管工作流,作为最大程度地提高推理性能的最佳策略。它表现出在SDV中优化实时,有效的感知工作流程的巨大潜力,这有助于增强深度学习模型在资源约束环境中的应用。