▲数据交换采用标准化的交换方式ONNX(开放神经网络交换)。支持 ONNX 的工具可在 (http://onnx.ai/supported-tools.html) 获得。
4.2 软件和模型效率 Qualcomm AI Stack 旨在帮助开发者只需编写一次,即可在我们的硬件上随处运行 AI 负载。Qualcomm AI Stack 从上到下支持 TensorFlow、PyTorch、ONNX 和 Keras 等热门 AI 框架,以及 TensorFlow Lite、TensorFlow Lite Micro、ONNX 运行时等运行时。此外,它还包括推理软件开发工具包 (SDK),例如我们广受欢迎的 Qualcomm® 神经处理 SDK,提供 Android、Linux 和 Windows 版本。我们的开发者库和服务支持最新的编程语言、虚拟平台和编译器。在较低层次上,我们的系统软件包括基本的实时操作系统 (RTOS)、系统接口和驱动程序。我们还在不同的产品线中提供丰富的操作系统支持,包括 Android、Windows、Linux 和 QNX,以及 Prometheus、Kubernetes 和 Docker 等部署和监控基础设施。
技术堆栈:Python,Pytorch,Tensorflow,Keras,Scikit-Learn,Xgboost,onnx |自然语言处理(NLP):NLTK,Spacy,Gensim,Openai,Huggingface |计算机视觉:OPENCV,枕头,Tensorflow Hub,DeepFace,Midas,Paddleocr |推荐系统和语义搜索:矢量数据库(Milvus,Chromadb)| MLOPS:Azure ML Studio,AWS SageMaker,MLFlow
TI 灵活的软件架构和开发环境让您可以在任何地方训练模型,并使用您最喜欢的行业标准 Python 或 C++ 应用程序编程接口 (API)(来自 TensorFlow Lite、ONNX RunTime 或 TVM 和 SageMaker Neo with Neo AI DLR 运行时引擎)仅用几行代码即可将其编译并部署到 TI 硬件上。在这些行业标准运行时引擎的后端,我们的 TI 深度学习 (TIDL) 模型编译和运行时工具让您可以为 TI 硬件编译模型,将编译后的图形或子图部署到深度学习硬件加速器上,并从处理器获得最佳推理性能,而无需任何手动工具。
AMD Ryzen™AI 软件包括用于在搭载 AMD Ryzen™AI 的 PC 上优化和部署 AI 推理的工具和运行时库。Ryzen AI 软件使应用程序能够在 AMD XDNA™ 架构内置的神经处理单元 (NPU) 以及集成 GPU 上运行。这使开发人员能够构建和部署在 PyTorch 或 TensorFlow 中训练的模型,并使用 ONNX Runtime 和 Vitis™AI 执行提供程序 (EP) 直接在搭载 Ryzen AI 的笔记本电脑上运行它们。
Qualcomm Cloud AI 100 加速器卡和配套 SDK 提供卓越的功能和性能,可满足云数据中心、边缘和其他机器学习 (ML) 应用日益增长的推理需求。Cloud AI 100 卡由 AIC100 片上系统 (SoC) 提供支持,该芯片专门用于 ML 推理工作负载。应用和平台 SDK 可在 Cloud AI 100 硬件上编译、优化和运行来自 PyTorch、TensorFlow、ONNX、Caffe 和 Caffe2 等流行框架的深度学习模型。
UST 经验丰富的数据科学家、AI 工程师和机器学习开发人员为您的组织提供最佳实践,并帮助您快速掌握最新的 Microsoft Azure 机器学习功能 - 快速轻松地构建、训练和部署机器学习模型。他们的专业知识可帮助您利用尖端技术,如自动化机器学习、Fairlearn、Jupyter、Visual Studio Code 框架(如 PyTorch Enterprise、TensorFlow 和 Scikit-learn)。借助自动化机器学习和拖放界面等低代码和无代码工具,您可以扩展数据科学团队并更快地生成模型。此外,使用 ONNX Runtime,您可以使用 Azure Kubernetes 服务 (AKS) 轻松大规模部署并最大化机器学习推理。
戴尔和 AMD 的合作提供的是一个统一的硬件和软件生态系统,旨在让开发人员能够轻松高效地创建结合迁移学习、微调和推理的端到端 AI 解决方案。在 Hugging Face 的支持下,我们现在拥有越来越多的模型组合,这些模型可在搭载 AMD EPYC™ 处理器或 AMD Instinct™ MI300X 加速器的戴尔 PowerEdge 服务器上运行,以便开发人员可以进行微调、应用迁移学习和部署以进行推理。对 AMD ROCm™ 和 AMD ZenDNN™ 的投资以及与 PyTorch、Tensorflow 和 ONNX Runtime 框架的合作,是应用 AI 开发人员体验 AI 民主化的根本推动因素。下面的堆栈图详细介绍了构成戴尔和 AMD 统一 AI 生态系统的组件。
摘要 - 随着对软件定义的VEHICE(SDV)的需求不断增长,基于深度学习的感知模型在智能运输系统中变得越来越重要。但是,由于其实质性的要求,这些模型在实现实时和有效的SDV解决方案方面面临着巨大的挑战,这些要求在资源约束车辆中通常不可用。因此,这些模型通常会遭受低吞吐量,高潜伏期和过多的GPU/内存使用量,因此对于实时SDV应用而言,它们不切实际。为了应对这些挑战,我们的研究重点是通过在各种组合环境中整合修剪和量化技术来优化模型和工作流程,并利用诸如Pytorch,ONNX,ONNX运行时和Tensorrt之类的框架。我们系统地进行了分类并评估了三种不同的修剪方法,并结合了多个精确量化工作流程(FP32,FP16和INT8),并根据四个评估指标呈现结果:推理吞吐量,延迟,延迟,GPU/内存使用情况以及准确性。我们设计的技术,包括修剪和量化,以及优化的工作流程,可以达到最高18倍的推理速度和16.5倍越高的吞吐量,同时将GPU/内存使用量最多减少30%,所有这些都对准确性的影响最小。我们的工作建议使用用FP16精度和组修剪来量化的火炬 - 荷兰 - 托管工作流,作为最大程度地提高推理性能的最佳策略。它表现出在SDV中优化实时,有效的感知工作流程的巨大潜力,这有助于增强深度学习模型在资源约束环境中的应用。
图3说明了Yolov5分类结果的实现。网络摄像头将捕获鱼类对象的实时图像,并且网络摄像头记录的输出将在Python程序中处理,其中已将ONNX文件作为学习模型合并。随后,系统将在显示器上显示鱼的图像,并配以相机捕获的鱼类。该系统成功地在监视器上成功显示了被检测到的鱼的实时图像,并伴有其各自的物种。此外,我们优化了该模型以提高速度和准确性,评估了性能指标,例如响应时间和准确率。实时鱼类分类系统展示了在渔业监测,环境研究和水产养殖行业中的潜在应用,为准确性和技术整合的持续进步铺平了道路。