走进全方位:通过合成数据和微调提高视觉 AI 代理准确性的三个工作流程

编者注:本文是 Into the Omniverse 的一部分,该系列文章重点介绍开发人员、3D 从业者和企业如何利用 OpenUSD 和 NVIDIA Omniverse 的最新进展来转变其工作流程。视觉人工智能代理正在成为一种实用的方法,可以自动将物理世界的视频数据转化为工厂的运营智能,[...]

来源:NVIDIA 博客 _机器人技术

编者注:本文是 Into the Omniverse 的一部分,该系列文章重点介绍开发人员、3D 从业者和企业如何利用 OpenUSD 和 NVIDIA Omniverse 的最新进展来转变其工作流程。

视觉人工智能代理正在成为一种实用的方法,可以自动将物理世界的视频数据转化为工厂、城市、仓库和运输系统的运营智能。

随着越来越多的人工智能工作负载越来越接近数据生成地,这种转变正在加速。 Gartner 预计,到 2028 年,超过三分之二的企业管理数据将在数据中心或云之外创建和处理,到 2029 年,全球超过三分之二的企业将部署边缘 AI,这一比例高于 2025 年的 10% (1)。

但更多的边缘数据并不会自动创造更多的智能。根据 Gartner 的同一份报告,多达 90% 的现有边缘数据未经处理。将这些数据转化为有用的行动需要能够理解视频、适应现实条件并将见解与操作工作流程连接起来的视觉 AI 代理。这些代理通常在摄像机、机器和传感器附近运行,其中模型必须满足延迟、功耗、成本和连接要求,同时适应特定站点的条件。为了构建这些代理,开发人员需要可重复的方法来生成训练数据、微调模型以及跨边缘和云环境部署代理视频应用程序。

NVIDIA Metropolis 代理技能和蓝图为开发人员提供可重复使用的工作流程,以在整个生命周期中构建、操作和优化视觉 AI 代理。

视觉 AI 代理项目可能陷入困境的地方

随着组织转向自主视觉代理,通常会出现三个挑战:

  • 存在数据差距的准确性停滞不前:视觉 AI 代理需要发现罕见的缺陷、异常事件和不断变化的环境。例如,在制造业中,检查模型可能在常见的划痕或凹痕上表现良好,但在处理训练数据中未表示的新的细裂纹时却表现不佳。