使用视觉语言模型扩展数据注释来为物理 AI 系统提供支持

在这篇文章中,我们研究了 Bedrock Robotics 如何应对这一挑战。通过加入 AWS 物理 AI 奖学金,该初创公司与 AWS 生成 AI 创新中心合作,应用视觉语言模型来分析施工视频片段、提取操作细节并大规模生成标记的训练数据集,以改进自主施工设备的数据准备。

来源:亚马逊云科技 _机器学习

严重的劳动力短缺正在限制制造业、物流、建筑和农业的增长。这个问题在建筑业尤为严重:美国仍有近 50 万个职位空缺,目前 40% 的劳动力将在十年内退休。这些劳动力限制导致项目延迟、成本上升和开发计划推迟。为了解决这些限制,组织正在开发自主系统,这些系统可以执行填补容量缺口、扩展运营能力的任务,并提供全天候生产力的额外优势。

构建自主系统需要大量带注释的数据集来训练人工智能模型。有效的培训决定了这些系统是否能够带来商业价值。瓶颈:数据准备成本高。至关重要的是,需要对视频数据进行标记(识别有关设备、任务和环境的信息),以确保数据对模型训练有用。此步骤可能会阻碍模型部署,从而减慢向客户交付人工智能产品和服务的速度。对于管理数百万小时视频的建筑公司来说,手动数据准备和注释变得不切实际。视觉语言模型 (VLM) 通过解释图像和视频、响应自然语言查询以及以手动流程无法比拟的速度和规模生成描述来帮助解决这一问题,从而提供一种经济高效的替代方案。

在这篇文章中,我们研究了 Bedrock Robotics 如何应对这一挑战。通过加入 AWS 物理 AI 奖学金,该初创公司与 AWS 生成 AI 创新中心合作,应用视觉语言模型来分析施工视频片段、提取操作细节并大规模生成标记的训练数据集,以改进自主施工设备的数据准备。

Bedrock Robotics:加速自主建造的案例研究

关于作者