摘要:使用人工智能(AI)进行高级图像分析的集成是自动驾驶汽车(AVS)进化的关键。本文对AVS图像分析中使用的最重要的数据集和最新的AI解决方案进行了详尽的审查。数据集,例如CityScapes,Nuscenes,Carla和Talk2CAR,构成了培训和评估不同AI模型的基准,具有符合自动驾驶各个方面的独特特征。关键AI方法,包括卷积神经网络(CNN),变压器模型,生成对抗网络(GAN)和视觉语言模型(VLMS)。本文还对现实世界中各种AI技术进行了比较分析,重点是语义图像细分,3D对象检测,虚拟环境中的车辆控制以及使用自然语言的车辆交互。同时突出了多个数据集和仿真平台(如Airsim,Torcs和Summit)在丰富AV的训练数据和测试环境中的作用。通过综合数据集,AI解决方案和比较性能评估的信息,本文为研究人员,开发人员和行业利益相关者提供了至关重要的资源,可清楚地了解自动驾驶汽车图像分析技术的当前景观和未来方向。
图像在科学领域已有很长的使用历史,而且使用越来越广泛。代表复杂系统的大量数据只能通过图像可视化来表示。多元图像的来源多种多样。有些是传统意义上的图像(例如卫星数据),而有些则不是(二次离子质谱,SIMS)。几乎所有物理单位都可用于制作图像和多元图像:温度、重力场、阻抗、磁场、电场、质量、波长、超声波长、极化、电子能量等。科学成像领域的一个粗略但实用的细分是卫星成像、医学(临床)成像和显微镜。最简单但有意义的多元图像有两个像素索引(例如图像平面中的宽度和高度)和一个变量索引,组成一个三向数组。从模拟场景或物体到数字图像的一个重要方面是分辨率。多元图像具有空间、强度、光谱和时间(时间)分辨率。典型的旧卫星图像有 512x512 像素,7 个波长带,强度分辨率为 256 级灰度。高空间和强度分辨率是理想的,这使得阵列相当大,计算速度很慢。
图像在科学领域已有很长的使用历史,而且使用越来越广泛。代表复杂系统的大量数据只能通过图像可视化来表示。多元图像的来源多种多样。有些是传统意义上的图像(例如卫星数据),而有些则不是(二次离子质谱,SIMS)。几乎所有物理单位都可用于制作图像和多元图像:温度、重力场、阻抗、磁场、电场、质量、波长、超声波长、极化、电子能量等。科学成像领域的一个粗略但实用的细分是卫星成像、医学(临床)成像和显微镜。最简单、有意义的多元图像有两个像素索引(例如图像平面中的宽度和高度)和一个变量索引,组成一个三向数组。从模拟场景或物体到数字图像的一个重要方面是分辨率。多元图像具有空间、强度、光谱和时间(时间)分辨率。典型的旧卫星图像有 512x512 像素,7 个波长带,强度分辨率为 256 级灰度。高空间和强度分辨率是理想的,这使得阵列相当大,计算速度很慢。
© 编辑(如适用)和作者,经 Springer Nature Switzerland AG 独家许可 2022 本作品受版权保护。出版商保留所有权利,无论涉及全部或部分材料,特别是翻译、重印、重复使用插图、朗诵、广播、在微缩胶片或任何其他物理方式上复制、传输或信息存储和检索、电子改编、计算机软件或现在已知或今后开发的类似或不同的方法的权利。本出版物中使用的一般描述性名称、注册名称、商标、服务标记等并不意味着,即使没有具体声明,这些名称也不受相关保护法律和法规的约束,因此可以免费用于一般用途。出版商、作者和编辑可以放心地假设本书中的建议和信息在出版之日被认为是真实和准确的。出版商、作者或编辑均不对本文所含材料或可能出现的任何错误或遗漏提供明示或暗示的保证。出版商对于已出版地图中的司法管辖权主张和机构隶属关系保持中立。
另一个考虑因素是解决方案的术语,以及“自主 AI”是否会在机构和放射科医生之间造成不确定性和犹豫。作为医学成像领域的一项新技术,与任何新技术一样,需要付出巨大努力来改善市场教育并让全球不同利益相关者加深理解。在过去的 8 年里,机构已经对 CAD、CAD 解决方案的预期功能以及它需要满足的标准感到满意。因此,需要考虑供应商是否可以利用 CAD 创造的“舒适感”,并将自主解决方案定位为“高级 CAD”。此外,医疗保健运营方面的其他方面越来越习惯于利用 AI 工具和分析来实现流程和工作流程的“自主性”;因此,专家组还认为,跨部门指导和案例研究强调医疗保健中“自主性”的好处将有助于揭开“自主”标签的神秘面纱。
© 编辑(如适用)和作者,由 Springer Nature Switzerland AG 独家授权 2022 本作品受版权保护。所有权利均由出版商保留,无论涉及全部或部分材料,特别是翻译、重印、重复使用插图、朗诵、广播、在微缩胶片或任何其他物理方式上复制、传输或信息存储和检索、电子改编、计算机软件或现在已知或今后开发的类似或不同的方法的权利。使用一般描述性名称、注册名称、商标、服务标记等。本出版物中的这些名称即使在没有具体声明的情况下也不意味着这些名称不受相关保护法律和法规的约束,因此可以自由使用。出版商、作者和编辑可以放心地认为,本书中的建议和信息在出版之日是真实准确的。出版商、作者或编辑均不对本书所含材料或可能出现的任何错误或遗漏提供明示或暗示的保证。出版商对已出版地图和机构隶属关系中的司法权主张保持中立。
自然图像字幕(NIC)是一个跨学科研究领域,位于计算机视觉(CV)和自然语言处理(NLP)中。已经介绍了有关该主题的几项作品,从基于模板的早期方法到最新的基于深度学习的方法。本文在NIC领域进行了一项调查,尤其是关注其在放射学领域的医疗图像字幕(MIC)和诊断字幕(DC)的应用。对最先进的审查进行了总结,总结了NIC和DC的主要研究工作,以提供有关该主题的广泛概述。这些作品包括现有的NIC和MIC模型,数据集,评估指标以及专业文献中的先前评论。对修订的工作进行了彻底的分析和讨论,强调了现有方法的局限性及其在实际临床实践中的潜在影响。同样,根据检测到的局限性概述了未来的潜在研究线。
似乎我们的大脑使视觉识别非常容易。对于人类而言,不需要任何努力,可以看到狗和猫,汽车和飞机之间的区别,读取标志或识别人的脸。但是,计算机视觉和图像识别又如何容易地解决计算机的图像识别问题?绝对不是,实际上有一些困难的问题,需要解决,以教授计算机识别图像:它们仅用于初次视图很容易,我认为这是因为我们的大脑非常擅长理解图像。但是,试想一下,使用计算机视觉可以改善人类生活的多少领域。最常见的使用领域是制造业,例如质量控制,当您开始制造业务时,您需要质量控制部门,但是如果使用计算机视觉替换该部门,该怎么办,涉及更多的人创造一些新事物,我认为这项业务将更加有利可图。这就是为什么,最近几年的机器学习领域在计算机视野领域取得了巨大进展。这一进度的要点是创建用于图像识别的数学方法,这将为我们带来很高的精度结果。如今,最受欢迎的是IR,特别是卷积神经网的深度学习技术,此方法比傅立叶变换(例如傅立叶变换)更先进。通过这些技术,通过涉及该领域的深度学习方法,可以实现这些技术的显着提高准确性。准确率接近95%。(通常是根据人类对数据集进行分类的方式来测量的。)因此,请记住,如果您没有研究基于深度学习的图像识别和对象检测