已经研究了用于测试套件的自动质量评估的软件指标,例如覆盖范围或突变分数。虽然传统工具依靠软件指标,但自动驾驶汽车(SDC)的领域主要集中在基于模拟的测试案例生成上,使用质量指标(例如OB(OOB)参数)来确定测试案例是否失败或通过。但是,尚不清楚这种质量指标与人类对SDC的安全性和现实主义的看法在多大程度上保持一致。为了解决这个(现实)差距,我们进行了一项实证研究,涉及50名参与者,以研究人类如何将SDC测试案例视为安全,不安全,现实或不现实的因素。为此,我们开发了一个利用虚拟现实(VR)技术(称为SDC-Alabaster)的框架,将研究参与者浸入SDC模拟器的虚拟环境中。我们的发现表明,人类对失败/通过测试案例的安全性和现实主义的评估可能会根据不同的因素而有所不同,例如测试的复杂性以及与SDC相互作用的可能性。尤其是为了评估现实主义,参与者的年龄会导致不同的看法。这项研究强调了对模拟测试质量指标的更多研究的需求以及人类感知在评估SDC中的重要性。
计算机科学与工程部成立于1985年。该部门旨在通过最新的计算机技术为学生提供高质量的培训。为了维持教育水平,该部不断升级学术课程,以使学生接受良好的培训,以应对计算机科学和工程领域的变化趋势。部门重点是组件技术,分布式计算,数据科学,信息安全,高速网络,无线和移动网络,敏捷编程方法,语言技术,软件架构,软件指标以及其他几个最近的主题。该部门于2013年成为QIP中心。该部门还提供计算机科学和工程学博士学位和计算机科学博士学位,除了B.Tech。和M.Tech。
研究。数据集应代表各种用户和不同的上下文,以捕获各种变化。之后,我们需要准备数据并训练模型。训练将重复一百甚至一千次,以找到最合适的模型结构和超参数,这些模型结构和超级参数会导致使用试用和误差或网格搜索的测试集中最低模型误差。由于成千上万的迭代可能导致对测试集的过度拟合,因此必须使用先前看不见的数据评估模型的推广性,以评估所选模型和超参数是否已过拟合到验证集或推广到看不见的数据。深度学习社区在开发模型时通常会使用训练验证测试分解。在训练集和验证集用于迭代模型开发时,测试集用于一次性验证模型。但是,传统的机器学习评估指标(例如,准确性,精度,召回和错误率,以描述模型对看不见的数据的推广程度)并不描述系统的可用性。UCD过程的主要重点是实现高可用性。而不是软件指标,例如推理错误对可用性,模型稳定性和研究系统的有用性等因素。这可能涉及基本问题,例如对给定用例感知的可用性以及影响力的影响程度以及随着时间的推移估计的噪音多么嘈杂。在互动中应用深度学习技术由于系统使用了多种用户,在不同的情况下,验证还需要评估该模型是否可以推广到数据收集研究中使用的任务。虽然先前的工作认为准确性超过80%以至于足够[6],但充分性取决于用例,只能通过用户反馈来评估,例如,该动作的后果是否可恢复以及后果对用户的影响有多大。总而言之,一个深度学习的典型过程描述了开发和评估黑盒模型的迭代性质。但是,深度学习开发过程并未考虑模型的可用性以及最终系统的可用性。
1.简介 1.1 软件质量指标 技术进步使计算机变得更小、更轻、更可靠,在飞行应用中的使用也越来越多。美国联邦航空管理局 (FAA) 认证工程师 (CE) 面临着依赖这种数字技术及其相关软件的飞机认证。当要使用数字技术执行飞机上的某些功能时,设计人员会记录该技术,申请人会向 CE 提交一份文件。通常,该文件包可能包括系统的设计和测试规范、测试计划和测试结果。该文件包向 CE 保证设计人员已正确开发和验证了系统。软件质量指标 (SQM) 可用于软件开发和测试期间。SQM 技术试图量化各种质量导向因素,例如可靠性和可维护性。软件开发人员确定对应用程序重要的质量因素。与这些因素相关的软件指标用于代码,以确定这些因素的达到程度。根据结果,开发人员确定软件是否满足为其设定的要求,以及软件的性能如何。如果提交 SQM 结果来支持要认证的系统,CE 应该了解 SQM 及其结果和含义。本技术报告记录了为分析 SQM 应用于航空电子设备和系统中包含的代码而进行的研究结果。CE 可以阅读本报告以深入了解如何应用和解释 SQM。1.2 技术报告的范围 技术报告仅包括基于代码并适用于航空电子设备中使用的代码类型的指标。深入讨论了有经验证据充分证实的指标。还讨论了没有充分证实但可能在未来应用的指标。几个指标被应用于样本飞行控制代码。应用指标可以更深入地了解评估软件质量的性质。学习如何正确识别正在测量的内容并了解如何解释结果至关重要。测试用例结果用于将理论与实践结合起来。历史指标和涵盖软件开发所有阶段的指标不在本报告的范围内。但这两个类别都值得进一步研究。如果 SQM 属于这两个类别之一,则分析仅限于 SQM 中涉及代码阶段的部分。