创新,包括采用数字和人工智能技术,可以提供提高效率的机会,使政府能够简化日常互动和流程,将资源集中在更复杂和更紧迫的问题上,并满足澳大利亚人民的需求和期望。社会对公共服务质量的期望越来越高:要求更高的护理标准;要求量身定制和个性化的服务;要求在获取服务时具有更高的响应能力、便利性和效率。澳大利亚人口正在老龄化,对护理和支持服务的需求不断增加。与此同时,老年人口在人口中所占比例的增加意味着更少的适龄澳大利亚人可以帮助资助公共服务。1 气候变化等外部力量也有望增加对服务的需求,同时减少可用于提供服务的资源(人员和资金)。
基于模型的系统工程 (MBSE) 的核心是“从概念设计阶段开始并贯穿整个开发和后续生命周期阶段的建模形式化应用,以支持系统需求、设计、分析、验证和确认活动”(INCOSE,2007)。因此,MBSE 提倡“使用模型来执行传统上使用文档执行的系统工程活动”(Mann,2009)。这促进了对复杂系统工程过程的理解,包括人工智能 (AI) 系统工程作为一个多工程过程 (Mattioli 等人,2023d)。然而,MBSE 的成功应用需要对 ISO/IEC DIS 30145-2 标准定义的 AI 可信度进行评估,即“以可验证的方式满足利益相关者期望的能力”。事实上,如果在开发早期阶段没有对可信度进行评估,那么在航空电子、移动、医疗保健和国防等安全关键系统中部署人工智能组件就会变得有风险 (Mattioli 等人,2023b)。鉴于此,量化基于人工智能的系统可信度成为热门话题也就不足为奇了 (Braunschweig 等人,2022)。人工智能
表 T1 – 数据集文档 10 表 T2 – 关于人工智能系统运行的文档 11 表 T3 – 可理解性 12 表 T4 – 可访问性(相关机构之外) 14 表 A1 – 生命周期中确保问责的过程 17 表 A2 – 企业/机构责任(回顾性) 20 表 A3 – 负责任的人为监督 20 表 P1 – 数据处理流程 25 表 P2 – 个人数据保护(人工智能相关) 25 表 P3 – 用户和受影响人员的同意流程、信息和影响 27 表 F1 – 确保开发过程中的公平性 31 表 F2 – 工作和供应链条件 37 表 F3 – 生态可持续发展 38 表 R1 – 设计的稳健性和可靠性 42 表 R2 – 运行中的稳健性和可靠性 47 表 1 – 各级别的对应分数 48
ELF 欧洲自由论坛 (ELF) 是欧洲自由党 (ALDE 党) 的官方政治基金会。我们与 47 个成员组织一起在欧洲各地开展工作,将新思想带入政治辩论,提供讨论平台,并赋予公民权力,让他们发出自己的声音。ELF 成立于 2007 年,旨在加强欧洲的自由民主运动。我们的工作以自由主义理想和对自由原则的信仰为指导。我们主张面向未来的欧洲,为每个公民提供机会。ELF 参与从地方到欧洲的所有政治层面。我们汇集了由国家基金会、智库和其他专家组成的多元化网络。同时,我们也与 ALDE 党和欧洲其他自由党参与者关系密切,但又独立于他们。在这个角色中,我们的论坛是各种不同参与者之间进行开放和知情的意见交流的空间。
本文提供了一种使用自动测试设备 (ATE) 评估下机航空电子系统健康监测可信度的方法。指标包括假阳性、假阴性、真阳性和真阴性的概率。我们首次考虑了刺激信号源 (SSS) 的不稳定性、测量通道误差的随机和系统分量以及系统本身的可靠性特性。我们考虑了永久性故障和间歇性故障的指数分布的具体情况,并推导出计算可信度指标的公式。数值计算说明了正确和错误决策的概率如何取决于精度参数。我们表明,当刺激信号的标准差增加时,假阳性和假阴性的概率增加得比真阳性和真阴性的概率下降得快得多。对于甚高频全向测距 (VOR) 接收器,我们证明即使刺激信号源产生的随机误差为零,假阳性和假阴性的概率也不为零。
本文提供了一种使用自动测试设备 (ATE) 评估下机航空电子系统健康监测可信度的方法。指标包括假阳性、假阴性、真阳性和真阴性的概率。我们首次考虑了刺激信号源 (SSS) 的不稳定性、测量通道误差的随机和系统分量以及系统本身的可靠性特性。我们考虑了永久性故障和间歇性故障的指数分布的具体情况,并推导出计算可信度指标的公式。数值计算说明了正确和错误决策的概率如何取决于精度参数。我们表明,当刺激信号的标准差增加时,假阳性和假阴性的概率增加得比真阳性和真阴性的概率下降得快得多。对于甚高频全向测距 (VOR) 接收器,我们证明即使刺激信号源产生的随机误差为零,假阳性和假阴性的概率也不为零。
本文提供了一种使用自动测试设备 (ATE) 评估下机航空电子系统健康监测可信度的方法。指标包括假阳性、假阴性、真阳性和真阴性的概率。我们首次考虑了刺激信号源 (SSS) 的不稳定性、测量通道误差的随机和系统分量以及系统本身的可靠性特性。我们考虑了永久性故障和间歇性故障的指数分布的具体情况,并推导出计算可信度指标的公式。数值计算说明了正确和错误决策的概率如何取决于精度参数。我们表明,当刺激信号的标准差增加时,假阳性和假阴性的概率增加得比真阳性和真阴性的概率下降得快得多。对于甚高频全向测距 (VOR) 接收器,我们证明即使刺激信号源产生的随机误差为零,假阳性和假阴性的概率也不为零。
Web 代理的最新进展引入了新颖的架构和基准,展示了自主 Web 导航和交互方面的进展。然而,大多数现有基准优先考虑有效性和准确性,而忽略了安全性和可信度等因素——这两者都是部署企业环境中的 Web 代理所必需的。我们提出了 ST-WebAgentBench,这是一个基准,旨在评估 Web 代理在六个关键维度上的安全性和可信度,这对于企业应用程序的可靠性至关重要。该基准基于一个详细的框架,该框架定义了安全和可信 (ST) 代理行为。我们的工作扩展了 WebArena,增加了安全模板和评估功能,以严格评估安全政策合规性。我们引入了“按政策完成”来衡量在遵守政策的同时完成任务的成功程度,以及“风险比率”,它可以量化各个维度的政策违规行为,从而提供可行的见解来解决安全漏洞。我们的评估表明,当前的 SOTA 代理在遵守政策方面存在困难,尚不能依赖它来处理关键业务应用程序。我们开源此基准并邀请社区做出贡献,目标是培育新一代更安全、更值得信赖的 AI 代理。所有代码、数据、环境复制资源和视频演示均可在 https://sites.google.com/view/st-webagentbench/home 上找到。
社交媒体上的错误信息已成为一个严重问题。用可信度指标(可能是由人工智能模型生成的)标记新闻报道是帮助人们打击错误信息的一种方法。在本文中,我们报告了两项随机实验的结果,旨在了解当人们受到社会影响,以至于他们对新闻的判断受到其他人的影响时,基于人工智能的可信度指标对人们对新闻的看法和参与度的影响。我们发现,基于人工智能的可信度指标的存在会促使人们将他们对新闻真实性的信念与人工智能模型的预测相一致,而不管其正确性如何,从而改变人们检测错误信息的准确性。然而,当存在社会影响时,基于人工智能的可信度指标对影响人们对真实新闻或虚假新闻的参与度的影响有限。最后,结果表明,当存在社会影响力时,基于人工智能的可信度指标对虚假信息的检测和传播的影响要大于没有社会影响力时,因为在人们对新闻形成自己的判断之前,这些指标就已提供给人们。最后,我们提出了更好地利用人工智能来打击虚假信息的建议。
摘要。随着决策越来越多地由数据驱动,基础数据(例如,在知识图谱或 Web 上维护的数据)的可信度和可靠性是其在行业中可用性的基本要求。但是,无论是传统解决方案(例如基于纸质的数据管理流程)还是最先进的方法(例如分布式账本技术),都无法充分满足不断发展的工业数据的复杂要求和高吞吐量。受对数据可信度和可靠性有很高要求的实际用例的启发,我们认为对可数字验证的数据不变性的需求仍然是数据质量中一个尚未得到充分解决的维度。基于我们对相关工作中的缺点的讨论,我们因此提出了 ReShare,这是我们的具有双边签名的数字传输合同的新概念,以解决 RDF 知识图谱和 Web 上任意数据的这一未解决的问题。我们对 ReShare 性能和可扩展性的定量评估表明,其计算和通信开销仅为中等水平,与当今的方法相比,具有显著的成本降低潜力。通过巧妙地将数字传输合同与现有的基于 Web 的信息系统相结合,ReShare 为工业 4.0 及以后的数据共享和重用提供了良好的基础,通过易于采用的数字可验证数据不变性和不可否认性实现了数字问责制。