Web 代理的最新进展引入了新颖的架构和基准,展示了自主 Web 导航和交互方面的进展。然而,大多数现有基准优先考虑有效性和准确性,而忽略了安全性和可信度等因素——这两者都是部署企业环境中的 Web 代理所必需的。我们提出了 ST-WebAgentBench,这是一个基准,旨在评估 Web 代理在六个关键维度上的安全性和可信度,这对于企业应用程序的可靠性至关重要。该基准基于一个详细的框架,该框架定义了安全和可信 (ST) 代理行为。我们的工作扩展了 WebArena,增加了安全模板和评估功能,以严格评估安全政策合规性。我们引入了“按政策完成”来衡量在遵守政策的同时完成任务的成功程度,以及“风险比率”,它可以量化各个维度的政策违规行为,从而提供可行的见解来解决安全漏洞。我们的评估表明,当前的 SOTA 代理在遵守政策方面存在困难,尚不能依赖它来处理关键业务应用程序。我们开源此基准并邀请社区做出贡献,目标是培育新一代更安全、更值得信赖的 AI 代理。所有代码、数据、环境复制资源和视频演示均可在 https://sites.google.com/view/st-webagentbench/home 上找到。
确保通用人工智能 (AGI) 可靠地避免有害行为是一项关键挑战,尤其是对于具有高度自主性或安全关键领域的系统而言。尽管有各种安全保障建议和极端风险警告,但仍然缺乏平衡人工智能安全性和能力的全面指南。在本立场文件中,我们提出了人工智能-45 法则作为通往可信赖 AGI 的平衡路线图的指导原则,并介绍了可信赖 AGI 的因果阶梯作为实用框架。该框架为当前的人工智能能力和安全性研究提供了系统的分类和层次结构,灵感来自 Judea Pearl 的“因果阶梯”。因果阶梯包含三个核心层:近似对齐层、可干预层和可反射层。这些层解决了 AGI 和当代人工智能系统中安全性和可信赖性的关键挑战。在此框架的基础上,我们定义了五个级别的可信赖 AGI:感知、推理、决策、自主和协作可信赖性。这些级别代表了可信 AGI 的独特而进步的方面。最后,我们提出了一系列潜在的治理措施来支持可信 AGI 的发展。1
Error 500 (Server Error)!!1500.That’s an error.There was an error. Please try again later.That’s all we know.
感兴趣的话题 感兴趣的话题包括但不限于以下内容: Fathi Amsad 博士,美国瑞格特州立大学Ahmed Abdelgawad 博士,美国中密歇根大学Alaa Ali Hameed先生,土耳其伊斯廷耶大学Kevin Mccamey 博士,莱特·帕特森空军研究实验室 (WB-AFRL)马特·卡斯托(Matt Casto),中西部微电子联盟公司多发性硬化症。国家安全局 Lynne Clark 博士Erin Gawron-Hyla 博士,国防部微电子公共部门西班牙卡斯蒂利亚-拉曼恰大学 Fausto Pedro Garcia Marquez 博士约翰(马蒂)埃默特(John (Marty) Emmert),美国辛辛那提大学
• 行政命令 13960,促进联邦政府使用值得信赖的人工智能(2020 年 12 月 3 日)——指出人工智能的持续采用和接受将在很大程度上取决于公众信任,因此各机构必须以能够增进公众信任和信心的方式设计、开发、获取和使用人工智能,同时保护隐私、公民权利、公民自由和美国价值观。该行政命令为各机构在联邦政府设计、开发、获取和使用人工智能时制定了九项原则。此外,该行政命令承认一些机构已经在人工智能的使用方面处于领先地位。因此,其许多里程碑和可交付成果都侧重于识别和报告人工智能用例清单(以下称为人工智能项目),并指定一名负责官员来协调本行政命令中规定的实施。
所提出的方法被设计为一个循序渐进的过程,目的是以务实和高效的方式支持和改进人工智能系统的设计、开发和采用。方法论问题指导开发团队,并作为促进遵守《人工智能法案》等法规的清单。这种方法可以系统地构建人工智能系统所需的文档并开发值得信赖的人工智能解决方案。
• 生成式 AI 和新兴 HEOR 应用的前景 • 生成式 AI 的局限性 • NICE 关于 AI 的立场声明 • 评估可信赖 AI 的现有框架 • 在
能够负责任地、合乎道德地使用人工智能的组织更有可能取得商业成功。消费者和员工希望企业能够为他们挺身而出,并以合乎道德和能力的方式行事,因为 63% 4 的消费者根据自己的信念和价值观购买或推荐品牌。消费者对组织的信任需求也适用于组织对人工智能的使用。62% 3 的消费者对他们认为人工智能互动合乎道德的公司给予更高的信任。在这些客户中,59% 3 对公司的忠诚度更高,55% 3 购买更多产品,在社交媒体上给予高评分和积极反馈。消费者相信组织负责任地使用人工智能对于持续的业务成功至关重要。