Loading...
机构名称:
¥ 2.0

Web 代理的最新进展引入了新颖的架构和基准,展示了自主 Web 导航和交互方面的进展。然而,大多数现有基准优先考虑有效性和准确性,而忽略了安全性和可信度等因素——这两者都是部署企业环境中的 Web 代理所必需的。我们提出了 ST-WebAgentBench,这是一个基准,旨在评估 Web 代理在六个关键维度上的安全性和可信度,这对于企业应用程序的可靠性至关重要。该基准基于一个详细的框架,该框架定义了安全和可信 (ST) 代理行为。我们的工作扩展了 WebArena,增加了安全模板和评估功能,以严格评估安全政策合规性。我们引入了“按政策完成”来衡量在遵守政策的同时完成任务的成功程度,以及“风险比率”,它可以量化各个维度的政策违规行为,从而提供可行的见解来解决安全漏洞。我们的评估表明,当前的 SOTA 代理在遵守政策方面存在困难,尚不能依赖它来处理关键业务应用程序。我们开源此基准并邀请社区做出贡献,目标是培育新一代更安全、更值得信赖的 AI 代理。所有代码、数据、环境复制资源和视频演示均可在 https://sites.google.com/view/st-webagentbench/home 上找到。

评估网络代理的安全性和可信度

评估网络代理的安全性和可信度PDF文件第1页

评估网络代理的安全性和可信度PDF文件第2页

评估网络代理的安全性和可信度PDF文件第3页

评估网络代理的安全性和可信度PDF文件第4页

评估网络代理的安全性和可信度PDF文件第5页

相关文件推荐