详细内容或原文请订阅后点击阅览
发现系统中何时存在代理
我们希望构建安全、一致的通用人工智能 (AGI) 系统,以实现其设计者的预期目标。因果影响图 (CID) 是一种模拟决策情况的方法,使我们能够推理代理激励。通过将训练设置与塑造代理行为的激励联系起来,CID 有助于在训练代理之前阐明潜在风险,并可以启发更好的代理设计。但我们如何知道 CID 何时是训练设置的准确模型?
来源:DeepMind - 新闻与博客研究
发现代理何时存在于系统中
- 已发布2022 年 8 月 18 日作者Zachary Kenton、Ramana Kumar、Sebastian Farquhar、Jonathan Richens、Matt MacDermott、Tom Everitt
Zachary Kenton、Ramana Kumar、Sebastian Farquhar、Jonathan Richens、Matt MacDermott、Tom Everitt
代理的新正式定义给出了 AI 代理因果建模的明确原则及其面临的激励
新的、正式的代理定义给出了 AI 代理因果建模及其面临的激励的明确原则我们希望构建安全、一致的通用人工智能 (AGI) 系统,以追求其设计者的预期目标。因果影响图 (CID) 是一种模拟决策情况的方法,使我们能够推理代理激励。例如,这是一个 1 步马尔可夫决策过程的 CID——决策问题的典型框架。
因果影响图 代理激励S1 表示初始状态,A1 表示代理的决策(正方形),S2 表示下一个状态。R2 是代理的奖励/效用(菱形)。实线链接指定因果影响。虚线边指定信息链接 - 代理在做出决策时知道什么。
我们的新论文《发现代理》介绍了解决这些问题的新方法,包括:
发现代理 机械化因果图 论文