政策地图:指导 LLM 行为无限空间的工具

人工智能政策为人工智能模型的可接受行为设定了界限,但这在大型语言模型 (LLM) 的背景下具有挑战性:如何确保覆盖广阔的行为空间?我们引入了政策地图,这是一种受物理地图制作实践启发的人工智能政策设计方法。政策地图不是以全面覆盖为目标,而是通过有意识的设计选择来帮助有效导航,了解哪些方面要捕获,哪些方面要抽象。借助政策投影仪(一种用于设计法学硕士政策地图的交互式工具),人工智能从业者可以调查模型的情况……

来源:Apple机器学习研究

人工智能政策为人工智能模型的可接受行为设定了界限,但这在大型语言模型 (LLM) 的背景下具有挑战性:如何确保覆盖广阔的行为空间?我们引入了政策地图,这是一种受物理地图制作实践启发的人工智能政策设计方法。政策地图不是以全面覆盖为目标,而是通过有意识的设计选择来帮助有效导航,了解哪些方面要捕获,哪些方面要抽象。借助Policy Projector(一种用于设计LLM政策地图的交互式工具),人工智能从业者可以调查模型输入输出对的情况,定义自定义区域(例如“暴力”),并使用可以作用于LLM输出的if-then策略规则来导航这些区域(例如,如果输出包含“暴力”和“图形细节”,则在没有“图形细节”的情况下重写)。政策投影仪支持使用法学硕士分类和指导以及反映人工智能从业者工作的地图可视化来制定交互式政策。在与 12 名人工智能安全专家的评估中,我们的系统帮助政策设计者围绕有问题的模型行为制定政策,例如不正确的性别假设和处理直接的人身安全威胁。

    † 斯坦福大学‡ 卡内基梅隆大学** 在 Apple 期间完成的工作
  • † 斯坦福大学
  • ‡ 卡内基梅隆大学
  • ** 在 Apple 期间完成的工作