Policy Maps: Tools for Guiding the Unbounded Space of LLM Behaviors
人工智能政策为人工智能模型的可接受行为设定了界限,但这在大型语言模型 (LLM) 的背景下具有挑战性:如何确保覆盖广阔的行为空间?我们引入了政策地图,这是一种受物理地图制作实践启发的人工智能政策设计方法。政策地图不是以全面覆盖为目标,而是通过有意识的设计选择来帮助有效导航,了解哪些方面要捕获,哪些方面要抽象。借助政策投影仪(一种用于设计法学硕士政策地图的交互式工具),人工智能从业者可以调查模型的情况……