详细内容或原文请订阅后点击阅览
语义正则表达式:使用结构化语言自动解释 LLM 功能
自动可解释性旨在将大型语言模型 (LLM) 特征转换为人类可理解的描述。然而,这些自然语言特征描述往往模糊、不一致,需要手动重新标记。作为回应,我们引入了语义正则表达式,即 LLM 功能的结构化语言描述。通过将捕获语言和语义特征模式的原语与上下文化、组合和量化的修饰符相结合,语义正则表达式可以生成精确且富有表现力的特征描述。跨越定量基准和定性......
来源:Apple机器学习研究自动可解释性旨在将大型语言模型 (LLM) 特征转换为人类可理解的描述。然而,这些自然语言特征描述往往模糊、不一致,需要手动重新标记。作为回应,我们引入了语义正则表达式,即 LLM 功能的结构化语言描述。通过将捕获语言和语义特征模式的原语与上下文化、组合和量化的修饰符相结合,语义正则表达式可以生成精确且富有表现力的特征描述。通过定量基准和定性分析,我们发现语义正则表达式与自然语言的准确性相匹配,同时产生更简洁和一致的特征描述。此外,它们的固有结构提供了新型分析,包括量化跨层的特征复杂性,将自动解释性从对单个特征的洞察扩展到模型范围的模式。最后,在用户研究中,我们发现语义正则表达式描述可以帮助人们建立 LLM 特征激活的准确心理模型。
