GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing
使用自然语言指令编辑图像已成为一种自然且富有表现力的修改视觉内容的方式;然而,评估此类模型的性能仍然具有挑战性。现有的评估方法通常依赖于 CLIP 等图像文本相似度度量,但缺乏精度。在这项工作中,我们引入了一个新的基准,旨在以更扎实的方式评估文本引导图像编辑模型,沿着两个关键维度:(i)功能正确性,通过自动生成的多项选择题进行评估,以验证预期的更改是否成功......
Semantic Regexes: Auto-Interpreting LLM Features with a Structured Language
自动可解释性旨在将大型语言模型 (LLM) 特征转换为人类可理解的描述。然而,这些自然语言特征描述往往模糊、不一致,需要手动重新标记。作为回应,我们引入了语义正则表达式,即 LLM 功能的结构化语言描述。通过将捕获语言和语义特征模式的原语与上下文化、组合和量化的修饰符相结合,语义正则表达式可以生成精确且富有表现力的特征描述。跨越定量基准和定性......
Building a Simple Data Quality DSL in Python
构建轻量级 Python DSL,以清晰、富有表现力的方式定义和检查数据质量规则。将复杂的验证逻辑转变为数据团队中任何人都可以理解的简单、可重用的配置。