Adapting Self-Supervised Representations as a Latent Space for Efficient Generation
我们引入了 Representation Tokenizer (RepTok),这是一种生成建模框架,它使用从自监督视觉转换器获得的单个连续潜在标记来表示图像。在预先训练的 SSL 编码器的基础上,我们仅微调语义标记嵌入,并将其与使用标准流匹配目标联合训练的生成解码器配对。这种适应通过低级的、与重建相关的细节丰富了令牌,从而实现了忠实的图像重建。为了保留原始 SSL 空间的有利几何形状,我们添加了余弦相似度损失......
Learning Deformable Body Interactions With Adaptive Spatial Tokenization
本文已被 NeurIPS 2025 的 AI for Science Workshop 接受。模拟可变形体之间的相互作用在材料科学、机械设计和机器人等领域至关重要。虽然使用图神经网络 (GNN) 的基于学习的方法可以有效解决复杂的物理系统,但在对可变形身体交互进行建模时会遇到可扩展性问题。为了对对象之间的交互进行建模,必须动态创建成对的全局边缘,这对于大规模网格而言是计算密集型且不切实际的。为了克服这些挑战,借鉴......
LinEAS: End-to-end Learning of Activation Steering with a Distributional Loss
生成模型在日常生活中的使用越来越多,需要有效的机制来控制其生成,例如生成安全的内容或为用户提供探索风格变化的工具。理想情况下,这种机制应该需要少量的未配对数据(即没有明确的偏好),并且在训练和推理时都应该便宜,同时保持输出质量。最近的研究表明,这种机制可以通过专门干预模型激活来获得,目的是纠正使用提示时看到的激活之间的分布差异......
Embedding Atlas: Low-Friction, Interactive Embedding Visualization
嵌入投影通常用于可视化大型数据集和模型。然而,人们在使用嵌入可视化工具时经常遇到“摩擦”:(1)采用障碍,例如繁琐的数据整理和加载、可扩展性限制、无法将结果集成到现有工作流程中,以及(2)可能的分析限制,无法与外部工具集成以额外显示元数据的协调视图。在本文中,我们介绍了 Embedding Atlas,这是一种可扩展的交互式可视化工具,旨在尽可能轻松地与大型嵌入进行交互......
Policy Maps: Tools for Guiding the Unbounded Space of LLM Behaviors
人工智能政策为人工智能模型的可接受行为设定了界限,但这在大型语言模型 (LLM) 的背景下具有挑战性:如何确保覆盖广阔的行为空间?我们引入了政策地图,这是一种受物理地图制作实践启发的人工智能政策设计方法。政策地图不是以全面覆盖为目标,而是通过有意识的设计选择来帮助有效导航,了解哪些方面要捕获,哪些方面要抽象。借助政策投影仪(一种用于设计法学硕士政策地图的交互式工具),人工智能从业者可以调查模型的情况……
SEMORec: A Scalarized Efficient Multi-Objective Recommendation Framework
多利益相关者环境中的推荐系统通常需要同时针对多个目标进行优化,以满足供应商和消费者的需求。在这些环境中提供建议依赖于有效地结合目标来满足每个利益相关者的期望,通常通过具有预先确定和固定权重的量化函数。在实践中,选择这些权重成为一个随之而来的问题。最近的工作开发了算法,通过使用强化学习来训练模型,根据特定应用的需求来调整这些权重。虽然这解决了自动...
Toward Machine Interpreting: Lessons from Human Interpreting Studies
当前的语音翻译系统虽然取得了令人印象深刻的准确度,但其行为相当静态,并且无法像人类口译员那样适应现实世界的情况。为了提高其实际实用性并实现类似口译的体验,准确理解人类口译的本质至关重要。为此,我们从机器翻译领域的角度讨论人类口译文献,同时考虑操作和定性方面。我们确定了语音翻译系统发展的影响……
Empirical Methods in Natural Language Processing (EMNLP) 2025
Apple 将于 11 月 4 日至 9 日在中国苏州举行的年度自然语言处理经验方法 (EMNLP) 会议上展示新的研究成果。 EMNLP 专注于口语处理科学和技术的研究。
推理已成为大型语言模型 (LLM) 的核心范式,不断提高各种基准的准确性。然而,它是否适合精度敏感的任务仍不清楚。我们提出了第一个在严格的低误报率(FPR)制度下分类任务推理的系统研究。我们的分析涵盖两项任务——安全检测和幻觉检测——使用标准法学硕士和大型推理模型(LRM)在微调和零样本设置下进行评估。我们的结果揭示了一个明显的权衡:Think On(推理增强)生成改进......
RL for Reasoning by Adaptively Revealing Rationales
我们提出,来自部分专家演示的强化学习(RL)不仅仅是一种训练启发式方法,而且是解决复杂序列生成任务的一个有前景的框架。监督微调(SFT)依赖于密集的真实标签,随着序列长度的增长,其成本也越来越高。另一方面,强化学习则面临着稀疏奖励和组合大输出空间的问题。我们通过引入自适应回溯(AdaBack)来解决这个问题,这是一种按样本课程学习算法,在训练期间仅显示目标输出的部分前缀。该...
Improving Language Model Personas via Rationalization with Psychological Scaffolds
使用用户描述或角色提示的语言模型用于预测用户的偏好和意见。然而,现有的构建角色的方法主要依赖于用户的人口统计属性和/或先前的判断,而不依赖于用户判断背后的任何潜在推理。我们引入了 PB&J(行为和判断心理学),这是一个框架,通过纳入用户可能做出某种判断的潜在理由来改进 LM 角色。我们的基本原理是由语言模型生成的,用于明确推理用户在……上的行为
ODKE+: Ontology-Guided Open-Domain Knowledge Extraction with LLMs
知识图 (KG) 是许多人工智能应用的基础,但保持其新鲜度和完整性仍然成本高昂。我们推出 ODKE+,这是一个生产级系统,可以自动从网络资源中高精度地提取和摄取数百万个开放域事实。 ODKE+ 将模块化组件组合成可扩展的管道:(1) 提取启动器检测丢失或过时的事实,(2) 证据检索器收集支持文档,(3) 混合知识提取器对大型语言模型 (LLM) 应用基于模式的规则和本体引导提示,(4) ...
Inductive Domain Transfer In Misspecified Simulation-Based Inference
基于模拟的推理 (SBI) 是一种统计推理方法,用于在可能性难以处理但可以进行模拟时估计物理系统的潜在参数。在实践中,SBI 经常受到模型错误指定的阻碍——由于固有的建模简化而导致模拟和现实世界观察结果之间的不匹配。 RoPE 是一种最新的 SBI 方法,它通过两阶段域传输过程解决了这一挑战,该过程将半监督校准与基于最佳传输 (OT) 的分布对齐相结合。然而,RoPE 以完全传导的方式运行……
Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing
多模态模型的最新进展展示了卓越的文本引导图像编辑功能,GPT-4o 和 Nano-Banana 等系统树立了新的基准。然而,由于缺乏根据真实图像构建的大规模、高质量且可公开访问的数据集,研究界的进展仍然受到限制。我们推出 Pico-Banana-400K,这是一个用于基于指令的图像编辑的综合 400K 图像数据集。我们的数据集是通过利用 Nano-Banana 从 OpenImages 集合中的真实照片生成不同的编辑对来构建的。有何区别......
PrimeX: A Dataset of Worldview, Opinion, and Explanation
随着语言模型的采用不断进步,更好地向模型表示个人用户的需求也在不断增加。语言模型是否可以利用个人信念系统的某些方面来改善一致性?根据之前的研究,我们通过开发 PrimeX 在舆论预测领域研究这个问题,PrimeX 是一个来自 858 名美国居民的民意调查数据的数据集,还有两个额外的信仰信息来源:受访者对其为何持有特定观点的书面解释,以及用于评估受访者世界观的原始世界信仰调查。我们……
Evaluating Evaluation Metrics -- The Mirage of Hallucination Detection
幻觉对语言模型的可靠性和广泛采用构成了重大障碍,但其准确测量仍然是一个持续的挑战。尽管已经提出了许多特定于任务和领域的指标来评估忠实性和事实性问题,但这些指标的稳健性和泛化性仍未经过测试。在本文中,我们对 4 个数据集、来自 5 个家族的 37 个语言模型和 5 种解码方法的 6 组不同的幻觉检测指标进行了大规模的实证评估。我们的广泛调查揭示了……方面的差距
实体链接 (EL) 传统上依赖于大型注释数据集和广泛的模型微调。虽然最近的小样本方法通过提示来利用大型语言模型 (LLM) 来减少训练要求,但由于昂贵的基于 LLM 的推理,它们常常效率低下。 ARTER(自适应路由和目标实体推理)提出了一种结构化管道,通过策略性地结合候选生成、基于上下文的评分、自适应路由和选择性推理,无需深度微调即可实现高性能。 ARTER 计算一小组...
Breaking Down Video LLM Benchmarks: Knowledge, Spatial Perception, or True Temporal Understanding?
本文在 NeurIPS 2025 的 Evaluating the Evolving LLM Lifecycle Workshop 上被接受。现有的视频理解基准通常将基于知识的问题和纯粹基于图像的问题混为一谈,而不是明确隔离模型的时间推理能力,而这是区分视频理解与其他模态的关键方面。我们发现了两个主要限制,这些限制掩盖了较高的分数是否真正表明对视频中的动态内容有更强的理解:(1)强大的语言先验,模型可以在不观看视频的情况下回答问题;和(2)...