Evaluating Evaluation Metrics -- The Mirage of Hallucination Detection
幻觉对语言模型的可靠性和广泛采用构成了重大障碍,但其准确测量仍然是一个持续的挑战。尽管已经提出了许多特定于任务和领域的指标来评估忠实性和事实性问题,但这些指标的稳健性和泛化性仍未经过测试。在本文中,我们对 4 个数据集、来自 5 个家族的 37 个语言模型和 5 种解码方法的 6 组不同的幻觉检测指标进行了大规模的实证评估。我们的广泛调查揭示了……方面的差距
Memory-Efficient Backpropagation for Fine-Tuning LLMs on Resource-Constrained Mobile Devices
使用反向传播对大型语言模型 (LLM) 进行微调(即使对于 LoRA 等参数子集)可能比推理更消耗内存,并且对于资源受限的移动设备来说通常被认为是不切实际的。零阶优化 (ZO) 等替代方法可以大大减少内存占用,但代价是模型收敛速度显着减慢(比反向传播多 10 倍到 100 倍的步骤)。我们提出了一种在移动设备上实现反向传播 (MeBP) 的内存高效实现,它可以在内存使用和计算之间提供更好的权衡……
PrimeX: A Dataset of Worldview, Opinion, and Explanation
随着语言模型的采用不断进步,更好地向模型表示个人用户的需求也在不断增加。语言模型是否可以利用个人信念系统的某些方面来改善一致性?根据之前的研究,我们通过开发 PrimeX 在舆论预测领域研究这个问题,PrimeX 是一个来自 858 名美国居民的民意调查数据的数据集,还有两个额外的信仰信息来源:受访者对其为何持有特定观点的书面解释,以及用于评估受访者世界观的原始世界信仰调查。我们……
Inductive Domain Transfer In Misspecified Simulation-Based Inference
基于模拟的推理 (SBI) 是一种统计推理方法,用于在可能性难以处理但可以进行模拟时估计物理系统的潜在参数。在实践中,SBI 经常受到模型错误指定的阻碍——由于固有的建模简化而导致模拟和现实世界观察结果之间的不匹配。 RoPE 是一种最新的 SBI 方法,它通过两阶段域传输过程解决了这一挑战,该过程将半监督校准与基于最佳传输 (OT) 的分布对齐相结合。然而,RoPE 以完全传导的方式运行……
ODKE+: Ontology-Guided Open-Domain Knowledge Extraction with LLMs
知识图 (KG) 是许多人工智能应用的基础,但保持其新鲜度和完整性仍然成本高昂。我们推出 ODKE+,这是一个生产级系统,可以自动从网络资源中高精度地提取和摄取数百万个开放域事实。 ODKE+ 将模块化组件组合成可扩展的管道:(1) 提取启动器检测丢失或过时的事实,(2) 证据检索器收集支持文档,(3) 混合知识提取器对大型语言模型 (LLM) 应用基于模式的规则和本体引导提示,(4) ...
Bias after Prompting: Persistent Discrimination in Large Language Models
从偏见转移假设 (BTH) 的先前工作中可以得出的一个危险假设是,偏见不会从预先训练的大型语言模型 (LLM) 转移到适应模型。我们通过研究提示适应下因果模型中的 BTH 来验证这一假设,因为提示是现实世界应用中非常流行且易于使用的适应策略。与之前的工作相比,我们发现偏见可以通过提示转移,而流行的基于提示的缓解方法并不能始终阻止偏见的转移。具体来说,相关性......
Rooms from Motion: Un-posed Indoor 3D Object Detection as Localization and Mapping
我们重新审视场景级 3D 对象检测,将其作为以对象为中心的框架的输出,该框架能够使用面向 3D 的框作为底层几何基元进行定位和映射。虽然现有的 3D 对象检测方法在全局范围内运行,并且隐式依赖于公制相机姿势的先验存在,但我们的方法“Rooms from Motion (RfM)”对一组未摆姿势的图像进行操作。通过将基于运动结构的标准 2D 关键点匹配器替换为基于图像派生 3D 框的以对象为中心的匹配器,我们可以估计公制相机姿势、对象轨迹和……
Switchboard-Affect: Emotion Perception Labels from Conversational Speech
了解语音情感数据集管理和标记的细微差别对于评估语音情感识别 (SER) 模型在现实应用中的潜力至关重要。大多数训练和评估数据集包含表演或伪表演语音(例如播客语音),其中情绪表达可能被夸大或以其他方式故意修改。此外,基于人群感知标记的数据集通常缺乏给注释者的指导方针的透明度。这些因素使得理解模型性能和确定需要改进的必要领域变得困难。到...
CPEP: Contrastive Pose-EMG Pre-training Enhances Gesture Generalization on EMG Signals
本文已被 NeurIPS 2025 的大脑和身体基础模型研讨会接受。使用视频、图像和手部骨骼等高质量结构化数据进行手势分类是计算机视觉中一个经过充分探索的问题。利用低功耗、经济高效的生物信号,例如表面肌电图 (sEMG) 可在可穿戴设备上进行连续手势预测。在本文中,我们证明,从与结构化、高质量数据一致的弱模态数据中学习表示可以提高表示质量并实现零样本……
Training Software Engineering Agents and Verifiers with SWE-Gym
我们推出了 SWE-Gym,这是第一个用于培训现实世界软件工程 (SWE) 代理的环境。 SWE-Gym 包含 2,438 个真实的 Python 任务实例,每个实例都包含一个具有可执行运行时环境、单元测试和以自然语言指定的任务的代码库。我们使用 SWE-Gym 来训练基于语言模型的 SWE 代理,在流行的 SWE-Bench Verified 和 Lite 测试集上实现了高达 19% 的解决率绝对增益。我们还通过在 SWE-Gym 采样的代理轨迹上训练的验证器来实验推理时间缩放。与我们经过微调的 SWE 结合使用...
Software Defect Prediction using Autoencoder Transformer Model
由 AI-ML 驱动的质量工程方法使用 AI-ML 通过预测缺陷来增强软件质量评估。现有的机器学习模型难以应对噪声数据类型、不平衡、模式识别、特征提取和泛化等问题。为了应对这些挑战,我们开发了一种新模型,即基于自适应差分进化(ADE)的量子变分自编码器-变换器(QVAET)模型(ADE-QVAET)。 ADE 与 QVAET 相结合,获得高维潜在特征并保持顺序依赖性,从而提高缺陷预测的准确性。 ADE 优化增强模型...
Agentic RAG for Software Testing with Hybrid Vector-Graph and Multi-Agent Orchestration
我们提出了一种使用代理检索增强生成 (RAG) 系统来创建质量工程 (QE) 工件的软件测试自动化方法。我们将自主人工智能代理与混合矢量图知识系统相结合,以自动生成测试计划、案例和 QE 指标。我们的方法通过利用 Gemini 和 Mistral 等法学硕士、多代理编排和增强的情境化来解决传统软件测试的局限性。该系统的准确度显着提高,从 65% 提高到 94.8%,同时确保整个文档的全面可追溯性……
EncQA: Benchmarking Vision-Language Models on Visual Encodings for Charts
多模态视觉语言模型 (VLM) 在图表理解基准上的得分不断提高。然而,我们发现这一进展并没有完全体现解释图表所必需的视觉推理能力的广度。我们引入了 EncQA,这是一种基于可视化文献的新颖基准,旨在提供对图表理解至关重要的视觉编码和分析任务的系统覆盖。 EncQA 提供 2,076 个合成问答对,实现六个视觉编码通道的均衡覆盖(位置、长度、面积、颜色……
International Conference on Computer Vision (ICCV) 2025
Apple 将在两年一度的国际计算机视觉会议 (ICCV) 上展示新作品,该会议将于 10 月 19 日至 23 日在夏威夷檀香山举行。该会议每年与欧洲计算机视觉会议(ECCV)交替举行,重点讨论计算机视觉领域的重要主题。
FS-DFM: Fast and Accurate Long Text Generation with Few-Step Diffusion Language Models
自回归语言模型 (ARM) 提供了很强的可能性,但本质上是串行的:它们每次前向传递生成一个令牌,这限制了吞吐量并增加了长序列的延迟。扩散语言模型 (DLM) 跨位置并行,因此对于语言生成来说似乎很有前景,但标准离散扩散通常需要数百到数千次模型评估才能达到高质量,以串行深度换取迭代广度。我们引入 FS-DFM,即少步离散流匹配。离散流量匹配模型,专为提高速度而设计,且不牺牲……
Local Mechanisms of Compositional Generalization in Conditional Diffusion
条件扩散模型似乎能够进行成分泛化,即为调节器的分布外组合生成令人信服的样本,但这种能力背后的机制仍不清楚。为了使这一点具体化,我们研究了长度泛化,即生成具有比训练期间看到的更多对象的图像的能力。在受控的 CLEVR 设置中(Johnson 等人,2017),我们发现在某些情况下可以实现长度泛化,但在其他情况下则不能,这表明模型有时只能学习底层的组成结构。然后我们调查......
Analyzing Dialectical Biases in LLMs for Knowledge and Reasoning Benchmarks
大型语言模型 (LLM) 在现代自然语言处理中无处不在。然而,之前的研究表明,代表性不足的英语方言的法学硕士成绩有所下降。我们分析了将“标准”美式英语问题典型化为非“标准”方言变体对多项选择题回答任务的影响,发现准确率降低了 20%。此外,我们还调查了非“标准”英语问题中表现不佳的语法基础。我们发现各个语法规则对性能有不同的影响,但有些更……
检测大型分布式系统中的异常存在一些挑战。第一个挑战来自需要处理的数据量。在高吞吐量环境中标记异常需要仔细考虑算法和系统设计。第二个挑战来自在生产中利用此类系统的时间序列数据集的异质性。在实践中,异常检测系统很少针对单个用例部署。通常,需要监控多个指标,通常跨多个领域(例如工程、业务和……