ODKE+: Ontology-Guided Open-Domain Knowledge Extraction with LLMs
知识图 (KG) 是许多人工智能应用的基础,但保持其新鲜度和完整性仍然成本高昂。我们推出 ODKE+,这是一个生产级系统,可以自动从网络资源中高精度地提取和摄取数百万个开放域事实。 ODKE+ 将模块化组件组合成可扩展的管道:(1) 提取启动器检测丢失或过时的事实,(2) 证据检索器收集支持文档,(3) 混合知识提取器对大型语言模型 (LLM) 应用基于模式的规则和本体引导提示,(4) ...
实体链接 (EL) 传统上依赖于大型注释数据集和广泛的模型微调。虽然最近的小样本方法通过提示来利用大型语言模型 (LLM) 来减少训练要求,但由于昂贵的基于 LLM 的推理,它们常常效率低下。 ARTER(自适应路由和目标实体推理)提出了一种结构化管道,通过策略性地结合候选生成、基于上下文的评分、自适应路由和选择性推理,无需深度微调即可实现高性能。 ARTER 计算一小组...
Bias after Prompting: Persistent Discrimination in Large Language Models
从偏见转移假设 (BTH) 的先前工作中可以得出的一个危险假设是,偏见不会从预先训练的大型语言模型 (LLM) 转移到适应模型。我们通过研究提示适应下因果模型中的 BTH 来验证这一假设,因为提示是现实世界应用中非常流行且易于使用的适应策略。与之前的工作相比,我们发现偏见可以通过提示转移,而流行的基于提示的缓解方法并不能始终阻止偏见的转移。具体来说,相关性......
Rooms from Motion: Un-posed Indoor 3D Object Detection as Localization and Mapping
我们重新审视场景级 3D 对象检测,将其作为以对象为中心的框架的输出,该框架能够使用面向 3D 的框作为底层几何基元进行定位和映射。虽然现有的 3D 对象检测方法在全局范围内运行,并且隐式依赖于公制相机姿势的先验存在,但我们的方法“Rooms from Motion (RfM)”对一组未摆姿势的图像进行操作。通过将基于运动结构的标准 2D 关键点匹配器替换为基于图像派生 3D 框的以对象为中心的匹配器,我们可以估计公制相机姿势、对象轨迹和……
Switchboard-Affect: Emotion Perception Labels from Conversational Speech
了解语音情感数据集管理和标记的细微差别对于评估语音情感识别 (SER) 模型在现实应用中的潜力至关重要。大多数训练和评估数据集包含表演或伪表演语音(例如播客语音),其中情绪表达可能被夸大或以其他方式故意修改。此外,基于人群感知标记的数据集通常缺乏给注释者的指导方针的透明度。这些因素使得理解模型性能和确定需要改进的必要领域变得困难。到...
Training Software Engineering Agents and Verifiers with SWE-Gym
我们推出了 SWE-Gym,这是第一个用于培训现实世界软件工程 (SWE) 代理的环境。 SWE-Gym 包含 2,438 个真实的 Python 任务实例,每个实例都包含一个具有可执行运行时环境、单元测试和以自然语言指定的任务的代码库。我们使用 SWE-Gym 来训练基于语言模型的 SWE 代理,在流行的 SWE-Bench Verified 和 Lite 测试集上实现了高达 19% 的解决率绝对增益。我们还通过在 SWE-Gym 采样的代理轨迹上训练的验证器来实验推理时间缩放。与我们经过微调的 SWE 结合使用...
CPEP: Contrastive Pose-EMG Pre-training Enhances Gesture Generalization on EMG Signals
本文已被 NeurIPS 2025 的大脑和身体基础模型研讨会接受。使用视频、图像和手部骨骼等高质量结构化数据进行手势分类是计算机视觉中一个经过充分探索的问题。利用低功耗、经济高效的生物信号,例如表面肌电图 (sEMG) 可在可穿戴设备上进行连续手势预测。在本文中,我们证明,从与结构化、高质量数据一致的弱模态数据中学习表示可以提高表示质量并实现零样本……
Agentic RAG for Software Testing with Hybrid Vector-Graph and Multi-Agent Orchestration
我们提出了一种使用代理检索增强生成 (RAG) 系统来创建质量工程 (QE) 工件的软件测试自动化方法。我们将自主人工智能代理与混合矢量图知识系统相结合,以自动生成测试计划、案例和 QE 指标。我们的方法通过利用 Gemini 和 Mistral 等法学硕士、多代理编排和增强的情境化来解决传统软件测试的局限性。该系统的准确度显着提高,从 65% 提高到 94.8%,同时确保整个文档的全面可追溯性……
Software Defect Prediction using Autoencoder Transformer Model
由 AI-ML 驱动的质量工程方法使用 AI-ML 通过预测缺陷来增强软件质量评估。现有的机器学习模型难以应对噪声数据类型、不平衡、模式识别、特征提取和泛化等问题。为了应对这些挑战,我们开发了一种新模型,即基于自适应差分进化(ADE)的量子变分自编码器-变换器(QVAET)模型(ADE-QVAET)。 ADE 与 QVAET 相结合,获得高维潜在特征并保持顺序依赖性,从而提高缺陷预测的准确性。 ADE 优化增强模型...
International Conference on Computer Vision (ICCV) 2025
Apple 将在两年一度的国际计算机视觉会议 (ICCV) 上展示新作品,该会议将于 10 月 19 日至 23 日在夏威夷檀香山举行。该会议每年与欧洲计算机视觉会议(ECCV)交替举行,重点讨论计算机视觉领域的重要主题。
EncQA: Benchmarking Vision-Language Models on Visual Encodings for Charts
多模态视觉语言模型 (VLM) 在图表理解基准上的得分不断提高。然而,我们发现这一进展并没有完全体现解释图表所必需的视觉推理能力的广度。我们引入了 EncQA,这是一种基于可视化文献的新颖基准,旨在提供对图表理解至关重要的视觉编码和分析任务的系统覆盖。 EncQA 提供 2,076 个合成问答对,实现六个视觉编码通道的均衡覆盖(位置、长度、面积、颜色……
FS-DFM: Fast and Accurate Long Text Generation with Few-Step Diffusion Language Models
自回归语言模型 (ARM) 提供了很强的可能性,但本质上是串行的:它们每次前向传递生成一个令牌,这限制了吞吐量并增加了长序列的延迟。扩散语言模型 (DLM) 跨位置并行,因此对于语言生成来说似乎很有前景,但标准离散扩散通常需要数百到数千次模型评估才能达到高质量,以串行深度换取迭代广度。我们引入 FS-DFM,即少步离散流匹配。离散流量匹配模型,专为提高速度而设计,且不牺牲……
Analyzing Dialectical Biases in LLMs for Knowledge and Reasoning Benchmarks
大型语言模型 (LLM) 在现代自然语言处理中无处不在。然而,之前的研究表明,代表性不足的英语方言的法学硕士成绩有所下降。我们分析了将“标准”美式英语问题典型化为非“标准”方言变体对多项选择题回答任务的影响,发现准确率降低了 20%。此外,我们还调查了非“标准”英语问题中表现不佳的语法基础。我们发现各个语法规则对性能有不同的影响,但有些更……
Local Mechanisms of Compositional Generalization in Conditional Diffusion
条件扩散模型似乎能够进行成分泛化,即为调节器的分布外组合生成令人信服的样本,但这种能力背后的机制仍不清楚。为了使这一点具体化,我们研究了长度泛化,即生成具有比训练期间看到的更多对象的图像的能力。在受控的 CLEVR 设置中(Johnson 等人,2017),我们发现在某些情况下可以实现长度泛化,但在其他情况下则不能,这表明模型有时只能学习底层的组成结构。然后我们调查......
检测大型分布式系统中的异常存在一些挑战。第一个挑战来自需要处理的数据量。在高吞吐量环境中标记异常需要仔细考虑算法和系统设计。第二个挑战来自在生产中利用此类系统的时间序列数据集的异质性。在实践中,异常检测系统很少针对单个用例部署。通常,需要监控多个指标,通常跨多个领域(例如工程、业务和……
Rethinking JEPA: Compute-Efficient Video SSL with Frozen Teachers
视频联合嵌入预测架构 (V-JEPA) 通过使用指数移动平均 (EMA) 更新的教师预测潜在空间中的屏蔽区域来学习可推广的现成视频表示。虽然 EMA 可以防止表示崩溃,但它使可扩展模型选择变得复杂,并将教师和学生架构耦合起来。我们重新审视隐藏的潜在预测,并表明冻结的教师就足够了。具体来说,我们 (i) 在 V-JEPA 掩蔽下使用简单的像素重建目标训练目标编码器,然后 (ii) 冻结它并训练学生预测老师的……
Stable Diffusion Models are Secretly Good at Visual In-Context Learning
自然语言处理 (NLP) 中的大型语言模型 (LLM) 已展现出上下文学习 (ICL) 的巨大潜力——能够利用几组示例提示来适应各种任务,而无需显式更新模型权重。 ICL 最近被探索用于计算机视觉任务,并取得了有希望的早期成果。这些方法涉及专门的培训和/或额外的数据,使过程复杂化并限制其普遍性。在这项工作中,我们展示了现成的稳定扩散模型可以重新用于视觉上下文学习……
Hilbert: Recursively Building Formal Proofs with Informal Reasoning
大型语言模型 (LLM) 展示了令人印象深刻的数学推理能力,但它们的解决方案经常包含无法自动验证的错误。 Lean 4 等形式化定理证明系统提供了完全准确的自动验证,推动了最近努力构建专门的证明者法学硕士,以形式语言生成可验证的证明。然而,仍然存在一个重大差距:当前的证明者法学硕士解决的问题比使用自然语言操作的通用法学硕士要少得多。我们介绍 Hilbert,一个代理框架,它通过以下方式弥合了这一差距