Breaking Down Video LLM Benchmarks: Knowledge, Spatial Perception, or True Temporal Understanding?
本文在 NeurIPS 2025 的 Evaluating the Evolving LLM Lifecycle Workshop 上被接受。现有的视频理解基准通常将基于知识的问题和纯粹基于图像的问题混为一谈,而不是明确隔离模型的时间推理能力,而这是区分视频理解与其他模态的关键方面。我们发现了两个主要限制,这些限制掩盖了较高的分数是否真正表明对视频中的动态内容有更强的理解:(1)强大的语言先验,模型可以在不观看视频的情况下回答问题;和(2)...
Rooms from Motion: Un-posed Indoor 3D Object Detection as Localization and Mapping
我们重新审视场景级 3D 对象检测,将其作为以对象为中心的框架的输出,该框架能够使用面向 3D 的框作为底层几何基元进行定位和映射。虽然现有的 3D 对象检测方法在全局范围内运行,并且隐式依赖于公制相机姿势的先验存在,但我们的方法“Rooms from Motion (RfM)”对一组未摆姿势的图像进行操作。通过将基于运动结构的标准 2D 关键点匹配器替换为基于图像派生 3D 框的以对象为中心的匹配器,我们可以估计公制相机姿势、对象轨迹和……
Trade Expert EJ Antoni on Tariff Pass-Through
这段来自 FoxBusiness 的片段的 0:29 分钟:我怀疑安东尼认为这些预测“可疑”只是因为它们与他的先验背道而驰。请记住,这个人查看了进口价格指数,并得出结论关税并未提高美国家庭和企业面临的价格,忘记了进口价格指数不包括[...]
英国要为药品支付更多费用?回归系数的先验分布。什么是“农村健康基金” 美国行人死亡人数(第 1、2 部分) 美国私人执业医生从 60.1%(2012 年)下降到 42.2%(2024 年)。
NVIDIA Accelerates Robotics Research and Development With New Open Models and Simulation Libraries
新的NVIDIA ISAAC GR00T开放基础模型将人类式的推理带入机器人,使他们能够使用先验知识和常识来分解复杂的说明并执行任务。