Learning Deformable Body Interactions With Adaptive Spatial Tokenization
本文已被 NeurIPS 2025 的 AI for Science Workshop 接受。模拟可变形体之间的相互作用在材料科学、机械设计和机器人等领域至关重要。虽然使用图神经网络 (GNN) 的基于学习的方法可以有效解决复杂的物理系统,但在对可变形身体交互进行建模时会遇到可扩展性问题。为了对对象之间的交互进行建模,必须动态创建成对的全局边缘,这对于大规模网格而言是计算密集型且不切实际的。为了克服这些挑战,借鉴......
Breaking Down Video LLM Benchmarks: Knowledge, Spatial Perception, or True Temporal Understanding?
本文在 NeurIPS 2025 的 Evaluating the Evolving LLM Lifecycle Workshop 上被接受。现有的视频理解基准通常将基于知识的问题和纯粹基于图像的问题混为一谈,而不是明确隔离模型的时间推理能力,而这是区分视频理解与其他模态的关键方面。我们发现了两个主要限制,这些限制掩盖了较高的分数是否真正表明对视频中的动态内容有更强的理解:(1)强大的语言先验,模型可以在不观看视频的情况下回答问题;和(2)...
CPEP: Contrastive Pose-EMG Pre-training Enhances Gesture Generalization on EMG Signals
本文已被 NeurIPS 2025 的大脑和身体基础模型研讨会接受。使用视频、图像和手部骨骼等高质量结构化数据进行手势分类是计算机视觉中一个经过充分探索的问题。利用低功耗、经济高效的生物信号,例如表面肌电图 (sEMG) 可在可穿戴设备上进行连续手势预测。在本文中,我们证明,从与结构化、高质量数据一致的弱模态数据中学习表示可以提高表示质量并实现零样本……