To Infinity and Beyond: Tool-Use Unlocks Length Generalization in State Space Models
状态空间模型 (SSM) 已成为序列建模中 Transformer 的主要替代方案。它们的主要优点是通过固定大小的内存和计算复杂性的线性缩放实现长上下文和长格式生成的效率。我们通过展示一个简单的理论结果来开始这项工作,表明 SSM 无法准确解决任何“真正的长形式”发电问题(在某种意义上我们正式定义),从而削弱了它们的主要竞争优势。然而,我们表明,可以通过允许 SSM 交互式访问外部工具来缓解这一限制。事实上,我们...
ProVenTL:用于预测来自蛇毒的肽-蛋白质相互作用用于癌症治疗的迁移学习框架摘要肽-蛋白质相互作用(PepPI)的准确预测对于推进基于肽的抗癌药物设计至关重要。在本研究中,我们介绍了 ProVenTL,这是一种计算机辅助分子设计框架,它利用迁移学习和蛋白质语言模型嵌入来增强 PepPI 预测的准确性和可解释性。探索了两种互补策略:(i) 使用 Calloselasma rhodostoma 毒液肽和癌症相关蛋白的精选数据集对来自蛋白质数据库 (PDB) 的大规模 PepPI 数据进行预训练的 CAMP 模型,以及 (ii) 将 ProtT5 嵌入与堆叠自动编码器深度神经网络 (SAE-DN
MixAtlas: Uncertainty-aware Data Mixture Optimization for Multimodal LLM Midtraining
本文在 ICLR 2026 的导航和解决基础模型数据问题研讨会 (NADPFM) 上被接受。原则上的领域重新加权可以大幅提高样本效率和下游泛化能力;然而,多模式预训练的数据混合优化仍未得到充分探索。当前的多模式训练方法仅从数据格式或任务类型等单一角度调整混合物。我们介绍 MixAtlas,这是一个通过系统域分解和更小的代理模型进行计算高效的多模态混合优化的原则框架......
Scaling Physical AI: Why grippers and sensors matter for real-world robotics
物理人工智能正在迅速发展。从模仿学习到基础模型,机器人团队正在朝着能够随着时间的推移适应、泛化和改进的系统取得真正的进展。但仍然存在差距。其中许多系统在受控环境中运行良好……但在面对实际生产的变化时却表现不佳。如果您是机器人 OEM、产品领导者或工程团队,您可能已经亲身感受到这一点。挑战不仅仅是构建更智能的机器人。而是构建在现实中可靠工作的机器人world.arm 末端工具是这个方程式的关键部分。
Beyond Real Data: Synthetic Data through the Lens of Regularization
当真实数据稀缺时,合成数据可以提高泛化能力,但过度依赖可能会导致分布不匹配,从而降低性能。在本文中,我们提出了一个学习理论框架来量化合成数据和真实数据之间的权衡。我们的方法利用算法稳定性来推导泛化误差范围,描述最佳合成与真实数据比率,以最小化预期测试误差作为真实分布和合成分布之间 Wasserstein 距离的函数。我们在内核脊的设置中激发我们的框架......
RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning
密集图像字幕对于视觉语言预训练和文本到图像生成中的跨模式对齐至关重要,但扩展专家质量注释的成本却极其昂贵。虽然通过强大的视觉语言模型 (VLM) 进行合成字幕是一种实用的替代方案,但监督蒸馏通常会产生有限的输出多样性和弱泛化性。强化学习(RL)可以克服这些限制,但迄今为止它的成功主要集中在依赖确定性检查器的可验证领域——这是开放式字幕所不具备的奢侈品。我们……