Deloitte report says ‘physical AI’ era has begun as intelligent robots reshape industry
德勤发布了一份新报告,认为世界正在进入“物理人工智能”时代——能够在物理世界中感知、推理和行动的智能机器人——并表示这项技术将重塑制造、建筑、物流和其他工业部门。该报告,机器人技术和物理人工智能如何重塑 [...]
Army Developing Large Language Models to Enhance Targeting
华盛顿特区——陆军正在将大型语言模型开发为完全进化的推理模型,该模型可以生成技能集,从而解放目标专家。
LinEAS: End-to-end Learning of Activation Steering with a Distributional Loss
生成模型在日常生活中的使用越来越多,需要有效的机制来控制其生成,例如生成安全的内容或为用户提供探索风格变化的工具。理想情况下,这种机制应该需要少量的未配对数据(即没有明确的偏好),并且在训练和推理时都应该便宜,同时保持输出质量。最近的研究表明,这种机制可以通过专门干预模型激活来获得,目的是纠正使用提示时看到的激活之间的分布差异......
Mamba-3 – the next evolution in language modeling
Mamba-3 - 状态空间模型,重新定义人工智能如何思考、学习和理解语言。通过改进上下文跟踪、信息处理和响应生成,Mamba-3 为性能和推理速度树立了超越传统 Transformer 模型的新标准。
Improving Language Model Personas via Rationalization with Psychological Scaffolds
使用用户描述或角色提示的语言模型用于预测用户的偏好和意见。然而,现有的构建角色的方法主要依赖于用户的人口统计属性和/或先前的判断,而不依赖于用户判断背后的任何潜在推理。我们引入了 PB&J(行为和判断心理学),这是一个框架,通过纳入用户可能做出某种判断的潜在理由来改进 LM 角色。我们的基本原理是由语言模型生成的,用于明确推理用户在……上的行为
NVIDIA 进一步坚定了对开源的承诺,推出了针对语言、机器人和生物学的全新开源 AI 技术,为开放生态系统做出了贡献,扩大了 AI 的使用范围,并推动了美国的创新。这些开放技术将通过高效推理、高保真世界生成和交互式物理 AI 为全球开发者提供支持并加强经济增长阅读文章
Richtech Robotics unveils its first humanoid robot for ‘real-world work’
Richtech Robotics 是一家美国人工智能驱动机器人解决方案提供商,推出了该公司首款工业用移动人形机器人 Dex。在 Nvidia Jetson Thor 的加速下,Dex 能够在动态环境中运行,适应实时推理,并以详细的精度执行复杂的任务,同时在 [...] 上运行一个完整的工作日
Memory-Efficient Backpropagation for Fine-Tuning LLMs on Resource-Constrained Mobile Devices
使用反向传播对大型语言模型 (LLM) 进行微调(即使对于 LoRA 等参数子集)可能比推理更消耗内存,并且对于资源受限的移动设备来说通常被认为是不切实际的。零阶优化 (ZO) 等替代方法可以大大减少内存占用,但代价是模型收敛速度显着减慢(比反向传播多 10 倍到 100 倍的步骤)。我们提出了一种在移动设备上实现反向传播 (MeBP) 的内存高效实现,它可以在内存使用和计算之间提供更好的权衡……
Breaking Down Video LLM Benchmarks: Knowledge, Spatial Perception, or True Temporal Understanding?
本文在 NeurIPS 2025 的 Evaluating the Evolving LLM Lifecycle Workshop 上被接受。现有的视频理解基准通常将基于知识的问题和纯粹基于图像的问题混为一谈,而不是明确隔离模型的时间推理能力,而这是区分视频理解与其他模态的关键方面。我们发现了两个主要限制,这些限制掩盖了较高的分数是否真正表明对视频中的动态内容有更强的理解:(1)强大的语言先验,模型可以在不观看视频的情况下回答问题;和(2)...
Build a proactive AI cost management system for Amazon Bedrock – Part 2
在这篇文章中,我们探讨了 Amazon Bedrock 部署的高级成本监控策略,引入了精细的自定义标记方法,以实现精确的成本分配和全面的报告机制,这些机制建立在第 1 部分中建立的主动成本管理基础之上。该解决方案演示了如何实现调用级标记、应用程序推理配置文件以及与 AWS Cost Explorer 的集成,以创建生成式 AI 使用和生成的完整 360 度视图。 费用。
The Coasean Singularity? Demand, Supply, and Market Design with AI Agents
NBER 工作文件。 “会议于 2025 年 9 月 18 日至 19 日举行书籍:变革性 AI 的经济学书籍编辑:Ajay K. Agrawal、Anton Korinek 和 Erik Brynjolfsson 出版商:芝加哥大学出版社 AI 代理——代表人类主体感知、推理和行动的自主系统——准备通过大幅降低交易成本来改变数字市场。本章评估了这一点的经济影响 转型,采用以消费者为导向的观点,将代理商视为可以直接搜索、谈判和交易的市场参与者。从需求方面来看,代理采用反映了派生需求:用户在决策质量与工作量减少之间进行权衡,结果由代理能力和任务上下文调节。在供应方面,公司将设计、整合代理并使其货
How many generals do we need? Or: The case against generals
。这篇博文几乎是对一般队伍的不尊重。我不尊重的两个原因是我将阐述的推理和军事历史。今天的陆军(和空军)有大量现役将军级别的军官。如今,兵力与将领数量之比接近1000:1的情况并不罕见。相比之下,到二战后期,美国武装部队的总人员与将军加海军上将的比例约为 8,000:1。那么,需要多少名将军?我先从野战军开始。人们可能认为旅是由旅长指挥的,但在许多军队中,旅是由上校指挥的。因此,对于高场景,每个旅需要一名将军(每个独立团都不需要),但对于低场景则不需要。通常最受尊重的旅与师的比例是一个师三个旅。师长有将军衔,但他的执行官和二把手不需要有将军衔。此外,我们可以每个师使用四个旅,但在高场景下我不会选
Training Software Engineering Agents and Verifiers with SWE-Gym
我们推出了 SWE-Gym,这是第一个用于培训现实世界软件工程 (SWE) 代理的环境。 SWE-Gym 包含 2,438 个真实的 Python 任务实例,每个实例都包含一个具有可执行运行时环境、单元测试和以自然语言指定的任务的代码库。我们使用 SWE-Gym 来训练基于语言模型的 SWE 代理,在流行的 SWE-Bench Verified 和 Lite 测试集上实现了高达 19% 的解决率绝对增益。我们还通过在 SWE-Gym 采样的代理轨迹上训练的验证器来实验推理时间缩放。与我们经过微调的 SWE 结合使用...
Interview with NexCOBOT’s general manager: ‘Single control platform’
随着人形机器人从研究实验室转移到生产环境,开发人员面临的最大挑战之一是系统集成。构建一个能够看到、移动并与人类安全交互的机器人需要多层计算——人工智能推理、实时运动控制和经过认证的功能安全——传统上是在单独的平台上管理的。桥接这些[...]
Inside The Mind Of An AI Agent: 5 Core Functions Explained
人工智能代理的内心世界:5 个核心功能解释 - 信息图表 代理人工智能正在改变智能系统自主思考、学习和行动的方式。该信息图探讨了这些下一代人工智能工作流程背后的五个基本组件:感知、推理、记忆、规划和工具使用。每个元素在帮助代理解释数据、获取信息方面都发挥着独特的作用……人工智能代理的内心深处:解释的 5 个核心功能首先出现在电子学习信息图表上。
EncQA: Benchmarking Vision-Language Models on Visual Encodings for Charts
多模态视觉语言模型 (VLM) 在图表理解基准上的得分不断提高。然而,我们发现这一进展并没有完全体现解释图表所必需的视觉推理能力的广度。我们引入了 EncQA,这是一种基于可视化文献的新颖基准,旨在提供对图表理解至关重要的视觉编码和分析任务的系统覆盖。 EncQA 提供 2,076 个合成问答对,实现六个视觉编码通道的均衡覆盖(位置、长度、面积、颜色……