Multilingual Reasoning Gym: Multilingual Scaling of Procedural Reasoning Environments
我们提出了多语言推理 Gym,它是 Reasoning Gym(Stojanovski 等人,2025)的扩展,它可以在程序上生成跨 14 种语言的可验证推理问题。我们翻译 94 项任务的模板,并以 10 种语言进行母语验证,并进行有针对性的代码或模板调整,以确保语言的自然性。多语言推理 Gym 保留了原始 Reasoning Gym 中使用的程序生成方法的核心优势,例如几乎无限的问题实例生成和可调整的难度,并且仍然可直接用于强化......
P-EAGLE: Faster LLM inference with Parallel Speculative Decoding in vLLM
在这篇文章中,我们将解释 P-EAGLE 的工作原理、如何将其集成到从 v0.16.0 (PR#32887) 开始的 vLLM 中,以及如何通过预先训练的检查点为其提供服务。
The Causal Inference Playbook: Advanced Methods Every Data Scientist Should Master
使用 Python 掌握六种高级因果推理方法:双重稳健估计、工具变量、不连续性回归、现代双重差分、异质治疗效果和敏感性分析。包括代码和实用的决策框架。因果推理手册:每个数据科学家都应该掌握的高级方法一文首先出现在走向数据科学上。
今天,我们宣布针对 Amazon Bedrock 推出两个新的 Amazon CloudWatch 指标:TimeToFirstToken 和 EstimatedTPMQuotaUsage。在这篇文章中,我们将介绍它们的工作原理以及如何设置警报、建立基线以及使用它们主动管理容量。
Access Anthropic Claude models in India on Amazon Bedrock with Global cross-Region inference
在本文中,您将了解如何在印度使用 Amazon Bedrock 的全球跨区域推理来处理 Claude 模型。我们将指导您了解每个 Claude 模型变体的功能以及如何开始使用代码示例,以帮助您立即开始构建生成式 AI 应用程序。
What is LPU? Language Processing Units | The Future of AI Inference
将公共 MCP 服务器部署为 API 端点,并使用函数调用将其工具集成到 LLM 工作流程中。
Clarifai vs Other Inference Providers: Groq, Fireworks, Together AI
将公共 MCP 服务器部署为 API 端点,并使用函数调用将其工具集成到 LLM 工作流程中。
LatentVLA: Latent Reasoning Models for Autonomous Driving
如果自然语言不是驾驶的最佳抽象怎么办?LatentVLA:自动驾驶的潜在推理模型一文首先出现在 Towards Data Science 上。
В Nvidia намерены значительно ускорить логические выводы
该公司通过将 Groq 技术集成到混合推理平台中,巩固了其在人工智能市场的主导地位。
AGIBOT World Challenge at ICRA 2026 Now Opens "Reasoning to Action" and "World Model" Tracks
继首届比赛取得成功之后,今年的比赛带着更广阔的视野和破纪录的 530,000 美元奖金重返 IEEE 国际机器人与自动化会议 (ICRA)。
Scaling ML Inference on Databricks: Liquid or Partitioned? Salted or Not?
关于最大化集群技术的案例研究Databricks 上的后扩展 ML 推理:流动还是分区?加盐还是不加盐?首先出现在《走向数据科学》上。
Scientists made AI agents ruder — and they performed better at complex reasoning tasks
一个新项目允许人工智能聊天机器人像人类在对话中那样打断、保持沉默或大声说话,这让它们变得更聪明、更准确。
Large model inference container – latest capabilities and performance enhancements
AWS 最近发布了大型模型推理 (LMI) 容器的重大更新,为在 AWS 上托管 LLM 的客户提供全面的性能改进、扩展的模型支持和简化的部署功能。这些版本的重点是降低操作复杂性,同时在流行的模型架构中提供可衡量的性能提升。
之前对法学硕士内部运作的研究发现了稀疏子网络,通常称为电路,负责执行特定任务。此外,研究表明,通过微调来提高模型性能通常来自于模型中现有电路的强化。总而言之,这些发现表明直接干预此类电路以进行精确的、针对任务的更新的可能性。受这些发现的启发,我们提出了一种称为“结构性电路放大”的新方法,它可以识别关键令牌……
The Potential of CoT for Reasoning: A Closer Look at Trace Dynamics
思想链 (CoT) 提示是一种事实上的标准技术,可从大型语言模型 (LLM) 中引出类似推理的响应,使他们能够在给出最终答案之前阐明各个步骤。虽然与类人推理的相似性是不可否认的,但支撑 CoT 推理成功的驱动力仍然很大程度上不清楚。在这项工作中,我们对源自竞赛级数学问题的 CoT 痕迹进行了深入分析,目的是更好地理解 CoT 如何以及哪些部分实际上对最终答案做出了贡献。为此……
我们很高兴地宣布,Anthropic 的 Claude Opus 4.6、Claude Sonnet 4.6、Claude Opus 4.5、Claude Sonnet 4.5 和 Claude Haiku 4.5 通过 Amazon Bedrock 全球跨区域推理向中东运营的客户推出。在这篇文章中,我们将引导您了解每个 Anthropic Claude 模型变体的功能、全局跨区域推理的主要优势(包括提高的弹性)、您可以实现的实际用例,以及帮助您立即开始构建生成式 AI 应用程序的代码示例。
Trace Length is a Simple Uncertainty Signal in Reasoning Models
法学硕士的不确定性量化是解决幻觉和其他限制其可靠部署的问题的关键研究方向。在这项工作中,我们证明推理轨迹长度是大型推理模型中简单且有用的置信度估计器。通过跨多个模型、数据集和提示的综合实验,我们表明迹线长度的表现与其他零样本置信度估计器(例如言语置信度)具有可比较但互补的方式。我们的工作表明,训练后推理从根本上改变了踪迹之间的关系……
Apple Workshop on Reasoning and Planning 2025
推理和规划是智能人工智能系统的基石,使它们能够规划、交互、适应并最终独立运行。在 Apple,理解和推进人工智能系统的推理能力长期以来一直是一个活跃的研究领域,并产生了大量出版物,这些出版物既探索推进推理前沿的新技术,又进一步加深了该领域对当前方法的能力(和局限性)的理解。去年,Apple 主办了推理和规划研讨会,汇集了 Apple 研究人员和……