推理关键词检索结果

利用 TTFT 和估计配额消耗的新 CloudWatch 指标提高 Amazon Bedrock 上推理工作负载的运营可见性

Improve operational visibility for inference workloads on Amazon Bedrock with new CloudWatch metrics for TTFT and Estimated Quota Consumption

今天,我们宣布针对 Amazon Bedrock 推出两个新的 Amazon CloudWatch 指标:TimeToFirstToken 和 EstimatedTPMQuotaUsage。在这篇文章中,我们将介绍它们的工作原理以及如何设置警报、建立基线以及使用它们主动管理容量。

通过全球跨区域推理在 Amazon Bedrock 上访问印度的 Anthropic Claude 模型

Access Anthropic Claude models in India on Amazon Bedrock with Global cross-Region inference

在本文中,您将了解如何在印度使用 Amazon Bedrock 的全球跨区域推理来处理 Claude 模型。我们将指导您了解每个 Claude 模型变体的功能以及如何开始使用代码示例,以帮助您立即开始构建生成式 AI 应用程序。

什么是LPU?语言处理单元|人工智能推理的未来

What is LPU? Language Processing Units | The Future of AI Inference

将公共 MCP 服务器部署为 API 端点,并使用函数调用将其工具集成到 LLM 工作流程中。

Clarifai 与其他推理提供商:Groq、Fireworks、Together AI

Clarifai vs Other Inference Providers: Groq, Fireworks, Together AI

将公共 MCP 服务器部署为 API 端点,并使用函数调用将其工具集成到 LLM 工作流程中。

LatentVLA:自动驾驶的潜在推理模型

LatentVLA: Latent Reasoning Models for Autonomous Driving

如果自然语言不是驾驶的最佳抽象怎么办?LatentVLA:自动驾驶的潜在推理模型一文首先出现在 Towards Data Science 上。

Nvidia 打算显着加快推理速度

В Nvidia намерены значительно ускорить логические выводы

该公司通过将 Groq 技术集成到混合推理平台中,巩固了其在人工智能市场的主导地位。

ICRA 2026 的 AGIBOT 世界挑战赛现已开放“推理到行动”和“世界模型”赛道

AGIBOT World Challenge at ICRA 2026 Now Opens "Reasoning to Action" and "World Model" Tracks

继首届比赛取得成功之后,今年的比赛带着更广阔的视野和破纪录的 530,000 美元奖金重返 IEEE 国际机器人与自动化会议 (ICRA)。

在 Databricks 上扩展 ML 推理:流动还是分区?加盐还是不加盐?

Scaling ML Inference on Databricks: Liquid or Partitioned? Salted or Not?

关于最大化集群技术的案例研究Databricks 上的后扩展 ML 推理:流动还是分区?加盐还是不加盐?首先出现在《走向数据科学》上。

科学家们让人工智能代理变得更加粗鲁——而且它们在复杂的推理任务中表现更好

Scientists made AI agents ruder — and they performed better at complex reasoning tasks

一个新项目允许人工智能聊天机器人像人类在对话中那样打断、保持沉默或大声说话,这让它们变得更聪明、更准确。

大型模型推理容器 – 最新功能和性能增强

Large model inference container – latest capabilities and performance enhancements

AWS 最近发布了大型模型推理 (LMI) 容器的重大更新,为在 AWS 上托管 LLM 的客户提供全面的性能改进、扩展的模型支持和简化的部署功能。这些版本的重点是降低操作复杂性,同时在流行的模型架构中提供可衡量的性能提升。

建设性电路放大:通过有针对性的子网络更新改进法学硕士的数学推理

Constructive Circuit Amplification: Improving Math Reasoning in LLMs via Targeted Sub-Network Updates

之前对法学硕士内部运作的研究发现了稀疏子网络,通常称为电路,负责执行特定任务。此外,研究表明,通过微调来提高模型性能通常来自于模型中现有电路的强化。总而言之,这些发现表明直接干预此类电路以进行精确的、针对任务的更新的可能性。受这些发现的启发,我们提出了一种称为“结构性电路放大”的新方法,它可以识别关键令牌……

CoT 推理的潜力:仔细研究跟踪动态

The Potential of CoT for Reasoning: A Closer Look at Trace Dynamics

思想链 (CoT) 提示是一种事实上的标准技术,可从大型语言模型 (LLM) 中引出类似推理的响应,使他们能够在给出最终答案之前阐明各个步骤。虽然与类人推理的相似性是不可否认的,但支撑 CoT 推理成功的驱动力仍然很大程度上不清楚。在这项工作中,我们对源自竞赛级数学问题的 CoT 痕迹进行了深入分析,目的是更好地理解 CoT 如何以及哪些部分实际上对最终答案做出了贡献。为此……

为中东地区(阿联酋和巴林)的 Anthropic Claude 模型引入 Amazon Bedrock 全球跨区域推理

Introducing Amazon Bedrock global cross-Region inference for Anthropic’s Claude models in the Middle East Regions (UAE and Bahrain)

我们很高兴地宣布,Anthropic 的 Claude Opus 4.6、Claude Sonnet 4.6、Claude Opus 4.5、Claude Sonnet 4.5 和 Claude Haiku 4.5 通过 Amazon Bedrock 全球跨区域推理向中东运营的客户推出。在这篇文章中,我们将引导您了解每个 Anthropic Claude 模型变体的功能、全局跨区域推理的主要优势(包括提高的弹性)、您可以实现的实际用例,以及帮助您立即开始构建生成式 AI 应用程序的代码示例。

迹线长度是推理模型中的简单不确定性信号

Trace Length is a Simple Uncertainty Signal in Reasoning Models

法学硕士的不确定性量化是解决幻觉和其他限制其可靠部署的问题的关键研究方向。在这项工作中,我们证明推理轨迹长度是大型推理模型中简单且有用的置信度估计器。通过跨多个模型、数据集和提示的综合实验,我们表明迹线长度的表现与其他零样本置信度估计器(例如言语置信度)具有可比较但互补的方式。我们的工作表明,训练后推理从根本上改变了踪迹之间的关系……

Apple 推理与规划研讨会 2025

Apple Workshop on Reasoning and Planning 2025

推理和规划是智能人工智能系统的基石,使它们能够规划、交互、适应并最终独立运行。在 Apple,理解和推进人工智能系统的推理能力长期以来一直是一个活跃的研究领域,并产生了大量出版物,这些出版物既探索推进推理前沿的新技术,又进一步加深了该领域对当前方法的能力(和局限性)的理解。去年,Apple 主办了推理和规划研讨会,汇集了 Apple 研究人员和……

AlpamayoR1:自动驾驶的大型因果推理模型

AlpamayoR1: Large Causal Reasoning Models for Autonomous Driving

关于因果链推理和自动驾驶现状您需要了解的一切!AlpamayoR1:自动驾驶的大型因果推理模型首先出现在《走向数据科学》上。

并行轨道变压器:通过减少同步实现快速 GPU 推理

Parallel Track Transformers: Enabling Fast GPU Inference with Reduced Synchronization

基于 Transformer 的大型语言模型 (LLM) 的高效大规模推理仍然是一个基本的系统挑战,经常需要多 GPU 并行性来满足严格的延迟和吞吐量目标。传统的张量并行性会分解跨设备的矩阵运算,但会引入大量的 GPU 间同步,从而导致通信瓶颈和可扩展性下降。我们提出了并行轨道(PT)变压器,这是一种新颖的架构范例,可以重组计算以最小化跨设备依赖性。 PT 实现了高达 16 倍的减少……

使用 Amazon Bedrock AgentCore 中的策略保护 AI 代理

Secure AI agents with Policy in Amazon Bedrock AgentCore

在本文中,您将了解 Amazon Bedrock AgentCore 中的策略如何创建一个独立于代理自身推理运行的确定性执行层。您将学习如何将业务规则的自然语言描述转化为 Cedar 策略,然后使用这些策略来实施细粒度的身份感知控制,以便代理仅访问其用户有权使用的工具和数据。您还将了解如何通过 AgentCore Gateway 应用策略,在运行时拦截和评估每个代理到工具的请求。