推理关键词检索结果

用于低成本推理的 10 个小型高效模型 API

Top 10 Small & Efficient Model APIs for Low‑Cost Inference

了解什么是 GPU 分段、TimeSlicing 和多实例 GPU (MIG) 等技术如何工作,以及 Clarifai 如何自动执行 GPU 共享以高效运行多个 AI 工作负载。

确保 Amazon Bedrock 跨区域推理的安全:地理和全球

Securing Amazon Bedrock cross-Region inference: Geographic and global

在本文中,我们探讨了实施 Amazon Bedrock 跨区域推理配置文件的安全注意事项和最佳实践。无论您是构建生成式 AI 应用程序还是需要满足特定的区域合规性要求,本指南都将帮助您了解 Amazon Bedrock CRIS 的安全架构以及如何正确配置您的实施。

MoE 比您想象的更强大:使用 RoE 进行超并行推理扩展

MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE

大型语言模型 (LLM) 的生成质量通常可以通过利用推理时间序列级缩放方法(例如思想链)来提高。我们引入了超并行扩展,这是一种补充框架,可以提高令牌级别的预测质量。超并行扩展计算并聚合模型中单个令牌的多个输出建议。我们在专家混合 (MoE) 模型中实现这一概念,我们将其称为专家名册 (RoE)。 RoE 是一种免训练推理算法,可将单个 MoE 转变为 MoE 的动态集合。投资回报率...

优化批量 AI/ML 推理工作负载中的数据传输

Optimizing Data Transfer in Batched AI/ML Inference Workloads

借助 NVIDIA Nsight™ 系统深入探讨数据传输瓶颈、识别瓶颈及其解决方案 - 第 2 部分优化批量 AI/ML 推理工作负载中的数据传输一文首先出现在 Towards Data Science 上。

使用混合摊销推理从光电体积描记法推断光学组织属性

Inferring Optical Tissue Properties from Photoplethysmography using Hybrid Amortized Inference

智能可穿戴设备能够通过光电体积描记法 (PPG) 持续跟踪已建立的生物标志物,例如心率、心率变异性和血氧饱和度。正如最近的深度学习 (DL) 研究表明,除了这些指标之外,PPG 波形还包含更丰富的生理信息。然而,深度学习模型通常依赖于生理意义不明确的特征,从而在预测能力、临床可解释性和传感器设计之间造成紧张。我们通过引入 PPGen 来解决这一差距,PPGen 是一种生物物理模型,它将 PPG 信号与可解释的生理和光学联系起来......

在 Amazon SageMaker AI 上使用 AWQ 和 GPTQ 通过训练后权重和激活加速 LLM 推理

Accelerating LLM inference with post-training weight and activation using AWQ and GPTQ on Amazon SageMaker AI

使用几行代码即可将量化模型无缝部署在 Amazon SageMaker AI 上。在这篇文章中,我们探讨了为什么量化很重要——它如何实现更低成本的推理,支持在资源受限的硬件上的部署,并减少现代法学硕士对财务和环境的影响,同时保留其大部分原始性能。我们还深入研究 PTQ 背后的原理,并演示如何量化您选择的模型并将其部署在 Amazon SageMaker 上。

AAAI 主席小组 – 人工智能推理

AAAI presidential panel – AI reasoning

Elise Racine & The Bigger Picture / Web of Influence I / Licensed by CC-BY 4.0 2025 年 3 月,人工智能促进协会 (AAAI) 发布了一份关于人工智能研究的未来的报告。该报告由即将离任的 AAAI 主席 Francesca Rossi 领导,涵盖 17 个不同的人工智能主题和目标 [...]

概率多变量推理:将流利的 LLM 答案转化为加权选项

Probabilistic Multi-Variant Reasoning: Turning Fluent LLM Answers Into Weighted Options

人类引导的 AI 协作概率多变量推理:将流畅的 LLM 答案转化为加权选项一文首先出现在《走向数据科学》上。

如何将 Kimi K2 API 与 Clarifai 结合使用 |快速、可扩展的人工智能推理

How to Use Kimi K2 API with Clarifai | Fast, Scalable AI Inference

了解 Clarifai 为何转向即用即付积分、发生了什么变化以及预付费账单如何带来更多可预测性、灵活性和控制力。

为什么复杂的推理模型可以让行为不当的人工智能更容易被发现

Why complex reasoning models could make misbehaving AI easier to catch

在 OpenAI 的一篇新论文中,该公司提出了一个框架,用于分析人工智能系统的思维链推理,以了解它们如何、何时以及为何行为不当。

AgREE:新兴实体知识图补全的代理推理

AgREE: Agentic Reasoning for Knowledge Graph Completion on Emerging Entities

开放领域知识图谱补全(KGC)在不断变化的世界中面临着重大挑战,特别是考虑到每日新闻中不断出现新实体时。现有的 KGC 方法主要依赖于预训练语言模型的参数知识、预构建的查询或单步检索,通常需要大量的监督和训练数据。即便如此,他们通常无法捕获有关不受欢迎和/或新兴实体的全面且最新的信息。为此,我们介绍了新兴实体的代理推理(AgREE),这是一本小说……

让小语言模型能够解决复杂的推理任务

Enabling small language models to solve complex reasoning tasks

“自引导”DisCIPL 系统指导小型模型协同处理有约束的任务,例如行程规划和预算。

IEEE 模糊系统汇刊,第 34 卷,第 1 期,2026 年 1 月

IEEE Transactions on Fuzzy Systems, Volume 34, Issue 1, January 2026

1) 基于推理与动力学模糊融合的水下滑翔机迎角增强轨迹预测作者:臧汶川,王博涵,张汉斌,宋大雷,郭婷婷页数:1 - 132) 通信链路故障的 NMSV 人在环时变编队控制:规定时间模糊控制器作者:丁腾飞、易子恒、葛明峰页数:14 - 263) 更精确、更快:大型工作空间中机械臂的双尺度遥操作作者:孙鹏宇、李卫华、李军、刘逸群、王建峰、丁亮、周承旭页数:27 - 404) FCGNN:模糊认知图用于少样本学习的概念演化的神经网络作者:Linhua Zou、Dongqing Li、Chengxi Jiang、Yu Wang、Hong Zhao 页数:41 - 525) PAC-X:用于多类恶意软件

由于人工智能成瘾,“我们正在眼睁睁地看着批判性思维实时消失”:40% 的孩子无法阅读,老师纷纷退出

“We Are Watching Critical Thinking Disappear in Real Time” Due to AI Addiction: 40% of Kids Can’t Read, Teachers Quitting in Droves

人工智能和设备过度刺激如何导致学生严重缺乏推理和信息处理技能。

用于多代理编排的高级微调技术:来自 Amazon 的大规模模式

Advanced fine-tuning techniques for multi-agent orchestration: Patterns from Amazon at scale

在这篇文章中,我们向您展示微调如何使危险用药错误减少 33%(Amazon Pharmacy)、工程人力减少 80%(Amazon Global Engineering Services)以及内容质量评估如何提高 77% 至 96% 的准确性(Amazon A+)。这篇文章详细介绍了这些结果背后的技术:从监督微调 (SFT)(指令调优)和近端策略优化 (PPO) 等基础方法,到用于人类对齐的直接偏好优化 (DPO),再到尖端推理优化,例如基于策略优化的分组强化学习 (GRPO)、直接优势策略优化 (DAPO) 和专为代理系统构建的组序列策略优化 (GSPO)。

为什么视觉艺术属于每个教室

Why the Visual Arts Belong in Every Classroom

我们大多数人在忘记特定单词或事实很久之后仍然记得通过图像学习。例如,您可能不记得动物细胞的确切定义,但您可能可以想象它的圆形或细胞核。您可能不会记住历史课上的每一个细节,但您可能会认出一幅代表重大事件的著名历史画作。视觉元素往往是我们在学校形成的最强烈、最持久的记忆。正因为如此,视觉艺术不应该局限于艺术课堂。相反,它可以有意识地跨学科整合,以加强学习、推理和创造力。《为什么视觉艺术属于每个课堂》一文首先出现在示范教学上。

AdaBoN:自适应 Best-of-N 对齐

AdaBoN: Adaptive Best-of-N Alignment

测试时间对齐方法的最新进展(例如 Best-of-N 采样)提供了一种简单而有效的方法,可以使用奖励模型 (RM) 引导语言模型 (LM) 转向首选行为。然而,这些方法的计算成本可能很高,尤其是在跨提示统一应用而不考虑对齐难度差异的情况下。在这项工作中,我们提出了一种 Best-of-N 对齐的提示自适应策略,可以更有效地分配推理时间计算。出于延迟问题的动机,我们开发了一种两阶段算法:初始探索阶段估计……

使用分层记忆进行预训练:分离长尾知识和常识

Pretraining with Hierarchical Memories: Separating Long-Tail and Common Knowledge

现代语言模型令人印象深刻的性能提升目前依赖于缩放参数:较大的模型可以存储更多的世界知识并更好地进行推理。然而,将所有世界知识压缩为参数是不必要的,因为每个提示只使用一小部分,并且对于推理时间内存和计算有限的边缘设备来说是不切实际的。我们通过内存增强架构和与现有硬件范例相一致的预训练策略来解决这个缺点。我们引入了小型语言模型,可以访问编码世界知识的大型分层参数存储库。期间...