llm领域信息情报检索---XiaoMi-AI

亚马逊云科技 _机器学习

2026年3月16日 16:55

介绍由 llm-d 提供支持的 AWS 上的分解推理

Introducing Disaggregated Inference on AWS powered by llm-d

在这篇博文中，我们介绍了下一代推理能力背后的概念，包括分解服务、智能请求调度和专家并行。我们讨论它们的优势，并介绍如何在 Amazon SageMaker HyperPod EKS 上实施它们，以显着提高推理性能、资源利用率和运营效率。

AI Time Journal

2026年3月3日 20:10

Glen Tullman — 以消费者为导向的护理以及医疗保健领域人工智能寻路的兴起

Glen Tullman — Consumer-Directed Care and the Rise of AI-Powered WayFinding in Healthcare

执行摘要。随着医疗保健变得更加分散和昂贵，Transcarent 首席执行官 Glen Tullman 解释了为什么由生成式人工智能驱动的消费者导向平台正在成为下一个结构性转变。他概述了 WayFinding 如何从搜索转向代理行动，为什么一致的激励比添加的功能更重要，以及负责任的自动化必须如何让临床医生坚定地 [...]

Apple机器学习研究

2026年3月18日 00:00

Prose2Policy (P2P)：一个实用的法学硕士管道，用于将自然语言访问策略转换为可执行的 Rego

Prose2Policy (P2P): A Practical LLM Pipeline for Translating Natural-Language Access Policies into Executable Rego

Prose2Policy（P2P）是一个基于LLM的实用工具，它将自然语言访问控制策略（NLACP）转换为可执行的Rego代码（开放策略代理（OPA）的策略语言）。它提供了一个模块化的端到端管道，可以执行策略检测、组件提取、模式验证、linting、编译、自动测试生成和执行。 Prose2Policy 旨在弥合人类可读访问要求和机器可执行策略即代码 (PaC) 之间的差距，同时强调部署可靠性和可审核性。我们在 ACRE 上评估了 Prose2Policy...

亚马逊云科技 _机器学习

2026年3月18日 16:06

隆重推出 Nova Forge SDK，这是一种为企业 AI 定制 Nova 模型的无缝方式

Introducing Nova Forge SDK, a seamless way to customize Nova models for enterprise AI

今天，我们推出 Nova Forge SDK，使 LLM 定制变得容易，使团队能够充分利用语言模型的潜力，而无需面对依赖管理、图像选择和配方配置的挑战，并最终降低进入门槛。

KDnuggets

2026年3月18日 12:00

减少生产法学硕士中幻觉的 7 种方法

7 Ways to Reduce Hallucinations in Production LLMs

大多数 LLM 幻觉修复都会失败。这是在生产中实际起作用的。

Clarifai博客 | 实际应用中的人工智能

2026年3月18日 11:00

Kimi K2.5是什么？架构、基准测试和 AI 基础设施指南

What Is Kimi K2.5? Architecture, Benchmarks & AI Infra Guide

将公共 MCP 服务器部署为 API 端点，并使用函数调用将其工具集成到 LLM 工作流程中。

Clarifai博客 | 实际应用中的人工智能

2026年3月17日 10:45

llama.cpp：快速本地 LLM 推理、硬件选择和调整

llama.cpp: Fast Local LLM Inference, Hardware Choices & Tuning

将公共 MCP 服务器部署为 API 端点，并使用函数调用将其工具集成到 LLM 工作流程中。

Clarifai博客 | 实际应用中的人工智能

2026年3月16日 23:00

Flash注意2：减少GPU内存并加速Transformers

Flash Attention 2: Reducing GPU Memory and Accelerating Transformers

将公共 MCP 服务器部署为 API 端点，并使用函数调用将其工具集成到 LLM 工作流程中。

亚马逊云科技 _机器学习

2026年3月13日 19:27

P-EAGLE：通过 vLLM 中的并行推测解码实现更快的 LLM 推理

P-EAGLE: Faster LLM inference with Parallel Speculative Decoding in vLLM

在这篇文章中，我们将解释 P-EAGLE 的工作原理、如何将其集成到从 v0.16.0 (PR#32887) 开始的 vLLM 中，以及如何通过预先训练的检查点为其提供服务。

走向数据科学

2026年3月13日 17:09

为什么关心 LLM 中的提示缓存？

Why Care About Prompt Caching in LLMs?

使用提示缓存优化 LLM 调用的成本和延迟The post Why Care About Prompt Caching in LLMs?首先出现在《走向数据科学》上。

BAIR

2026年3月13日 02:00

识别法学硕士的大规模互动

Identifying Interactions at Scale for LLMs

了解复杂机器学习系统的行为，特别是大型语言模型 (LLM)，是现代人工智能的一项关键挑战。可解释性研究旨在使决策过程对模型构建者和受影响的人类更加透明，这是迈向更安全、更值得信赖的人工智能的一步。为了获得全面的理解，我们可以通过不同的视角来分析这些系统：特征归因，它隔离驱动预测的特定输入特征（Lundberg & Lee，2017；Ribeiro et al.，2022）；数据归因，将模型行为与有影响力的训练示例联系起来（Koh＆Liang，2017；Ilyas 等人，2022）；以及机械可解释性，它剖析了内部组件的功能（Conmy 等人，2023；Sharkey 等人，2025）。在这些观点

DataRobot博客

2026年3月12日 19:55

使用 NVIDIA Nemotron 3 Super 通过 DataRobot 构建企业级 Agentic AI

Build enterprise-ready Agentic AI with DataRobot using NVIDIA Nemotron 3 Super

随着 NVIDIA Nemotron 3 Super 的到来，组织现在可以使用专为协作、多代理企业工作负载而构建的高精度推理模型。 Nemotron 3 Super 完全开放，可以在任何地方进行定制和安全部署。然而，拥有像 Nemotron 3 Super 这样强大的大语言模型 (LLM) 只是一个起跑线。真正的...使用 NVIDIA Nemotron 3 Super 与 DataRobot 构建企业级 Agentic AI 帖子首先出现在 DataRobot 上。

ΑΙhub

2026年3月12日 13:10