llm关键词检索结果

介绍由 llm-d 提供支持的 AWS 上的分解推理

Introducing Disaggregated Inference on AWS powered by llm-d

在这篇博文中,我们介绍了下一代推理能力背后的概念,包括分解服务、智能请求调度和专家并行。我们讨论它们的优势,并介绍如何在 Amazon SageMaker HyperPod EKS 上实施它们,以显着提高推理性能、资源利用率和运营效率。

Glen Tullman — 以消费者为导向的护理以及医疗保健领域人工智能寻路的兴起

Glen Tullman — Consumer-Directed Care and the Rise of AI-Powered WayFinding in Healthcare

执行摘要。随着医疗保健变得更加分散和昂贵,Transcarent 首席执行官 Glen Tullman 解释了为什么由生成式人工智能驱动的消费者导向平台正在成为下一个结构性转变。他概述了 WayFinding 如何从搜索转向代理行动,为什么一致的激励比添加的功能更重要,以及负责任的自动化必须如何让临床医生坚定地 [...]

Prose2Policy (P2P):一个实用的法学硕士管道,用于将自然语言访问策略转换为可执行的 Rego

Prose2Policy (P2P): A Practical LLM Pipeline for Translating Natural-Language Access Policies into Executable Rego

Prose2Policy(P2P)是一个基于LLM的实用工具,它将自然语言访问控制策略(NLACP)转换为可执行的Rego代码(开放策略代理(OPA)的策略语言)。它提供了一个模块化的端到端管道,可以执行策略检测、组件提取、模式验证、linting、编译、自动测试生成和执行。 Prose2Policy 旨在弥合人类可读访问要求和机器可执行策略即代码 (PaC) 之间的差距,同时强调部署可靠性和可审核性。我们在 ACRE 上评估了 Prose2Policy...

隆重推出 Nova Forge SDK,这是一种为企业 AI 定制 Nova 模型的无缝方式

Introducing Nova Forge SDK, a seamless way to customize Nova models for enterprise AI

今天,我们推出 Nova Forge SDK,使 LLM 定制变得容易,使团队能够充分利用语言模型的潜力,而无需面对依赖管理、图像选择和配方配置的挑战,并最终降低进入门槛。

减少生产法学硕士中幻觉的 7 种方法

7 Ways to Reduce Hallucinations in Production LLMs

大多数 LLM 幻觉修复都会失败。这是在生产中实际起作用的。

Kimi K2.5是什么?架构、基准测试和 AI 基础设施指南

What Is Kimi K2.5? Architecture, Benchmarks & AI Infra Guide

将公共 MCP 服务器部署为 API 端点,并使用函数调用将其工具集成到 LLM 工作流程中。

llama.cpp:快速本地 LLM 推理、硬件选择和调整

llama.cpp: Fast Local LLM Inference, Hardware Choices & Tuning

将公共 MCP 服务器部署为 API 端点,并使用函数调用将其工具集成到 LLM 工作流程中。

Flash注意2:减少GPU内存并加速Transformers

Flash Attention 2: Reducing GPU Memory and Accelerating Transformers

将公共 MCP 服务器部署为 API 端点,并使用函数调用将其工具集成到 LLM 工作流程中。

P-EAGLE:通过 vLLM 中的并行推测解码实现更快的 LLM 推理

P-EAGLE: Faster LLM inference with Parallel Speculative Decoding in vLLM

在这篇文章中,我们将解释 P-EAGLE 的工作原理、如何将其集成到从 v0.16.0 (PR#32887) 开始的 vLLM 中,以及如何通过预先训练的检查点为其提供服务。

为什么关心 LLM 中的提示缓存?

Why Care About Prompt Caching in LLMs?

使用提示缓存优化 LLM 调用的成本和延迟The post Why Care About Prompt Caching in LLMs?首先出现在《走向数据科学》上。

识别法学硕士的大规模互动

Identifying Interactions at Scale for LLMs

了解复杂机器学习系统的行为,特别是大型语言模型 (LLM),是现代人工智能的一项关键挑战。可解释性研究旨在使决策过程对模型构建者和受影响的人类更加透明,这是迈向更安全、更值得信赖的人工智能的一步。为了获得全面的理解,我们可以通过不同的视角来分析这些系统:特征归因,它隔离驱动预测的特定输入特征(Lundberg & Lee,2017;Ribeiro et al.,2022);数据归因,将模型行为与有影响力的训练示例联系起来(Koh&Liang,2017;Ilyas 等人,2022);以及机械可解释性,它剖析了内部组件的功能(Conmy 等人,2023;Sharkey 等人,2025)。在这些观点

使用 NVIDIA Nemotron 3 Super 通过 DataRobot 构建企业级 Agentic AI

Build enterprise-ready Agentic AI with DataRobot using NVIDIA Nemotron 3 Super

随着 NVIDIA Nemotron 3 Super 的到来,组织现在可以使用专为协作、多代理企业工作负载而构建的高精度推理模型。 Nemotron 3 Super 完全开放,可以在任何地方进行定制和安全部署。然而,拥有像 Nemotron 3 Super 这样强大的大语言模型 (LLM) 只是一个起跑线。真正的...使用 NVIDIA Nemotron 3 Super 与 DataRobot 构建企业级 Agentic AI 帖子首先出现在 DataRobot 上。

人工智能聊天机器人可以有效地影响选民——无论向哪个方向

AI chatbots can effectively sway voters – in either direction

Bart Fish 和人工智能的强力工具 / 行为力量 / 获得 CC-BY 4.0 许可 作者:Patricia Waldron 人工智能影响选举结果的潜力是公众关注的一个主要问题。两篇新论文在四个国家进行了实验,证明由大型语言模型 (LLM) 驱动的聊天机器人非常有效 [...]

加速自定义 LLM 部署:使用 Oumi 进行微调并部署到 Amazon Bedrock

Accelerate custom LLM deployment: Fine-tune with Oumi and deploy to Amazon Bedrock

在这篇文章中,我们将展示如何在 Amazon EC2 上使用 Oumi 微调 Llama 模型(可以选择使用 Oumi 创建合成数据)、在 Amazon S3 中存储工件以及使用自定义模型导入部署到 Amazon Bedrock 进行托管推理。

每个 LLM 工程师都应该知道的 10 个 Python 库

10 Python Libraries Every LLM Engineer Should Know

有兴趣成为法学硕士工程师吗?以下是您的工作所必需的 Python 库的列表。

人工智能提示出现网络威胁

AI Prompts Emerging as Cyber Threats

为什么重要:AI 提示作为网络威胁出现,探讨了提示注入如何在不使用恶意软件代码的情况下利用 LLM。

模型上下文协议获得动力

Model Context Protocol Gains Momentum

为什么重要:随着人工智能领导者支持无缝 LLM 上下文共享的新标准,模型上下文协议获得了动力。

LLM 培训转变推动 AI 飞跃

LLM Training Shift Powers AI Leap

为什么重要:法学硕士培训转变为 AI Leap 探索了 RLHF 和指令调整等新培训方法如何促进人工智能。