Introducing Disaggregated Inference on AWS powered by llm-d
在这篇博文中,我们介绍了下一代推理能力背后的概念,包括分解服务、智能请求调度和专家并行。我们讨论它们的优势,并介绍如何在 Amazon SageMaker HyperPod EKS 上实施它们,以显着提高推理性能、资源利用率和运营效率。
Glen Tullman — Consumer-Directed Care and the Rise of AI-Powered WayFinding in Healthcare
执行摘要。随着医疗保健变得更加分散和昂贵,Transcarent 首席执行官 Glen Tullman 解释了为什么由生成式人工智能驱动的消费者导向平台正在成为下一个结构性转变。他概述了 WayFinding 如何从搜索转向代理行动,为什么一致的激励比添加的功能更重要,以及负责任的自动化必须如何让临床医生坚定地 [...]
Scaling Synthetic Task Generation for Agents via Exploration
用于构建交互式代理的训练后多模式大型语言模型 (MLLM) 在计算机使用、网络导航和机器人等领域具有广阔的前景。扩展此类后期训练的一个关键挑战是缺乏高质量的下游代理任务数据集,这些数据集的任务是多样化的、可行的和可验证的。现有的任务生成方法严重依赖人工注释或用有限的下游环境信息提示 MLLM,这种方法要么成本高昂,要么可扩展性差,因为它生成的任务覆盖范围有限。为了解决这个问题,我们推出了自动播放,一个可扩展的......
Trained on Tokens, Calibrated on Concepts: The Emergence of Semantic Calibration in LLMs
大型语言模型 (LLM) 通常缺乏对其输出有意义的置信度估计。虽然众所周知,基础法学硕士会表现出下一个令牌校准,但目前尚不清楚他们是否能够评估其响应超出令牌级别的实际含义的信心。我们发现,当使用某种基于采样的语义校准概念时,基础法学硕士的校准效果非常好:它们可以有意义地评估开放域问答任务的置信度,尽管没有经过明确的培训。我们的主要理论贡献建立了一种机制,解释为什么语义......
$1B bet: LeCun's world models vs LLM's empire
Yann LeCun 与他的新初创公司 AMI 迈出了大胆的一步,致力于创建理解物理世界、推理因果关系并发展真正常识的“世界模型”。这种方法直接挑战了当今的主导范式,表明仅扩展法学硕士可能永远无法实现人类水平的智能。
ChatLLM Review: Tired of Multiple AI Tools? Here’s a Smarter All-in-One Alternative
探索 Abacus AI 的 ChatLLM,这是一个一体化的 AI 平台,将 ChatGPT、Claude 和 Midjourney 等工具集成到一个工作流程中。了解其功能、定价和实际用例。
10 Best X (Twitter) Accounts to Follow for LLM Updates
跳过炒作,关注这 10 个帐户,了解可靠的法学硕士论文、产品发布以及对人工智能发展方向的深思熟虑的看法。
Even Doctors Can’t Tell These AI X-Rays Are Fake
人工智能生成的 X 射线现在非常逼真,可以欺骗医生,并可能扰乱整个医疗保健系统。今天(3 月 24 日)在北美放射学会 (RSNA) 杂志《放射学》上发表的一项新研究发现,放射科医生和先进的多模态大语言模型 (LLM) 都很难可靠地区分真实的 X 射线和人造 X 射线。
LiteLLM loses game of Trivy pursuit, gets compromised
用于通过受污染的 CI/CD 管道感染恶意软件的法学硕士的 Python 接口 LiteLLM(一种用于访问多种大型语言模型的开源接口)的两个版本已从 Python 包索引 (PyPI) 中删除,因为供应链攻击向它们注入了恶意凭证窃取代码。
Prose2Policy(P2P)是一个基于LLM的实用工具,它将自然语言访问控制策略(NLACP)转换为可执行的Rego代码(开放策略代理(OPA)的策略语言)。它提供了一个模块化的端到端管道,可以执行策略检测、组件提取、模式验证、linting、编译、自动测试生成和执行。 Prose2Policy 旨在弥合人类可读访问要求和机器可执行策略即代码 (PaC) 之间的差距,同时强调部署可靠性和可审核性。我们在 ACRE 上评估了 Prose2Policy...
Introducing Nova Forge SDK, a seamless way to customize Nova models for enterprise AI
今天,我们推出 Nova Forge SDK,使 LLM 定制变得容易,使团队能够充分利用语言模型的潜力,而无需面对依赖管理、图像选择和配方配置的挑战,并最终降低进入门槛。
7 Ways to Reduce Hallucinations in Production LLMs
大多数 LLM 幻觉修复都会失败。这是在生产中实际起作用的。
What Is Kimi K2.5? Architecture, Benchmarks & AI Infra Guide
将公共 MCP 服务器部署为 API 端点,并使用函数调用将其工具集成到 LLM 工作流程中。
llama.cpp: Fast Local LLM Inference, Hardware Choices & Tuning
将公共 MCP 服务器部署为 API 端点,并使用函数调用将其工具集成到 LLM 工作流程中。
Flash Attention 2: Reducing GPU Memory and Accelerating Transformers
将公共 MCP 服务器部署为 API 端点,并使用函数调用将其工具集成到 LLM 工作流程中。
P-EAGLE: Faster LLM inference with Parallel Speculative Decoding in vLLM
在这篇文章中,我们将解释 P-EAGLE 的工作原理、如何将其集成到从 v0.16.0 (PR#32887) 开始的 vLLM 中,以及如何通过预先训练的检查点为其提供服务。
Why Care About Prompt Caching in LLMs?
使用提示缓存优化 LLM 调用的成本和延迟The post Why Care About Prompt Caching in LLMs?首先出现在《走向数据科学》上。
Identifying Interactions at Scale for LLMs
了解复杂机器学习系统的行为,特别是大型语言模型 (LLM),是现代人工智能的一项关键挑战。可解释性研究旨在使决策过程对模型构建者和受影响的人类更加透明,这是迈向更安全、更值得信赖的人工智能的一步。为了获得全面的理解,我们可以通过不同的视角来分析这些系统:特征归因,它隔离驱动预测的特定输入特征(Lundberg & Lee,2017;Ribeiro et al.,2022);数据归因,将模型行为与有影响力的训练示例联系起来(Koh&Liang,2017;Ilyas 等人,2022);以及机械可解释性,它剖析了内部组件的功能(Conmy 等人,2023;Sharkey 等人,2025)。在这些观点