Zero-Waste Agentic RAG: Designing Caching Architectures to Minimize Latency and LLM Costs at Scale
通过验证感知的多层缓存将 LLM 成本降低 30% 后零浪费代理 RAG:设计缓存架构以最大限度地减少延迟和大规模 LLM 成本首先出现在《走向数据科学》上。
Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments
大型商业搜索系统优化相关性以推动成功的会话,帮助用户找到他们正在寻找的内容。为了最大化相关性,我们利用两个互补的目标:行为相关性(用户倾向于点击或下载的结果)和文本相关性(结果的语义适合查询)。一个持续存在的挑战是相对于丰富的行为相关性标签而言,专家提供的文本相关性标签的稀缺。我们首先通过系统地评估 LLM 配置来解决这个问题,发现一个专门的、经过微调的模型显着......
New method could increase LLM training efficiency
通过利用空闲计算时间,研究人员可以在保持准确性的同时将模型训练速度提高一倍。
Efficiently serve dozens of fine-tuned models with vLLM on Amazon SageMaker AI and Amazon Bedrock
在这篇文章中,我们将解释如何在 vLLM 中为专家混合 (MoE) 模型实现多 LoRA 推理,描述我们执行的内核级优化,并向您展示如何从这项工作中受益。我们在这篇文章中使用 GPT-OSS 20B 作为我们的主要示例。
Beyond a Single Extractor: Re-thinking HTML-to-Text Extraction for LLM Pretraining
构建网络规模的 LLM 预训练数据集的首要预处理步骤之一涉及从 HTML 中提取文本。尽管网络内容多种多样,但现有的开源数据集主要对所有网页应用单个固定提取器。在这项工作中,我们调查这种做法是否会导致互联网数据的覆盖和利用不理想。我们首先表明,虽然不同的提取器可能会在标准语言理解任务上产生相似的模型性能,但在固定过滤管道中幸存的页面可能会有很大差异。这表明一个简单的...
How to Choose the Right Open-Source LLM for Production
根据工作负载类型、基础设施限制、成本和实际性能为生产选择合适的开源 LLM 的实用指南。
Asynchronous Verified Semantic Caching for Tiered LLM Architectures
大型语言模型 (LLM) 现在位于搜索、辅助和代理工作流程的关键路径中,使得语义缓存对于降低推理成本和延迟至关重要。生产部署通常使用分层的静态-动态设计:从日志中挖掘的经过策划、离线审查的响应的静态缓存,由在线填充的动态缓存提供支持。在实践中,这两层通常都由单个嵌入相似性阈值控制,这会导致一个艰难的权衡:保守的阈值会错过安全重用的机会,而激进的阈值则可能会导致语义上不正确的服务......
Personalization features can make LLMs more agreeable
长期对话的背景可能会导致法学硕士开始反映用户的观点,可能会降低准确性或创建虚拟回声室。
DPO vs PPO for LLMs: Key Differences & Use Cases
企业级 AMD MI355X 指南,涵盖 AI 推理、LLM 培训、内存扩展、性能权衡和部署策略。
LLM Model Architecture Explained: Transformers to MoE
企业级 AMD MI355X 指南,涵盖 AI 推理、LLM 培训、内存扩展、性能权衡和部署策略。
ClickHouse получит функции мониторинга LLM-приложений
随着数据平台玩家试图成为人工智能反馈循环的“大师”,数据库分析提供商收购了开源大型语言模型工程系统开发商 Langfuse。
Evaluating Multi-Step LLM-Generated Content: Why Customer Journeys Require Structural Metrics
如何评估旨在建立参与度和交付业务成果的以目标为导向的内容,以及为什么结构很重要。评估多步骤法学硕士生成的内容:为什么客户旅程需要结构指标首先出现在走向数据科学上。
TTFT vs Throughput: Which Metric Impacts Users More?
将公共 MCP 服务器部署为 API 端点,并使用函数调用将其工具集成到 LLM 工作流程中。
Large model inference container – latest capabilities and performance enhancements
AWS 最近发布了大型模型推理 (LMI) 容器的重大更新,为在 AWS 上托管 LLM 的客户提供全面的性能改进、扩展的模型支持和简化的部署功能。这些版本的重点是降低操作复杂性,同时在流行的模型架构中提供可衡量的性能提升。
What AI Can't Do: Humanity’s Last Exam
26 年前的这个时候,“互联网泡沫”即将破裂。想要筹集投资者资金的人声称他们可以在网站上以实惠的价格出售任何东西;三个公司只专注于宠物食品和购买广播电视广告空间。所谓的人工智能也享受着类似的狂热。尽管它们仍然只是大型语言模型(LLM),并且最好的类比是一个奇特的自动完成,但它们吸引了大量的金融投资,部分原因是潜力,其次主要是因为人们想通过股票而不是公司赚钱。阅读更多
The Potential of CoT for Reasoning: A Closer Look at Trace Dynamics
思想链 (CoT) 提示是一种事实上的标准技术,可从大型语言模型 (LLM) 中引出类似推理的响应,使他们能够在给出最终答案之前阐明各个步骤。虽然与类人推理的相似性是不可否认的,但支撑 CoT 推理成功的驱动力仍然很大程度上不清楚。在这项工作中,我们对源自竞赛级数学问题的 CoT 痕迹进行了深入分析,目的是更好地理解 CoT 如何以及哪些部分实际上对最终答案做出了贡献。为此……
Closing the Gap Between Text and Speech Understanding in LLMs
大型语言模型 (LLM) 可以进行调整,将其文本功能扩展到语音输入。然而,这些适应语音的法学硕士在语言理解任务上始终表现不佳,甚至低于基于文本的法学硕士,甚至级联管道。我们将这种缺陷称为文本-语音理解差距:相对于基于原始文本的 LLM 处理等效文本,当适应语音的 LLM 处理语音输入时观察到的性能下降。最近缩小这一差距的方法要么依赖文本语料库的大规模语音合成,但成本高昂且严重依赖……
AMUSE: Audio-Visual Benchmark and Alignment Framework for Agentic Multi-Speaker Understanding
最近的多模态大语言模型 (MLLM),例如 GPT-4o 和 Qwen3-Omni,表现出很强的感知能力,但在多说话者、以对话为中心的环境中表现不佳,这些环境需要代理推理跟踪谁说话、维持角色以及跨时间的基础事件。这些场景是多模式音频-视频理解的核心,其中模型必须在会话视频助手和会议分析等应用程序中联合推理音频和视频流。我们引入 AMUSE,这是一个围绕本质上代理的任务设计的基准,需要模型分解复杂的......