下文关键词检索结果

RAG 还不够——我构建了使 LLM 系统正常运行的缺失上下文层

RAG Isn’t Enough — I Built the Missing Context Layer That Makes LLM Systems Work

大多数 RAG 教程侧重于检索或提示。当上下文增长时,真正的问题就开始了。本文展示了一个用纯 Python 构建的完整上下文工程系统,该系统控制内存、压缩、重新排名和代币预算 - 因此 LLM 在实际约束下保持稳定。 帖子 RAG 不够 - 我构建了使 LLM 系统工作的缺失上下文层首先出现在《走向数据科学》上。

上下文不是功能,而是系统

Context Is Not A Feature, It Is The System

作者:Alex Zilberman,Chamelio 首席执行官。当人们在法律中谈论人工智能时,他们经常谈论“背景”,就好像它是一个简单的成分一样。添加...

在 AWS 上扩展地震基础模型:使用 Amazon SageMaker HyperPod 进行分布式训练并扩展上下文窗口

Scaling seismic foundation models on AWS: Distributed training with Amazon SageMaker HyperPod and expanding context windows

本文介绍了 TGS 如何使用 Amazon SageMaker HyperPod 实现分布式训练的近线性扩展以及基于 Vision Transformer 的 SFM 的扩展上下文窗口。该联合解决方案将训练时间从 6 个月缩短至仅 5 天,同时能够分析比以前更大的地震体积。

AI 代理的上下文工程:深入探讨

Context Engineering for AI Agents: A Deep Dive

如何优化上下文,这是 AI 代理宝贵的有限资源《AI 代理的上下文工程:深入探究》一文首先出现在《走向数据科学》上。

您的 RAG 系统检索正确的数据,但仍然产生错误的答案。这就是原因(以及如何解决它)。

Your RAG System Retrieves the Right Data — But Still Produces Wrong Answers. Here’s Why (and How to Fix It).

您的 RAG 系统正在以满分检索正确的文档,但它仍然自信地返回错误的答案。我构建了一个 220 MB 的本地实验,证明了几乎没有人谈论的隐藏故障模式:同一检索窗口中的上下文冲突。两个相互矛盾的文档返回,模型选择一个,然后你会得到一个流畅但不正确的响应,并且零警告。本文准确展示了它发生的原因、它悄然中断的三个生产场景,以及修复它的微小管道层 - 不需要额外的模型,不需要 GPU,不需要 API 密钥。系统的行为完全按照设计。答案仍然是错误的。您的 RAG 系统检索正确的数据 — 但仍然产生错误的答案这一帖子。这就是原因(以及如何解决它)。首先出现在《走向数据科学》上。

KV 缓存正在占用您的 VRAM。以下是 Google 如何使用 TurboQuant 修复该问题。

KV Cache Is Eating Your VRAM. Here’s How Google Fixed It With TurboQuant.

探索 TurboQuant(一种新颖的 KV 缓存量化框架)的端到端管道。本概述详细介绍了多级压缩如何通过 PolarQuant 和 QJL 残差实现近乎无损的存储,从而以最小的内存开销实现大量上下文窗口后 KV 缓存正在吞噬您的 VRAM。以下是 Google 如何使用 TurboQuant 修复该问题。首先出现在《走向数据科学》上。

认识范围蠕变 Kraken

Meet the Scope Creep Kraken

以下文章最初发表在 Tim O’Brien 的 Medium 页面上,经作者许可转载于此。如果您花过一些时间从事人工智能辅助软件工作,您就会知道 Scope Creep Kraken 第一次将触手放在船上的那一刻。该项目以一个真正的目标开始,通常是一个明智的[...]

Google 推出 Mac 版 Gemini:教师和教育工作者需要了解的内容

Google Launches Gemini for Mac: What Teachers and Educators Need to Know

您是否正在寻找一种将人工智能无缝集成到您的教学工作流程中的方法? Google 刚刚推出了 Mac 版 Gemini,它可能是您一直在等待的游戏规则改变者。想象一下无需切换选项卡或中断流程即可获得即时人工智能帮助。只需快速按下 Option + Space,您就可以直接从桌面召唤 Gemini,帮助您起草课程计划、回复电子邮件或创建演示文稿。这款新的本机应用程序不仅提供即时访问,还允许您共享屏幕以获取上下文感知帮助。需要分析复杂的数据图表?只需与 Gemini 共享您的窗口,即可获得针对您当前任务的实时见解。此外,借助用于生成图像和视频的内置工具,您可以即时创建自定义资源。想了解 Gemini

复杂与智能系统,第 12 卷,第 4 期,2026 年 4 月

Complex & Intelligent Systems, Volume 12, Issue 4, April 2026

1) 6G Metaverse 网络的 AI 原生云边缘编排:LLM 引导的多代理 DRL 方法作者:Daniel Ayepah-Mensah、Amine Kidane Ghebreziabiher、Jamal Bentahar2) RAMAR:用于零样本讽刺检测的检索增强多代理推理作者:Congyin Hu、Shuang Cao、Fengjiao Jiang3) 改进的大型邻域解决动态取货和送货问题的搜索算法作者:Qingxia Shang,Yuanji Ming,Liang Feng4)Efficient person re-identification via Progressive F

Guidesly 如何为 AWS 上的户外导游构建 AI 生成的行程报告

How Guidesly built AI-generated trip reports for outdoor guides on AWS

在这篇文章中,我们将介绍 Guidesly 如何使用 AWS Lambda、AWS Step Functions、Amazon Simple Storage Service (Amazon S3)、Amazon Relational Database Service (Amazon RDS)、Amazon SageMaker AI 和 Amazon Bedrock 在 AWS 上构建 Jack AI,以提取旅行媒体、通过上下文丰富其内容、应用计算机视觉和生成式 AI,并跨多个渠道安全、可靠且大规模地发布营销就绪内容。

理解债:人工智能生成代码的隐性成本

Comprehension Debt: The Hidden Cost of AI-Generated Code

以下文章最初出现在 Addy Osmani 的博客网站上,经作者许可在此转载。理解债是由于过度依赖人工智能和自动化而对人类智力和记忆造成的隐性成本。对于工程师来说,它最适用于代理工程。有一项成本未显示在您的 [...]

TPConnects 将 MCP 集成到 Iris 中,以支持 AI 就绪的航空公司内容

TPConnects integrates MCP into Iris to enable AI-ready airline content

航空公司零售和内容聚合解决方案提供商 TPConnects Technologies 已将模型上下文协议 (MCP) 集成到其 Iris 平台中,推出了一个 AI 就绪界面……TPConnects 将 MCP 集成到 Iris 中,使 AI 就绪航空公司内容首先出现在《航空商业新闻》上。

为什么每个 AI 编码助手都需要内存层

Why Every AI Coding Assistant Needs a Memory Layer

AI 编码助理需要一个持久的内存层来克服 LLM 的无状态性,并通过系统地跨会话提供上下文来提高代码质量。为什么每个 AI 编码助理需要一个内存层一文首先出现在 Towards Data Science 上。

特工不知道什么是好的。这正是问题所在。

Agents don’t know what good looks like. And that’s exactly the problem.

Luca Mezzalira,《Building Micro-Frontends》一书的作者,最初在 LinkedIn 上分享了以下文章。经他许可,本文将在此处重新发布。每隔几年,就会有一些东西出现,有望改变我们构建软件的方式。每隔几年,该行业就会出现可预见的分裂:一半人宣布旧规则已失效;另一半人宣布旧规则已失效;另一半人宣布旧规则已经失效。另一半则交叉双臂并 [...]

IEEE Transactions on Cognitive and Developmental Systems,第 18 卷,第 2 期,2026 年 4 月

IEEE Transactions on Cognitive and Developmental Systems, Volume 18, Issue 2, April 2026

1) 机器人抓取中一致路径的抓取表示和检测作者:L. Chen, Z. Li, J. Yang, Z. Lu, P. Wu, T. ChenPages: 302 - 3022) CIDDA: Classifier-Driven Implicit Discriminator Domain Adaptation for EEG-Based Emotion Recognition and Depression Severity Grading作者:R. Hu, Z. Yang, J. Shan, N. Su, Y. Tang, H. Yan, X. Lv, D. Fu, H. Zhu, T. Jia

您喜欢的模型可能就是您使用的模型

The Model You Love Is Probably Just the One You Use

以下文章最初发表在 Medium 上,经作者许可在此重新发布。如果询问 10 位开发人员他们会推荐哪位法学硕士,您会得到 10 个不同的答案,而且几乎没有一个答案是基于客观比较的。相反,您将得到的是他们碰巧有权访问的模型的反映,[...]

如何在大规模AI代理部署中实现零停机更新

How to achieve zero-downtime updates in large-scale AI agent deployments

当您的网站出现故障时,您会立即知道。警报响起,用户抱怨,收入可能停止。当你的人工智能代理失败时,这一切都不会发生。他们不断回应。他们只是回应错误。代理可能会出现完全可操作的情况,同时出现幻觉策略细节、在会话中丢失对话上下文或消耗代币预算直到速率限制关闭它们......如何在大规模 AI 代理部署中实现零停机更新的帖子首先出现在 DataRobot 上。

IEEE 模糊系统汇刊,第 34 卷,第 4 期,2026 年 4 月

IEEE Transactions on Fuzzy Systems, Volume 34, Issue 4, April 2026

1) 客座社论:模糊大型模型专题:桥接不确定性和创造力作者:H. Yu、Q. Liu、W. Pedrycz、J. Lu 页数:1039 - 10402) FMA-Net:用于细粒度图像识别的模糊相互注意网络作者:H. Huang、J. -H.李,S.-K。 Oh, Z. Fu, J. H. Yoon, W. Pedrycz 页数:1041 - 10523) 通过大型语言模型对权衡总成本和客户满意度 VRP 中的上下文进行建模作者:H. -W.丁,Z.-S。 Chen, Y. Yang, W. DingPages: 1053 - 10634) 通过模糊隶属聚合审计大型语言模型中的部分数据集使用作