详细内容或原文请订阅后点击阅览
让本地 LLM 代理真正发挥作用的基础设施
使用本地开放权重模型、vLLM 和长上下文基础设施构建快速、可靠的科学代理的经验教训使本地 LLM 代理真正有用的基础设施背后的帖子首先出现在走向数据科学上。
来源:走向数据科学本地听起来很简单。下载权重、启动服务器并发送请求。这适用于聊天机器人,但不会自动适用于代理。就我而言,我一直在构建一个用于自动单细胞 RNA-seq 分析的代理。这个想法是,给定原始数据,代理可以自行运行完整的管道,决定调用哪些工具,读取结果,并逐步完成分析。
您可能会问为什么不直接使用类似 Claude Code 的单细胞分析技能。简而言之,对于科学工作流程来说,这还不够。技能最终是提示,因此可以被覆盖或忽略。更重要的是,科学工作需要可重复性和来源跟踪:确切地知道使用了哪些参数、过滤了哪些细胞、哪个聚类分辨率产生了哪个结果等。该记录需要结构化和持久性,而不是从对话中重建。对于长时间运行的会话,您还需要显式的世界状态管理,而不是依赖上下文压缩来保留重要的内容。这些是你必须刻意构建的东西。在本地模型之上构建所有这些也意味着您拥有基础设施,这就是我将在这里重点讨论的内容。
第一部分介绍通过对 vLLM 推理服务器(为高吞吐量 LLM 服务构建的开源推理引擎)进行一组复合优化来加快推理速度。第二部分涵盖通过更好的上下文管理和在修剪后仍然存在的结构化世界状态来保持长时间会话的活力。我在 A100 和 H100 GPU 上进行了实验,以衡量每个更改的影响,如下所述。
第 1 部分:快速推理
1.1 CUDA 图:将每个令牌数百条指令减少到一条
要理解这一点,有助于了解 GPU 生成单个令牌时内部发生的情况。
