Train CodeFu-7B with veRL and Ray on Amazon SageMaker Training jobs
在这篇文章中,我们将演示如何在由 SageMaker 训练作业管理的分布式 Ray 集群中使用组相对策略优化 (GRPO) 和 veRL 来训练 CodeFu-7B(一种用于竞争性编程的专用 70 亿参数模型),veRL 是一个灵活高效的大型语言模型 (LLM) 训练库,可直接扩展各种 RL 算法,并与现有 LLM 基础设施无缝集成。我们将介绍完整的实施过程,涵盖数据准备、分布式训练设置和全面的可观察性,展示这种统一的方法如何为复杂的 RL 训练工作负载提供计算规模和开发人员体验。
How to Deploy MCP Servers as an API Endpoint
将公共 MCP 服务器部署为 API 端点,并使用函数调用将其工具集成到 LLM 工作流程中。
Mapping the Design Space of User Experience for Computer Use Agents
基于大型语言模型 (LLM) 的计算机使用代理通过与可用的 UI 元素交互来执行用户命令,但对于用户希望如何与这些代理交互或哪些设计因素对其用户体验 (UX) 至关重要,人们知之甚少。我们进行了一项两阶段的研究来绘制计算机使用代理的用户体验设计空间。在第一阶段,我们审查了现有系统,以制定用户体验考虑因素的分类法,然后通过采访八位用户体验和人工智能从业者来完善它。由此产生的分类法包括用户提示、可解释性、用户控制和用户……等类别。
A Small-Scale System for Autoregressive Program Synthesis Enabling Controlled Experimentation
使用经过训练来完成真实程序的小型模型可以进行哪些研究?通常,研究人员通过大型语言模型(LLM)研究程序合成,这会带来一些问题,例如了解分布内或分布外的内容、了解微调效果、理解标记化的效果以及对进行实验的计算和存储提出更高的要求。我们提出了一个名为 Cadmus 的系统,其中包括一个整数虚拟机 (VM)、一个由不同任务的真实程序组成的数据集,以及一个经过 200 美元以下计算训练的自回归变压器模型……
Learning to Evict from Key-Value Cache
大型语言模型 (LLM) 规模的不断增长给高效推理带来了挑战,这主要是由于自回归键值 (KV) 缓存的内存需求。现有的逐出或压缩方法可以降低成本,但依赖于启发法,例如新近度或过去的注意力分数,它们只能作为代币未来效用的间接代理,并引入计算开销。我们将 KV 缓存驱逐重新定义为强化学习 (RL) 问题:学习根据令牌对未来解码的预测有用性对令牌进行排名。为此,我们引入了 KV 策略(KVP),这是一个......的框架
New Report: Expanding the AI Evaluation Toolbox with Statistical Models
NIST AI 800-3 认为,LLM 评估的统计有效性得益于评估者明确采用模型来分析评估结果并披露相关假设。广义线性混合建模是一种有前途的方法,可以为更有原则的人工智能评估统计奠定基础。未来的 CAISI 和 NIST 出版物将进一步探讨统计模型在人工智能评估中的应用。
Multi-GPU vs Single-GPU Scaling economics
企业级 AMD MI355X 指南,涵盖 AI 推理、LLM 培训、内存扩展、性能权衡和部署策略。
AI Cost Controls: Budgets, Throttling & Model Tiering
企业级 AMD MI355X 指南,涵盖 AI 推理、LLM 培训、内存扩展、性能权衡和部署策略。
Best Private Cloud Hosting Platforms in 2026
企业级 AMD MI355X 指南,涵盖 AI 推理、LLM 培训、内存扩展、性能权衡和部署策略。
Deploying MCP Across SaaS, VPC & On-Prem | 2026 Guide
企业级 AMD MI355X 指南,涵盖 AI 推理、LLM 培训、内存扩展、性能权衡和部署策略。
IEEE Transactions on Artificial Intelligence, Volume 7, Issue 2, February 2026
1) 通过双空间一致性信息测量的缺失特征在线多标签流特征选择作者:J. Dai, J. Wang页数:610 - 6242) CoT-Drive: Efficient Motion Forecasting for Autonomous Driving With LLMs and Chain-of-Thought Prompting作者:H. Liao, H. Kong, B. Wang, C. Wang, K. Y. Wang, Z. He, C. Xu, Z. Li 页数:625 - 6413) ProLLaMA:用于多任务蛋白质语言处理的蛋白质大语言模型 作者:L. Lv, Z. Lin,
What is the future for student accommodation?
HEPI 总监 Nick Hillman 最近在碎片大厦举行的 QX 学生住宿洞察晚会上发表了以下讲话。我想从积极的方面开始,因为 18 岁年轻人对高等教育的需求同比略有上升,至少根据 2026/27 学年早期的 UCAS 数据来看是这样。需求的小幅上升让那些[…]帖子“学生住宿的未来是什么?”感到困惑。首先出现在 HEPI 上。
针对现代生成人工智能 (AI) 大语言模型 (LLM) 的攻击构成了真正的威胁。然而,围绕这些攻击及其潜在防御的讨论是危险的短视。主流叙述集中在“即时注入”,这是一组将指令嵌入到 LLM 的输入中的技术,旨在执行恶意活动。这个术语暗示了一种简单、单一的漏洞。这种框架掩盖了更加复杂和危险的现实。对基于 LLM 的系统的攻击已演变成一类独特的恶意软件执行机制,我们将其称为“提示软件”。在...
Parallel Track Transformers: Enabling Fast GPU Inference with Reduced Synchronization
基于 Transformer 的大型语言模型 (LLM) 的高效大规模推理仍然是一个基本的系统挑战,经常需要多 GPU 并行性来满足严格的延迟和吞吐量目标。传统的张量并行性会分解跨设备的矩阵运算,但会引入大量的 GPU 间同步,从而导致通信瓶颈和可扩展性下降。我们提出了并行轨道(PT)变压器,这是一种新颖的架构范例,可以重组计算以最小化跨设备依赖性。 PT 实现了高达 16 倍的减少……
What Fantasizing About Sex Says About Your Personality
Hatty Willmoth,科学焦点频繁的性幻想与神经质有关 - 一种可能使您面临一系列身心健康问题风险的人格特质 - 根据...
HEPI 主任 Nick Hillman OBE 回顾了 Dearing、Browne 和 Augar 的报告,看看它们为当今反对学生贷款的活动提供了哪些教训(如果有的话)。人们(非常)经常说,解决学生贷款系统问题的最佳方法是建立[...]帖子“三位智者罗恩·迪林、约翰·布朗和菲利普·奥格对学生贷款利息有何看法?”首先出现在 HEPI 上。
Helping AI agents search to get the best results out of large language models
EnCompass 通过回溯和多次尝试来执行 AI 代理程序,找到 LLM 生成的最佳输出集。它可以帮助程序员更有效地与人工智能代理合作。
Mechanistic Interpretability: Peeking Inside an LLM
LLM 的类人认知能力是真是假?信息如何通过神经网络传输?法学硕士里面是否隐藏着知识?《机械可解释性:法学硕士内部窥探》一文首先出现在《走向数据科学》上。