LM关键词检索结果

AMUSE:用于代理多说话者理解的视听基准和对齐框架

AMUSE: Audio-Visual Benchmark and Alignment Framework for Agentic Multi-Speaker Understanding

最近的多模态大语言模型 (MLLM),例如 GPT-4o 和 Qwen3-Omni,表现出很强的感知能力,但在多说话者、以对话为中心的环境中表现不佳,这些环境需要代理推理跟踪谁说话、维持角色以及跨时间的基础事件。这些场景是多模式音频-视频理解的核心,其中模型必须在会话视频助手和会议分析等应用程序中联合推理音频和视频流。我们引入 AMUSE,这是一个围绕本质上代理的任务设计的基准,需要模型分解复杂的......

在 Amazon SageMaker 训练作业上使用 veRL 和 Ray 训练 CodeFu-7B

Train CodeFu-7B with veRL and Ray on Amazon SageMaker Training jobs

在这篇文章中,我们将演示如何在由 SageMaker 训练作业管理的分布式 Ray 集群中使用组相对策略优化 (GRPO) 和 veRL 来训练 CodeFu-7B(一种用于竞争性编程的专用 70 亿参数模型),veRL 是一个灵活高效的大型语言模型 (LLM) 训练库,可直接扩展各种 RL 算法,并与现有 LLM 基础设施无缝集成。我们将介绍完整的实施过程,涵盖数据准备、分布式训练设置和全面的可观察性,展示这种统一的方法如何为复杂的 RL 训练工作负载提供计算规模和开发人员体验。

如何将 MCP 服务器部署为 API 端点

How to Deploy MCP Servers as an API Endpoint

将公共 MCP 服务器部署为 API 端点,并使用函数调用将其工具集成到 LLM 工作流程中。

印度允许出口 250 万吨小麦以稳定国内价格

India allows 25 lakh tonnes wheat exports to stabilise domestic prices

还允许额外增加 5 LMT 的小麦粉及相关产品。

如果您的学习管理系统知道哪些技能接下来很重要怎么办?

What If Your LMS Knew Which Skills Would Matter Next?

探索 LMS 软件如何使用 AI 来预测未来的技能需求、降低风险并使劳动力发展与业务战略保持一致。本文首次发表在 eLearning Industry 上。

7,000 个 GPU 以前所未有的细节模拟量子微芯片

7,000 GPUs Simulate Quantum Microchip in Unprecedented Detail

使用 Perlmutter 超级计算机,研究人员实现了创纪录规模的量子微芯片模拟,以完善和验证下一代量子硬件设计。来自劳伦斯伯克利国家实验室(伯克利实验室)和加州大学伯克利分校的研究人员完成了有史以来对量子微芯片进行的最详细的模拟之一。该项目标志着一个重要的进步 [...]

人工智能“播客”容易出错

AI ‘podcasts’ are prone to errors

Google 的 NotebookLM 可以将研究论文转变成有趣的播客。但研究人员警告说,它很容易出错。

映射计算机使用代理的用户体验设计空间

Mapping the Design Space of User Experience for Computer Use Agents

基于大型语言模型 (LLM) 的计算机使用代理通过与可用的 UI 元素交互来执行用户命令,但对于用户希望如何与这些代理交互或哪些设计因素对其用户体验 (UX) 至关重要,人们知之甚少。我们进行了一项两阶段的研究来绘制计算机使用代理的用户体验设计空间。在第一阶段,我们审查了现有系统,以制定用户体验考虑因素的分类法,然后通过采访八位用户体验和人工智能从业者来完善它。由此产生的分类法包括用户提示、可解释性、用户控制和用户……等类别。

一种用于自回归程序合成的小型系统,可实现受控实验

A Small-Scale System for Autoregressive Program Synthesis Enabling Controlled Experimentation

使用经过训练来完成真实程序的小型模型可以进行哪些研究?通常,研究人员通过大型语言模型(LLM)研究程序合成,这会带来一些问题,例如了解分布内或分布外的内容、了解微调效果、理解标记化的效果以及对进行实验的计算和存储提出更高的要求。我们提出了一个名为 Cadmus 的系统,其中包括一个整数虚拟机 (VM)、一个由不同任务的真实程序组成的数据集,以及一个经过 200 美元以下计算训练的自回归变压器模型……

推动美国就业增长的隐藏数字

The Hidden Number Driving U.S. Job Growth

在一年中新增就业岗位仅 181,000 个之后,1 月份美国劳动力增加了 131,000 个,出人意料地积极。 《纽约时报》首席经济记者本·卡塞尔曼 (Ben Casselman) 解释了这些数字。

预测 2100 |百年富足作者克里斯·布拉德利的战略乐观主义

Forecast 2100 | Strategic Optimism with A Century of Plenty Author Chris Bradley

丰富是不可避免的吗?麦肯锡克里斯·布拉德利的 100 年愿景如果“黑镜”版本的未来是错误的怎么办?在本集中,迈克·帕尔默 (Mike Palmer) 与麦肯锡高级合伙人兼麦肯锡全球研究院 (MGI) 主任克里斯·布拉德利 (Chris Bradley) 谈论了他的新书《丰盛的世纪:子孙后代进步的故事》。克里斯详细分析了“进步机器”,并解释了为什么“战略乐观”心态对于驾驭下个世纪至关重要。我们探索了一个全球繁荣可以达到瑞士标准的未来、我们人口结构的根本转变,以及为什么人工智能实际上可能让我们变得更加人性化。主要要点:🌟战略乐观主义的力量:为什么历史数据表明人类的“指纹”是进步,而不是稀缺。🇨🇭瑞

与 Kayla Meyers 一起为 SXSW EDU 做好准备

Gearing Up for SXSW EDU with Kayla Meyers

了解 SXSW EDU 2026 的内幕消息,Mike Palmer 与 SXSW EDU 的 Kayla Meyers 坐下来预览今年 3 月前往奥斯汀的活动。从重新构想的全市覆盖范围到迄今为止最大的播客舞台阵容,我们正在分析为什么今年是教育生态系统中任何人都必须参加的一年。Kayla 分享了她从博物馆馆长到会议“无可挑剔的氛围”背后的策划者的旅程,深入探讨了塑造 2026 年计划的趋势。将奥斯汀市置于中心位置。🎙️ 播客舞台扩展:今年我们的播客数量将增加到 16 个——请来观看 Trending in Ed 现场直播,在周一早上拉开帷幕。🎓 提升学生的声音:从学生主导的新闻到“学生变革者中

三名密歇根大学工程学教授当选美国国家工程院院士

Three U-M engineering professors elected into National Academy of Engineering

密歇根大学工程学教授 Ilya Kolmanovsky、Chris Ruf 和 Karen A. Thole 是美国国家工程院的最新院士,这是授予美国工程师的最高荣誉之一。

跨境保存玛雅记忆和历史

Preserving Maya memory and history across borders

Floridalma Boj Lopez 的新书提醒观众,玛雅人仍然在这里,并且是重要的文化生产者。

学习从键值缓存中逐出

Learning to Evict from Key-Value Cache

大型语言模型 (LLM) 规模的不断增长给高效推理带来了挑战,这主要是由于自回归键值 (KV) 缓存的内存需求。现有的逐出或压缩方法可以降低成本,但依赖于启发法,例如新近度或过去的注意力分数,它们只能作为代币未来效用的间接代理,并引入计算开销。我们将 KV 缓存驱逐重新定义为强化学习 (RL) 问题:学习根据令牌对未来解码的预测有用性对令牌进行排名。为此,我们引入了 KV 策略(KVP),这是一个......的框架

新报告:利用统计模型扩展人工智能评估工具箱

New Report: Expanding the AI Evaluation Toolbox with Statistical Models

NIST AI 800-3 认为,LLM 评估的统计有效性得益于评估者明确采用模型来分析评估结果并披露相关假设。广义线性混合建模是一种有前途的方法,可以为更有原则的人工智能评估统计奠定基础。未来的 CAISI 和 NIST 出版物将进一步探讨统计模型在人工智能评估中的应用。

石油和天然气:改善内部数据共享所需的行动

Oil and Gas: Actions Needed to Improve Data Sharing at Interior

GAO 的发现内政部的目标是改善数据共享,这对于其监管联邦和部落土地上的石油和天然气开发至关重要。内政部的三个局分担监督责任:印第安事务局 (BIA)、土地管理局 (BLM) 和自然资源收入办公室。内政部和各局报告自 2021 年以来已花费约 2.06 亿美元用于数据系统现代化。然而,政府问责局发现了三个选定业务流程中的挑战——租赁土地进行石油和天然气勘探、核实产量报告是否准确,以及审查债券以确保其足以支付清理费用。例如:手动数据共享。为了更新石油和天然气租赁数据,BIA 从公司接收纸质文档中的租赁数据,然后手动将其输入到数据系统中。然后,BIA 将这些数据通过电子邮件或邮寄给其他内政局,这些

多 GPU 与单 GPU 扩展经济学

Multi-GPU vs Single-GPU Scaling economics

企业级 AMD MI355X 指南,涵盖 AI 推理、LLM 培训、内存扩展、性能权衡和部署策略。