AMUSE: Audio-Visual Benchmark and Alignment Framework for Agentic Multi-Speaker Understanding
最近的多模态大语言模型 (MLLM),例如 GPT-4o 和 Qwen3-Omni,表现出很强的感知能力,但在多说话者、以对话为中心的环境中表现不佳,这些环境需要代理推理跟踪谁说话、维持角色以及跨时间的基础事件。这些场景是多模式音频-视频理解的核心,其中模型必须在会话视频助手和会议分析等应用程序中联合推理音频和视频流。我们引入 AMUSE,这是一个围绕本质上代理的任务设计的基准,需要模型分解复杂的......
Корпоративные дата-центры сохранятся в эпоху облаков
人工智能和边缘解决方案正在用分布式计算模型取代“云”或“非云”数据中心的概念
Train CodeFu-7B with veRL and Ray on Amazon SageMaker Training jobs
在这篇文章中,我们将演示如何在由 SageMaker 训练作业管理的分布式 Ray 集群中使用组相对策略优化 (GRPO) 和 veRL 来训练 CodeFu-7B(一种用于竞争性编程的专用 70 亿参数模型),veRL 是一个灵活高效的大型语言模型 (LLM) 训练库,可直接扩展各种 RL 算法,并与现有 LLM 基础设施无缝集成。我们将介绍完整的实施过程,涵盖数据准备、分布式训练设置和全面的可观察性,展示这种统一的方法如何为复杂的 RL 训练工作负载提供计算规模和开发人员体验。
Lockheed debuts AI on F-35 fighter jet to identify targets
据该公司称,这标志着战术人工智能模型首次独立向战斗机飞行员建议战斗目标。
Control Planes for Autonomous AI: Why Governance Has to Move Inside the System
在过去十年的大部分时间里,人工智能治理在其本应监管的系统之外舒适地生活着。政策已制定。进行了审查。模型获得批准。审计是在事后进行的。只要人工智能表现得像一种工具——按需生成预测或建议——这种分离就基本上有效。这个假设正在被打破。作为人工智能 [...]
Winter rain deficit at -59 pc so far for country as a whole
美国和欧洲模型的 CFS 看到的情况略有好转,尤其是从 3 月中旬开始
What Has Changed and What Hasn’t Changed in Education
发生了什么变化 人工智能比一年前要好得多。新模型的出现不仅不断改进,而且从根本上变得更加强大。那部分很清楚。没有改变的事情需要更长的对话。恩格曼传统中没有改变的直接教学仍然是最有效的教学方法……继续阅读教育中发生了变化和没有改变的内容
Live Science 与加州大学洛杉矶分校数学家 Terence Tao 讨论了人工智能模型如何变得越来越熟练地生成令人信服的数学证明,引发了人们对在没有充分理解的情况下接受错误证明的可能性的担忧。 “如果你是一个糟糕的数学家,你也会是一个糟糕的数学作家,你会强调错误的事情,”2006 年享有盛誉的菲尔兹奖获得者陶说。 “但人工智能打破了这个信号。”请在今天的 CNN、纽约时报和其他媒体上了解有关加州大学洛杉矶分校的更多信息。
Lego Creator 3-in-1 Space Exploration Telescope review
乐高创意者太空探索望远镜是一个很棒的模型,但这款三合一的替代版本有点令人失望。
Microsoft expands Sovereign Cloud security with governance, local productivity and AI
Microsoft 通过新的断开连接和 AI 功能扩展了 Microsoft 主权云,帮助组织在主权边界内运行关键基础设施、生产力服务和大型 AI 模型,同时保持跨连接和断开连接环境的治理和运营连续性。主权私有云统一了 Azure Local、Microsoft 365 Local 和 Foundry Local,为任何运营边界带来了基础设施、生产力和对大型 AI 模型的支持。 (来源:微软)“客户可以通过……为每个工作负载选择正确的控制姿势。更多→微软通过治理、本地生产力和人工智能扩展主权云安全性的帖子首先出现在 Help Net Security 上。
New Research: Immigrants Created $14.5T Fiscal Savings
卡托学者戴维·比尔(David Bier)发布的新研究显示,从 1994 年到 2023 年,移民为美国政府预算节省了 14.5 万亿美元的财政开支。这份白皮书利用 30 年的综合数据更新了美国国家科学院的模型,发现移民每年缴纳的税款高于他们获得的福利。如果没有移民,美国公共债务将达到 GDP 的 205%,几乎是目前水平的两倍,一些分析师认为这一阈值将引发经济灾难。主要调查结果包括: 即使是低技能移民,整体上的财政状况也是积极的。非公民(包括非法入境者)贡献了 6.3 万亿美元的储蓄。在这三年里,移民将美国的赤字削减了大约三分之一。如果您想与比尔交谈,请联系麦迪逊:mmiller@cato.
Mapping the Design Space of User Experience for Computer Use Agents
基于大型语言模型 (LLM) 的计算机使用代理通过与可用的 UI 元素交互来执行用户命令,但对于用户希望如何与这些代理交互或哪些设计因素对其用户体验 (UX) 至关重要,人们知之甚少。我们进行了一项两阶段的研究来绘制计算机使用代理的用户体验设计空间。在第一阶段,我们审查了现有系统,以制定用户体验考虑因素的分类法,然后通过采访八位用户体验和人工智能从业者来完善它。由此产生的分类法包括用户提示、可解释性、用户控制和用户……等类别。
A Small-Scale System for Autoregressive Program Synthesis Enabling Controlled Experimentation
使用经过训练来完成真实程序的小型模型可以进行哪些研究?通常,研究人员通过大型语言模型(LLM)研究程序合成,这会带来一些问题,例如了解分布内或分布外的内容、了解微调效果、理解标记化的效果以及对进行实验的计算和存储提出更高的要求。我们提出了一个名为 Cadmus 的系统,其中包括一个整数虚拟机 (VM)、一个由不同任务的真实程序组成的数据集,以及一个经过 200 美元以下计算训练的自回归变压器模型……
AI showdown: GPT‑5.3-Codex vs Claude Opus 4.6
OpenAI 和 Anthropic 正在重新定义人工智能的功能,推出能够处理从编码到多步骤知识工作等复杂任务的模型。凭借代理协作、长上下文推理和自主解决问题等功能,这些升级展示了人工智能作为跨专业工作流程的智能数字协作者的潜力。
AI ROI in 2026: Measuring Value Beyond Proof of Concept
2026年企业人工智能投资加速。预算不断扩大。期望正在上升。董事会正在提出更尖锐的问题。但现在有一个问题成为每次人工智能讨论的中心:它能带来什么可衡量的商业价值?对于许多组织来说,人工智能之旅始于有前途的试点。模型已经建立。准确性提高。仪表板看起来令人印象深刻。 […]2026 年人工智能后投资回报率:超越概念验证衡量价值首先出现在 Fusemachines 上。
Model C2 Gets Smarter: Inside Quasi Robotics’ Version 3.1 Software Update
帖子“模型 C2 变得更聪明:Quasi Robotics 3.1 版软件更新内部”首先出现在 Quasi Robotics 上。
New Research Highlights Value Of Forecasts From Betting Markets
有个老笑话说,预测是很难的,尤其是预测未来。群众的“智慧”有帮助吗?大量研究表明确实如此。例如,作为一般规则,结合多个模型的预测具有优于任何一种模型的令人鼓舞的记录。这个想法的最新转折来自于 [...]
Congratulations to EDCO Rural Award Recipients!
安大略省经济发展委员会 (EDCO) 卓越奖旨在表彰全省经济发展团队领导的创新、协作和杰出举措。每年,获奖者都被认为是该领域新兴的最佳实践,并被视为经济发展的领导者。他们的项目经常成为其他人的模型,并且 [...]