Humanity’s Last Exam是一个博士级基准测试,旨在测试人工智能推理的极限。尽管谷歌的Gemini 3得分达到了惊人的48.4%,但专家强调,这并不表明通用人工智能(AGI)的到来。
A.R.I.S.: Automated Recycling Identification System for E-Waste Classification Using Deep Learning
传统的电子回收流程由于材料分离和识别能力不足而遭受严重的资源损失,限制了材料的回收。我们推出 A.R.I.S. (自动回收识别系统)是一种低成本便携式电子垃圾粉碎分拣机,可解决这一效率差距。该系统采用YOLOx模型对金属、塑料和电路板进行实时分类,实现低推理延迟和高检测精度。实验评估产生了 90% 的总体精度、82.2% 的平均精度 (mAP) 和 84% 的分类…
Efficiently serve dozens of fine-tuned models with vLLM on Amazon SageMaker AI and Amazon Bedrock
在这篇文章中,我们将解释如何在 vLLM 中为专家混合 (MoE) 模型实现多 LoRA 推理,描述我们执行的内核级优化,并向您展示如何从这项工作中受益。我们在这篇文章中使用 GPT-OSS 20B 作为我们的主要示例。
AMUSE: Audio-Visual Benchmark and Alignment Framework for Agentic Multi-Speaker Understanding
最近的多模态大语言模型 (MLLM),例如 GPT-4o 和 Qwen3-Omni,表现出很强的感知能力,但在多说话者、以对话为中心的环境中表现不佳,这些环境需要代理推理跟踪谁说话、维持角色以及跨时间的基础事件。这些场景是多模式音频-视频理解的核心,其中模型必须在会话视频助手和会议分析等应用程序中联合推理音频和视频流。我们引入 AMUSE,这是一个围绕本质上代理的任务设计的基准,需要模型分解复杂的......
AI showdown: GPT‑5.3-Codex vs Claude Opus 4.6
OpenAI 和 Anthropic 正在重新定义人工智能的功能,推出能够处理从编码到多步骤知识工作等复杂任务的模型。凭借代理协作、长上下文推理和自主解决问题等功能,这些升级展示了人工智能作为跨专业工作流程的智能数字协作者的潜力。
Conversations in Real-World Economics
:Lars,也许一个有用的起点是对您的推理的内容进行一些介绍性评论。虽然您的帖子涉及许多主题,但您经常会回到一个共同的主题。具体来说,经济学家利用数学来表达理论,利用分析统计技术来进行研究。什么是 [...]
Learning to Evict from Key-Value Cache
大型语言模型 (LLM) 规模的不断增长给高效推理带来了挑战,这主要是由于自回归键值 (KV) 缓存的内存需求。现有的逐出或压缩方法可以降低成本,但依赖于启发法,例如新近度或过去的注意力分数,它们只能作为代币未来效用的间接代理,并引入计算开销。我们将 KV 缓存驱逐重新定义为强化学习 (RL) 问题:学习根据令牌对未来解码的预测有用性对令牌进行排名。为此,我们引入了 KV 策略(KVP),这是一个......的框架
Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents
开发与图形用户界面 (GUI) 有效交互的自主代理仍然是一个具有挑战性的开放问题,特别是对于小型设备上模型。在本文中,我们介绍了 Ferret-UI Lite,这是一种紧凑的端到端 GUI 代理,可以跨不同平台(包括移动、Web 和桌面)运行。利用为开发小型模型而优化的技术,我们通过从真实和合成来源中策划多样化的 GUI 数据混合物来构建我们的 3B Ferret-UI Lite 代理,通过思想链推理和可视化工具的使用来增强推理时性能,并且......
Asynchronous Verified Semantic Caching for Tiered LLM Architectures
大型语言模型 (LLM) 现在位于搜索、辅助和代理工作流程的关键路径中,使得语义缓存对于降低推理成本和延迟至关重要。生产部署通常使用分层的静态-动态设计:从日志中挖掘的经过策划、离线审查的响应的静态缓存,由在线填充的动态缓存提供支持。在实践中,这两层通常都由单个嵌入相似性阈值控制,这会导致一个艰难的权衡:保守的阈值会错过安全重用的机会,而激进的阈值则可能会导致语义上不正确的服务......
本立场文件介绍了一个安全的、基于云的框架,用于测试大型语言模型如何准确、透明地对复杂的调查数据执行现实世界的统计分析。它使用经过验证的 ACS 微数据任务,比较仅推理和代码执行工作流程,突出显示值得信赖的人工智能驱动分析的优势、局限性和设计要求。
2025 年,Amazon SageMaker AI 进行了多项改进,旨在帮助您训练、调整和托管生成型 AI 工作负载。在本系列的第 1 部分中,我们讨论了灵活的培训计划和对推理组件的性价比改进。在这篇文章中,我们讨论可观察性、模型定制和模型托管方面的增强功能。这些改进有助于在 SageMaker AI 上托管全新类别的客户用例。
Multi-GPU vs Single-GPU Scaling economics
企业级 AMD MI355X 指南,涵盖 AI 推理、LLM 培训、内存扩展、性能权衡和部署策略。
DPO vs PPO for LLMs: Key Differences & Use Cases
企业级 AMD MI355X 指南,涵盖 AI 推理、LLM 培训、内存扩展、性能权衡和部署策略。
AI Cost Controls: Budgets, Throttling & Model Tiering
企业级 AMD MI355X 指南,涵盖 AI 推理、LLM 培训、内存扩展、性能权衡和部署策略。
Best Private Cloud Hosting Platforms in 2026
企业级 AMD MI355X 指南,涵盖 AI 推理、LLM 培训、内存扩展、性能权衡和部署策略。
LLM Model Architecture Explained: Transformers to MoE
企业级 AMD MI355X 指南,涵盖 AI 推理、LLM 培训、内存扩展、性能权衡和部署策略。
Deploying MCP Across SaaS, VPC & On-Prem | 2026 Guide
企业级 AMD MI355X 指南,涵盖 AI 推理、LLM 培训、内存扩展、性能权衡和部署策略。
What’s next for Chinese open-source AI
《麻省理工科技评论》的“下一步是什么”系列着眼于各个行业、趋势和技术,让您对未来有一个初步的了解。您可以在此处阅读其余内容。过去的一年是中国人工智能的转折点。自2025年1月DeepSeek发布R1推理模型以来,中国企业多次交付AI……