GPU Time-Slicing for Concurrent LLM Agents on Kubernetes
系统级深入探讨 Kubernetes GPU 时间切片的隐藏微架构成本,以及共置 Agentic AI 工作负载的实际成本。Kubernetes 上并发 LLM 代理的 GPU 时间切片后文章首先出现在《走向数据科学》上。
WSL 3 使继续使用 Windows 变得更加容易,特别是对于构建或运行基于 Linux 的 AI、容器或开发工作负载的开发人员而言。
May Recap: New AWS Privileged Permissions and Services
5 月份的新 AWS 权限涵盖计算网络、基因组管道、容器编排和外部 AI 平台。服务类别多种多样,但风险模式是一致的。五月的中心主题是“基础设施劫持”。这些权限共享一个共同的攻击路径:每个权限都可以扩展攻击者控制的基础设施的范围,用任意的 [...] 替换合法的工作负载
NVIDIA Nemotron 3 Ultra now available on Amazon SageMaker JumpStart
在 Amazon SageMaker JumpStart 上部署 NVIDIA Nemotron 3 Ultra。借助此前沿推理模型,代理 AI 工作负载的推理速度提高 5 倍,成本降低 30%。
Reducing container cold start times using SOCI index on DLAMI and DLC
在这篇文章中,我们将了解如何在公开可用的深度学习 AMI 和容器上使用 SOCI、何时使用该工具提供的各种 SOCI 模式,以及如何在当前的工作负载中快速有效地使用该工具。
Get a Good Return on Your AI Investments
上周,我们举办了 2026 年首个基础设施和运营超级直播:人工智能时代的平台工程。我们的演讲者探讨了一系列专注于支持新的人工智能工作负载的主题,每个主题都有独特的基础设施需求、不可预测的成本和新的安全问题。 Google Cloud 的 Abdel Sghiouar 带领观众了解了一个多么好的平台 [...]
Why the future of AI is on-premises - business advice from Dell Tech World 2026
随着成本、主权要求和代理采用率的不断上升,戴尔最新的会议重点讨论了企业如何将人工智能工作负载过渡到混合基础设施。
India better positioned in South-East Asia to offer RE for data centres: Moody’s Ratings
印度是全球规模增长最快的数据中心市场之一,在南亚地区占据压倒性主导地位,占该次区域工作负载装机容量的 90% 以上
Claude Opus 4.8 is now available on AWS
本文介绍了 Opus 4.8 的改进以及为 AI 工程师将模型集成到 Amazon Bedrock 上的代理系统和生产推理工作负载中的实用指南。