Cutting LLM Memory by 84%: A Deep Dive into Fused Kernels
为什么你的最终 LLM 层出现 OOMing 以及如何使用自定义 Triton 内核修复它。将 LLM 内存削减 84%:深入研究融合内核的帖子首先出现在 Towards Data Science 上。
How LLMs Handle Infinite Context With Finite Memory
用 114 倍更少的内存实现无限上下文《法学硕士如何使用有限内存处理无限上下文》一文首先出现在《走向数据科学》上。
MongoBleed Vulnerability Allows Attackers to Read Data from MongoDB's Heap Memory
MongoDB 最近修补了 CVE-2025-14847,该漏洞影响多个受支持的旧版 MongoDB Server 版本。据披露,该漏洞可以被未经身份验证的攻击者以较低的复杂性远程利用,可能导致敏感数据和凭证的泄露。作者:雷纳托·洛西奥
AI-boomen slår hårt mot pc-konsumenter: Därför har RAM och SSD-priser exploderat
2025 年 12 月,价格危机开始,导致全球消费者的升级计划泡汤。以DDR5和DDR4为主的RAM内存价格飙升高达500%,而SSD磁盘价格在短短几个月内翻了一番。背景简单但残酷:AI 巨头正在收购所有可用内存,并且 [...]后 AI 热潮对 PC 消费者造成了沉重打击:这就是 RAM 和 SSD 价格爆炸性首次出现在 AI 新闻中的原因。
MIT's chip stacking breakthrough could cut energy use in power-hungry AI processes
当内存和逻辑组件距离更近时,数据不必传输那么远或浪费那么多能量。
Pretraining with Hierarchical Memories: Separating Long-Tail and Common Knowledge
现代语言模型令人印象深刻的性能提升目前依赖于缩放参数:较大的模型可以存储更多的世界知识并更好地进行推理。然而,将所有世界知识压缩为参数是不必要的,因为每个提示只使用一小部分,并且对于推理时间内存和计算有限的边缘设备来说是不切实际的。我们通过内存增强架构和与现有硬件范例相一致的预训练策略来解决这个缺点。我们引入了小型语言模型,可以访问编码世界知识的大型分层参数存储库。期间...
NVIDIA H100 vs. GH200: Choosing the Right GPU for Your AI Workloads
NVIDIA H100 与 GH200 的详细比较,涵盖架构、内存设计、性能权衡以及 AI 和 HPC 工作负载的最佳用例。
Why AI Could Cause a Chip Crunch
由于 AI 的 HBM(高带宽内存)使用的芯片数量是 DRAM(大多数电子产品中的内存)的 6 倍,我们可能会出现供应紧缩。《为什么 AI 可能导致芯片紧缩》一文首先出现在 Econlife 上。
Zero Field Switching (ZFS) Effect in a Nanomagnetic Device
一种被称为零场开关 (ZFS) 的意外现象可能会导致内存和计算设备比目前更小、功耗更低。该图显示了铂 (Pt)、钨 (W) 和钴铁硼磁铁 (CoFeB) 的分层
Breaking the Hardware Barrier: Software FP8 for Older GPUs
深度学习工作负载越来越受内存限制,GPU 核心在等待数据传输时处于空闲状态。 FP8 精度在较新的硬件上解决了这个问题,但是已经部署的数百万个 RTX 30 和 20 系列 GPU 又如何呢? Feather 证明,通过按位打包进行基于软件的 FP8 仿真可以实现接近理论的 4 倍带宽改进(实测为 3.3 倍),无需昂贵的硬件升级即可实现高效的深度学习。《打破硬件障碍:适用于旧版 GPU 的软件 FP8》一文首先出现在《走向数据科学》上。
Antibiotic resistant bacteria found in malnourished children under five years old
一项研究显示,尼日尔严重营养不良的儿童体内存在大量抗生素耐药细菌,构成了严重的健康风险。
Deploy Mistral AI’s Voxtral on Amazon SageMaker AI
在本文中,我们演示了使用 vLLM 和自带容器 (BYOC) 方法在 Amazon SageMaker AI 终端节点上托管 Voxtral 模型。 vLLM 是一个用于服务大型语言模型 (LLM) 的高性能库,具有分页注意力以改进内存管理和张量并行性,以便跨多个 GPU 分发模型。
MI300X vs B200: AMD vs NVIDIA Next-Gen GPU Performance & Cost analysis
AMD MI300X 和 NVIDIA B200 GPU 的深入技术比较。探索基准、内存、成本效率、AI 工作负载和实际部署见解。