Cut Your Losses in Large-Vocabulary Language Models
随着语言模型变得越来越大,其词汇量也越来越大。这导致 LLM 在训练过程中的内存占用不成比例地转移到一个层:损失计算中的交叉熵。交叉熵会构建一个包含每对输入标记和词汇项的条目的逻辑矩阵,对于小型模型,其内存消耗量比其余 LLM 的总和高出一个数量级。我们提出了 Cut Cross-Entropy (CCE),这是一种计算交叉熵损失的方法,无需将所有标记的逻辑实现到全局内存中。相反,CCE 仅计算逻辑……
让您的 AI 任务区分困难和简单问题在这篇立场文件中,我讨论了一个前提,即许多潜在的性能增强都被搁置了,因为我们通常不解决动态执行的潜力。我想我需要首先定义在这种情况下什么是动态执行。正如你们许多人无疑知道的那样,我们经常通过仔细研究模型本身以及可以做些什么来使该模型的处理更高效(可以通过更低的延迟、更高的吞吐量和/或节能来衡量)来解决性能优化问题。这些方法通常解决模型的大小问题,因此我们会寻找压缩模型的方法。如果模型较小,则内存占用和带宽要求会得到改善。一些方法还解决了模型中的稀疏性问题,从而避免了无关紧要的计算。不过……我们只关注模型本身。这绝对是我们想要做的事情,但是还有其他机会可以利用
2024 年 10 月 3 日Doctor Web 病毒分析师发现了一种新的 rootkit 修改版,该修改版会在受感染的 Linux 机器上安装 Skidmap 挖矿木马。该 rootkit 被设计为一个恶意内核模块,通过提供有关 CPU 使用率和网络活动的虚假信息来隐藏矿工的活动。这种攻击似乎是无差别的,主要针对企业部门——大型服务器和云环境——在这些领域可以最大限度地提高挖矿效率。Redis 数据库管理系统是世界上最受欢迎的 NoSQL 数据库:Redis 服务器被 X(前身为 Twitter)、Airbnb、亚马逊等大型公司使用。它的优势显而易见:最高性能、极小的内存占用以及对各种数据
RepCNN: Micro-Sized, Mighty Models for Wakeword Detection
始终在线的机器学习模型需要非常低的内存和计算占用空间。它们的受限参数数量限制了模型的学习能力,以及通常的训练算法找到最佳参数的有效性。在这里,我们展示了通过首先将其计算重构为更大的冗余多分支架构,可以更好地训练小型卷积模型。然后,为了进行推理,我们代数地将训练后的模型重新参数化为具有更少参数的单分支形式,以降低内存占用和计算成本。使用这种技术,我们展示了……