AI in Multiple GPUs: Understanding the Host and Device Paradigm
了解 CPU 和 GPU 如何在主机设备范式中交互多 GPU 中的人工智能后:了解主机和设备范式首先出现在《走向数据科学》上。
Claim: China Should Learn from California’s Clean Energy Example
“...如果政策正确,煤炭对于确保可靠的电力供应来说并不是必需的...”
Предложена парадигма полностью автоматизированного проектирования процессорных чипов
中国研究人员创建了一个专门针对芯片设计数据进行训练的人工智能模型。
Parallel Track Transformers: Enabling Fast GPU Inference with Reduced Synchronization
基于 Transformer 的大型语言模型 (LLM) 的高效大规模推理仍然是一个基本的系统挑战,经常需要多 GPU 并行性来满足严格的延迟和吞吐量目标。传统的张量并行性会分解跨设备的矩阵运算,但会引入大量的 GPU 间同步,从而导致通信瓶颈和可扩展性下降。我们提出了并行轨道(PT)变压器,这是一种新颖的架构范例,可以重组计算以最小化跨设备依赖性。 PT 实现了高达 16 倍的减少……
Self-Supervised Learning with Gaussian Processes
自监督学习 (SSL) 是一种机器学习范例,其中模型学习理解数据的底层结构,而无需来自标记样本的显式监督。从 SSL 获取的表示已被证明可用于许多下游任务,包括聚类和线性分类等。为了确保表示空间的平滑性,大多数 SSL 方法依赖于生成与给定实例相似的观察对的能力。然而,对于许多类型的数据来说,生成这些对可能具有挑战性。而且,这些方法缺乏考虑……
Pretraining with Hierarchical Memories: Separating Long-Tail and Common Knowledge
现代语言模型令人印象深刻的性能提升目前依赖于缩放参数:较大的模型可以存储更多的世界知识并更好地进行推理。然而,将所有世界知识压缩为参数是不必要的,因为每个提示只使用一小部分,并且对于推理时间内存和计算有限的边缘设备来说是不切实际的。我们通过内存增强架构和与现有硬件范例相一致的预训练策略来解决这个缺点。我们引入了小型语言模型,可以访问编码世界知识的大型分层参数存储库。期间...