并行关键词检索结果

Transformers 中多头注意力背后的数学

The Math Behind Multi-Head Attention in Transformers

深入探究 Transformer 和 LLM 中的秘密元素多头注意力。让我们探索它的数学原理,并从头开始用 Python 构建它DALL-E 生成的图像1:简介1.1:Transformer 概述Vaswani 等人在其论文“Attention is All You Need”中介绍的 Transformer 架构已经改变了深度学习,尤其是在自然语言处理 (NLP) 领域。Transformer 使用自注意力机制,使它们能够一次性处理所有输入序列。这种并行处理允许更快地计算并更好地管理数据中的长距离依赖关系。这听起来不熟悉?别担心,因为它会在本文的末尾出现。让我们首先简单看一下 Transfo

二十一世纪的公司

The Corporation in the Twenty-First Century

我的新书将于 8 月 29 日发行,现在可以预订。几代以来,我们将公司定义为由资本主义精英经营的企业,利用其积累的财富拥有生产资料并行使经济权力。这已不再是现实。在二十一世纪,我们的 […]The Corporation in the Twenty-F​​irst appeared on John Kay.

二十一世纪的公司

The Corporation in the Twenty-First Century

我的新书将于 8 月 29 日发行,现在可以预订。几代人以来,我们将公司定义为由资本主义精英经营的企业,利用其积累的财富拥有生产资料并行使经济权力。这已不再是现实。在二十一世纪,我们最想要的商品和服务不是堆放在仓库或集装箱船上:它们出现在您的屏幕上,装在您的口袋里或占据您的头脑。但即使我们的消费量比以往任何时候都多,大企业也面临着合法性危机。制药行业创造了救命的疫苗,但却失去了公众的信任。高管和员工之间不断扩大的薪酬差距正在破坏我们的社会稳定。Facebook 和 Google 拥有的客户比历史上任何公司都多,但却受到广泛谴责。在这本书中,我探讨了商业是如何变化的——以及学术商业模式如何没有跟

大规模 Transformer 模型的高效部署:可扩展和低延迟推理策略

Efficient Deployment of Large-Scale Transformer Models: Strategies for Scalable and Low-Latency Inference

将基于 Transformer 的模型扩展到超过 1000 亿个参数已在自然语言处理领域取得突破性成果。这些大型语言模型在各种应用中都表现出色,但由于生成推理的顺序性,每个 token 的计算都依赖于前面的 token,因此有效部署它们带来了挑战。这需要细致的并行布局和内存。《高效部署大规模 Transformer 模型:可扩展和低延迟推理策略》一文首先出现在 AI Quantum Intelligence 上。

大规模变换器模型的有效部署:可扩展和低延迟推理策略

Efficient Deployment of Large-Scale Transformer Models: Strategies for Scalable and Low-Latency Inference

将基于 Transformer 的模型扩展到超过 1000 亿个参数已在自然语言处理中取得突破性成果。这些大型语言模型在各种应用中都表现出色,但由于生成推理的顺序性,有效部署它们带来了挑战,其中每个标记的计算都依赖于前面的标记。这需要细致的并行布局和内存帖子《大规模 Transformer 模型的有效部署:可扩展和低延迟推理策略》首先出现在 AI Quantum Intelligence 上。

TileDB 创始人兼首席执行官 Stavros Papadopoulos 博士——访谈系列

Dr. Stavros Papadopoulos, Founder and CEO, TileDB – Interview Series

TileDB 是一种现代数据库,将所有数据模式、代码和计算集成到一个产品中。TileDB 于 2017 年 5 月从麻省理工学院和英特尔实验室分离出来。在 2017 年 2 月创立 TileDB, Inc. 之前,Stavros Papadopoulos 博士是英特尔并行计算实验室的高级研究科学家,也是 […]The post Dr. Stavros Papadopoulos, Founder and CEO, TileDB – Interview Series 首次出现在 Unite.AI 上。

基于 Transformer 的 ASR N-Best 重新评分和重写模型

Transformer-based Model for ASR N-Best Rescoring and Rewriting

语音助手越来越多地使用设备上的自动语音识别 (ASR) 来确保速度和隐私。然而,由于设备的资源限制,涉及复杂信息域的查询通常需要搜索引擎进一步处理。对于这样的应用,我们提出了一种基于 Transformer 的新型模型,该模型能够通过并行探索 N 个最佳假设的完整上下文来重新评分和重写。我们还提出了一种新的判别序列训练目标,它可以很好地用于重新评分和重写任务。我们表明我们的 Rescore+Rewrite 模型优于……

商业简报:解决冲突困境

Business Briefing: Navigating the dilemmas of conflict

业务简报:应对冲突的困境 2024 年 7 月 2 日 — 上午 8:00 至 9:15A匿名(未经验证)2024 年 5 月 22 日 查塔姆研究所 加入我们,参加这场重要对话,概述企业管理冲突风险的方法。 25 年前,“冲突议程”与更广泛的商业和人权议程并行出现。该议程已超出采掘业范围,涵盖其他行业,特别是技术、农业和零售业,以解决地缘政治复杂性和利益相关者敏感性问题。当前的三大冲突使跨国公司及其价值链陷入困境:2021 年 2 月缅甸政变和随后的内战; 2022 年 2 月俄罗斯全面入侵乌克兰,西方公司大量但不完全地撤出俄罗斯; 2023 年 10 月开始的以色列-加沙战争可能会引发更广

愤怒不是政策:接受缅甸分裂的国家

Outrage is not a policy: Coming to terms with Myanmar’s fragmented state

为了保持与缅甸未来发展的相关性,西方应该支持解放区的并行国家建设。

科技聚焦:无人机群技术

Science & Tech Spotlight: Drone Swarm Technologies

为什么这很重要无人机群技术允许无人机群相互协调,通常无需人工直接控制。潜在的民用应用包括扑灭野火和寻找失踪人员。但实现这些应用需要计算和通信方面的进步,并且该技术可能会引发安全、网络安全和隐私问题。该技术是什么?无人机是一种无人驾驶飞行器,尺寸从 1 英寸到翼展超过 130 英尺不等。无人机群技术可协调至少三架、最多数千架无人机协同执行任务,而无需人类的关注和控制。例如,空中无人机群可能有助于控制野火、评估损失、寻找接入点以及通过喷洒消防液体来扑灭火灾——所有这些都需要最少的人类指导。对于某些应用来说,无人机群可能比单架无人机更高效、更强大,因为无人机群可以在没有人工监督的情况下并行完成各种任

IEEE 神经网络和学习系统汇刊,第 35 卷,第 4 期,2024 年 4 月

IEEE Transactions on Neural Networks and Learning Systems, Volume 35, Issue 4, April 2024

1) 特邀编辑:图的深度神经网络:理论、模型、算法和应用作者:Ming Li、Alessio Micheli、Yu Guan Wang、Shirui Pan、Pietro Lió、Giorgio Stefano Gnecco、Marcello Sanguineti页数:4367 - 43722) 正则化理论背景下的谱图卷积神经网络作者:Asif Salim、S. Sumitra页数:4373 - 43843) 赋能简单图卷积网络作者:Luca Pasa、Nicolò Navarin、Wolfgang Erb、Alessandro Sperduti页数:4385 - 43994) 通过面积正则球

使用 Apache Beam 进行大型医学图像预处理 | 分步指南

Big Medical Image Preprocessing With Apache Beam | A Step-by-Step Guide

本文将引导您了解如何使用 Apache Beam 高效处理大型医学图像 — 我们将使用一个具体示例来探索以下内容:- 如何在 ML/AI 中使用大型图像- 用于处理上述图像的不同库- 如何创建高效的并行处理管道准备好进行一些严肃的知识共享了吗?文章使用 Apache Beam 进行大型医学图像预处理 | 分步指南由 DLabs.AI 服务。

BanditPAM:通过多臂老虎机进行几乎线性时间的 k-medoids 聚类

BanditPAM: Almost Linear-Time k-medoids Clustering via Multi-Armed Bandits

TL;DR想要比 \(k\)-means 更好的东西吗?我们最先进的 NeurIPS \(k\)-medoids 算法 BanditPAM 现已公开!\(\texttt{pip install banditpam}\),您就可以开始了!与 \(k\)-means 问题一样,\(k\)-medoids 问题是一个聚类问题,我们的目标是将数据集划分为不相交的子集。然而,在 \(k\)-medoids 中,我们要求聚类中心必须是实际数据点,这允许对聚类中心进行更好的解释。\(k\)-medoids 还可以更好地处理任意距离度量,因此如果您使用 \(L_1\) 之类的度量,您的聚类对异常值会更稳健。尽

BanditPAM:通过多臂老虎机进行几乎线性时间的 k-medoids 聚类

BanditPAM: Almost Linear-Time k-medoids Clustering via Multi-Armed Bandits

TL;DR想要比 \(k\)-means 更好的东西吗?我们最先进的 NeurIPS \(k\)-medoids 算法 BanditPAM 现已公开!\(\texttt{pip install banditpam}\),您就可以开始了!与 \(k\)-means 问题一样,\(k\)-medoids 问题是一个聚类问题,我们的目标是将数据集划分为不相交的子集。然而,在 \(k\)-medoids 中,我们要求聚类中心必须是实际数据点,这允许对聚类中心进行更好的解释。\(k\)-medoids 还可以更好地处理任意距离度量,因此如果您使用 \(L_1\) 之类的度量,您的聚类可以对异常值更具鲁棒

发布通知:使用卷积神经网络跨不同计算系统进行语义图像分割

PUBLICATION NOTICE: Use of Convolutional Neural Networks for Semantic Image Segmentation Across Different Computing Systems

摘要:强大的计算平台与深度学习架构的结合带来了解决许多传统计算机视觉问题的新方法,以便自动解释大型且复杂的地理空间数据。随着数据的广泛获取和无人机系统的使用越来越多,此类任务尤为重要。本文档介绍了一个工作流程,利用 CNN 和 GPU 对 UAS 图像进行自动像素级分割,以加快图像处理速度。在多核 GPU 上探索基于 GPU 的计算和并行化,以减少开发时间,减少对大量模型训练的需求,并促进任务关键信息的利用。比较不同系统(单、虚拟、多 GPU)之间的 VGG-16 模型训练时间,以研究每个平台的功能。 CNN 结果显示,应用于地面实况数据时,准确率为 88%。将 VGG-16 模型与 GPU

Jim Keller:摩尔定律、微处理器、抽象和第一原理

Jim Keller: Moore’s Law, Microprocessors, Abstractions, and First Principles

Jim Keller 是一位传奇的微处理器工程师,曾在 AMD、Apple、Tesla 和 Intel 工作过。他因在 AMD K7、K8、K12 和 Zen 微架构、Apple A4、A5 处理器方面的工作以及 x86-64 指令集和 HyperTransport 互连规范的合著者而闻名。此对话是人工智能播客的一部分。如果您想了解有关此播客的更多信息,请访问 https://lexfridman.com/ai 或在 Twitter、LinkedIn、Facebook、Medium 或 YouTube 上与 @lexfridman 联系,您可以在其中观看这些对话的视频版本。如果您喜欢播客,请在

陆军 NAF 福利开放注册,正是拜访您的 HRO 的季节

Army NAF Benefits Open Enrollment 'tis the season for visiting your HRO

11 月 6 日至 12 月 1 日是美国陆军非拨款基金员工参观其 NAF 福利人力资源办公室并行使开放注册选项的季节。 “让每个人都知道,是时候了,”该公司的经理格洛丽亚·米克 (Gloria Mick) 说。

当不需要时不要给抗生素

Don’t give antibiotics when none are needed

在BMJ中进行了新的研究:“延迟初级保健中呼吸道感染的抗生素处方策略:务实,阶乘,随机对照试验。”:目的是估算涉及急性呼吸道感染的延迟抗生素处方的不同策略的有效性。设计开放,务实,并行组,阶乘,随机对照试验。在英国设定初级保健。患者889例老年患者[…]该邮政首先出现在偶然的经济学家中时不需要抗生素。