矩阵乘法

2025-02-16 机构名称:

任何有限字段的有效伪随机相关发生器

摘要。相关的随机性在于有效的现代安全多方计算（MPC）协议的核心。生成MPC在线阶段协议所需的相关随机性的成本通常构成整体协议中的瓶颈。Boyle等人发起的伪随机相关发生器（PCG）的最新范式。（CCS'18，Crypto'19）为此问题提供了一个吸引人的解决方案。在草图中，为每个方提供了一个短的PCG种子，可以将其局部扩展为长相关字符串，从而满足目标相关性。在各种类型的相关性中，有忽略的线性评估（OLE），这是对算术电路的典型MPC协议的基本和有用的原始性。旨在有效地生成大量OLE，并应用于MPC协议，我们建立了以下结果：（i）在任何字段F p上，我们为OLE提出了一种新颖的可编程PCG构造。对于kn ole相关性，我们需要O（k log n）通信和O（k 2 n log n）计算，其中k是任意整数≥2。预先的作品要么具有二次计算（Boyle等人crypto'19），或者只能支持大于2的大小的字段（Bombar等人加密23）。（ii）我们扩展了上述OLE结构，以提供任何有限领域的各种相关性。引人入胜的应用之一是用于两方身份验证的布尔乘法三倍的有效PCG。对于kN身份验证的三元组，我们提供的PCG具有O（k 2 log n）位的种子大小。与以前的作品相比，每个作品都有自己的权利。据我们最大的知识，这种相关性以前尚未通过sublrinear沟通和准线性计算实现。（iii）此外，该可编程性可用于多方布尔三元组的有效PCG，因此是第一个具有无声预处理的布尔电路的有效MPC协议。尤其是我们显示的kn m-零件乘数可以在O（m 2 K log n） - 次通信中生成，而最先进的叶面（Asiacrypt'24）需要广播通道，并需要MKN + O（m 2 log kn）钻头通信。（iv）最后，我们提出有效的PCG，用于电路依赖性预处理，矩阵乘法和字符串OTS等。

查看详细

File

2024-05-03 机构名称:

量子计算和人工智能

摘要本文全面回顾了量子力学与人工智能 (AI) 交叉领域的发展趋势。本文着眼于当前的趋势和进步，探讨了量子计算对 AI 方法和应用的深远影响。通过分析最近的研究和发展，本文阐明了叠加和纠缠等量子力学原理如何重塑 AI 系统的能力。本文深入研究了 AI 算法在量子硬件上的成功实现，强调了加快训练速度和增强计算能力的潜力。此外，本文还研究了量子增强 AI 的新兴趋势，包括量子机器学习算法和量子启发优化技术。展望未来，本文讨论了未来的前景和潜在的研究方向，设想了量子计算成为 AI 系统不可或缺的组成部分的前景，释放前所未有的性能水平，并在优化、模式识别和决策等领域取得突破。通过深入了解当前趋势和未来可能性，本文旨在指导研究人员和从业人员应对量子力学和人工智能之间复杂的相互作用，为这两个领域的变革性进步铺平道路。关键词：人工智能、量子计算、量子芯片。简介量子计算是一个利用量子力学原理彻底改变计算的前沿领域，它有可能对人工智能 (AI) 产生深远影响。传统计算机依靠位来处理 0 或 1 的信息，而量子计算机则利用量子位或量子比特，由于叠加和纠缠，它们可以同时存在于多种状态。这种计算架构的根本差异有望增强人工智能的各个方面，从加速复杂计算到为机器学习和优化任务启用新算法。在本介绍中，我们将探讨量子计算对人工智能的潜在影响，研究它带来的机遇以及充分利用这项变革性技术必须克服的挑战。 AI 芯片，也称为神经处理单元 (NPU) 或 AI 加速器，是一种专用集成电路，旨在高效执行人工智能任务。这些芯片针对 AI 工作负载（例如深度学习和神经网络处理）的计算需求进行了优化。与本质上更通用的传统中央处理器 (CPU) 或图形处理单元 (GPU) 不同，AI 芯片专门用于执行 AI 算法中常见的矩阵和向量运算。AI 芯片通常具有并行处理架构和专用指令，以加速矩阵乘法，卷积以及神经网络中常用的其他操作。它们也可能

查看详细

File

2022-04-11 机构名称:

NVIDIA H100 Tensor Core GPU 架构

○ 与 A100 相比，新的第四代 Tensor Cores 芯片间速度提高了 6 倍，包括每个 SM 的加速、额外的 SM 数量和 H100 的更高时钟频率。与上一代 16 位浮点选项相比，在每个 SM 上，Tensor Cores 在等效数据类型上提供 A100 SM 的 2 倍 MMA（矩阵乘法累加）计算速率，在使用新的 FP8 数据类型时提供 A100 的 4 倍速率。稀疏性功能利用深度学习网络中的细粒度结构化稀疏性，使标准 Tensor Core 操作的性能翻倍。○ 新的 DPX 指令使动态规划算法比 A100 GPU 快 7 倍。两个例子包括用于基因组学处理的 Smith-Waterman 算法和用于在动态仓库环境中为机器人车队寻找最佳路线的 Floyd-Warshall 算法。 ○ 与 A100 相比，由于每个 SM 的时钟性能提高了 2 倍，再加上 H100 的额外 SM 数量和更高的时钟频率，因此芯片到芯片的 IEEE FP64 和 FP32 处理速度提高了 3 倍。○ 新的线程块群集功能允许以大于单个 SM 上单个线程块的粒度对局部性进行编程控制。这通过在编程层次结构中添加另一个级别来扩展 CUDA 编程模型，现在包括线程、线程块、线程块群集和网格。群集支持跨多个 SM 同时运行的多个线程块以同步并协作获取和交换数据。○ 新的异步执行功能包括一个新的张量内存加速器 (TMA) 单元，它可以在全局内存和共享内存之间非常高效地传输大块数据。TMA 还支持群集中线程块之间的异步复制。还有一个新的异步事务屏障，用于执行原子数据移动和同步。 ● 新型 Transformer Engine 结合使用软件和定制的 Hopper Tensor Core 技术，专门用于加速 Transformer 模型的训练和推理。Transformer Engine 可以智能地管理和动态地选择 FP8 和 16 位计算，自动处理每层 FP8 和 16 位之间的重新转换和缩放，与上一代 A100 相比，在大型语言模型上提供高达 9 倍的 AI 训练速度和高达 30 倍的 AI 推理速度。● HBM3 内存子系统提供的带宽比上一代增加了近 2 倍。H100 SXM5 GPU 是世界上第一款配备 HBM3 内存的 GPU，可提供一流的 3 TB/秒内存带宽。● 50 MB L2 缓存架构可缓存大量模型和数据集以供重复访问，从而减少对 HBM3 的访问。● 第二代多实例 GPU (MIG) 技术为每个 GPU 实例提供大约 3 倍的计算能力和近 2 倍的内存带宽

查看详细

File

2022-04-11 机构名称:

NVIDIA H100 Tensor Core GPU 架构

○ 与 A100 相比，新的第四代 Tensor Cores 的芯片间速度提高了 6 倍，包括每个 SM 的加速、额外的 SM 数量和 H100 的更高时钟频率。在每个 SM 的基础上，与上一代 16 位浮点选项相比，Tensor Cores 在等效数据类型上提供 2 倍的 A100 SM MMA（矩阵乘法累加）计算速率，使用新的 FP8 数据类型提供 4 倍的 A100 速率。Sparsity 功能利用深度学习网络中的细粒度结构化稀疏性，使标准 Tensor Core 操作的性能翻倍。○ 新的 DPX 指令使动态规划算法比 A100 GPU 加速高达 7 倍。两个示例包括用于基因组学处理的 Smith-Waterman 算法和用于在动态仓库环境中为机器人车队寻找最佳路线的 Floyd-Warshall 算法。○ 与 A100 相比，IEEE FP64 和 FP32 芯片间处理速度提高了 3 倍，这是由于每个 SM 的时钟对时钟性能提高了 2 倍，再加上 H100 的额外 SM 数量和更高的时钟。○ 新的线程块群集功能允许以大于单个 SM 上单个线程块的粒度对局部性进行编程控制。这通过在编程层次结构中添加另一个级别来扩展 CUDA 编程模型，现在包括线程、线程块、线程块群集和网格。集群支持跨多个 SM 同时运行的多个线程块同步并协作获取和交换数据。○ 新的异步执行功能包括一个新的张量内存加速器 (TMA) 单元，它可以在全局内存和共享内存之间非常高效地传输大块数据。TMA 还支持集群中线程块之间的异步复制。还有一个新的异步事务屏障，用于执行原子数据移动和同步。● 新的 Transformer Engine 结合使用软件和定制的 Hopper Tensor Core 技术，专门用于加速 Transformer 模型训练和推理。Transformer Engine 可智能管理并动态选择 FP8 和 16 位计算，自动处理每层 FP8 和 16 位之间的重新转换和缩放，与上一代 A100 相比，在大型语言模型上提供高达 9 倍的 AI 训练速度和高达 30 倍的 AI 推理速度。● HBM3 内存子系统提供的带宽比上一代增加了近 2 倍。H100 SXM5 GPU 是世界上第一款配备 HBM3 内存的 GPU，可提供一流的 3 TB/秒内存带宽。● 50 MB L2 缓存架构可缓存大量模型和数据集以供重复访问，从而减少 HBM3 的访问次数。● 第二代多实例 GPU (MIG) 技术为每个 GPU 实例提供大约 3 倍的计算能力和近 2 倍的内存带宽

查看详细

File

2025-02-24 机构名称:

非交互分布点功能

1简介。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>2 1.1我们的结果。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>3 1.2申请。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>4 2技术概述。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。 div>。。。。。。。。。。。。。。。。。。。。。。。。5 2.1构建块：非相互作用乘法。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。5 2.2 NIDPF构造的概述。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。 6 3预序。。。。。。。。。。。。5 2.2 NIDPF构造的概述。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。6 3预序。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。10 3.1表示法。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。10 3.2添加秘密共享。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。10 3.3加密假设。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。11 3.4 NIDLS框架。。。。11 3.4 NIDLS框架。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。11 3.5度2秘密键HSS。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。12 4非相互作用乘法。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。14 4.1 NIM具有乘法输出重建。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。15 4.2矩阵乘法的简洁nim。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。15 4.3基于组假设的构造。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。15 4.4基于晶格假设的构造。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。18 5非相互作用DPF。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。18 5.1模拟算术模量N.。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。21 5.2 NIDPF框架。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。22 5.3 SXDH的随机付费实例化。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。24 6对简洁的多键HSS的概括。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。27 7同态秘密共享。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。32

查看详细

File

2024-09-06 机构名称:

生成深度学习David Foster PDF

生成AI目前是技术中最热门的话题。本动手指南教机器学习工程师和数据科学家如何使用Tensorflow和Tensorflow和Keras从头开始创建令人印象深刻的生成深度学习模型，包括变异自动编码器（VAE），生成对抗网络（GAN），变形金刚，变形金刚，正常流量，基于能量的模型，基于能量的差异模型，以及基本的架构架构。Through tips and tricks, you'll learn how to make your models more efficient and creative.Discover how VAEs can change facial expressions in photosTrain GANs to generate images based on your own datasetBuild diffusion models to produce new varieties of flowersTrain your own GPT for text generationLearn how large language models like ChatGPT are trainedExplore state-of-the-art architectures such as StyleGAN2 and ViT-VQGANCompose polyphonic music使用变形金刚和博物馆构成生成世界模型如何将增强学习任务求解到诸如dall.e 2，Imagen和稳定扩散等多模型模型中，这本书还探讨了生成AI的未来及其具有竞争优势的潜力。生成AI目前是技术中最热门的话题。本动手指南教机器学习工程师和数据科学家如何使用Tensorflow和Keras从头开始创建令人印象深刻的生成深度学习模型，包括VAE，gans，gans，transformers，“标准化流量”，“基于能量”的模型，基于能量的模型以及扩散的扩散模型。这本书以基本的深度学习概念和高级体系结构为基本的深度学习概念开始。和概率理论，正如某些模型使用数学符号描述的那样。Through tips and tricks, you'll learn how to make your models more efficient and creative.Discover how VAEs can change facial expressions in photosTrain GANs to generate images based on your own datasetBuild diffusion models to produce new varieties of flowersTrain your own GPT for text generationLearn how large language models like ChatGPT are trainedExplore state-of-the-art architectures such as StyleGAN2 and ViT-VQGANCompose polyphonic music使用变形金刚和博物馆构成生成世界模型如何将增强学习任务解决成多模型，例如Dall.e 2，Imagen和稳定的扩散，这本书还深入研究了生成AI的未来及其具有竞争优势的潜力。要开始使用Python，请访问Learningpypython.org获取免费资源，这些资源将帮助您发展足够的知识来与本书中的示例合作。对线性代数（矩阵乘法等）有牢固的了解也很重要另外，请确保您有一个可以从GitHub存储库中运行代码示例的环境。不用担心您是深度学习的新手 - 您不需要昂贵的硬件即可像GPU一样开始培训模型。实际上，在投资硬件之前了解基础知识更为重要。本书将向您展示如何在自己的数据上培训自己的生成模型，而不是依靠预训练的模型。我们将从第一原则中深入研究这些模型的架构和设计，因此您可以完全了解它们如何使用Python和Keras进行编码。科学家们正在破解代码以复制一些最具开创性的生成深度学习模型，例如变化自动编码器，生成的对抗性网络（GAN），编码器模型和世界模型。在本文中，专家David Foster带领读者从深度学习的基础上到彻底改变该领域的出血 - 边缘算法的旅程。通过分享技巧和技巧，您将深入了解如何优化模型以提高性能和创造力。动手实践实用的GAN示例，例如Cyclegan for Style Transfer和Musegan for Music Generation。学习如何制作复发性生成模型来生成文本，并使用注意机制改进它们。探索生成模型如何授权代理在加强学习框架内处理复杂的任务。最后，深入研究了基于变压器的模型，例如Bert和GPT-2，以及Progan和StyleGan等图像生成技术。

查看详细

XiaoMi-AI文件搜索系统

矩阵乘法

任何有限字段的有效伪随机相关发生器

量子计算和人工智能

NVIDIA H100 Tensor Core GPU 架构

NVIDIA H100 Tensor Core GPU 架构

非交互分布点功能

生成深度学习David Foster PDF

按机构统计排名前十媒体

按照发布年份统计数据

XiaoMi-AI