并行性

2025-02-04 机构名称:

用于调度截止日期敏感的可延展任务的算法

摘要由于批处理数据处理的无处不在，计划可延展的批处理任务的相关问题受到了极大的关注。我们考虑了一个基本模型，其中一组任务要在多个相同的机器上处理，并且每个任务均由值，一个工作负载，截止日期和并行性约束。在平行性界限内，分配给任务的机器数量会随着时间而变化而不会影响其工作负载。在本文中，我们确定了边界条件，并通过构造证明一组具有截止日期的可延展任务可以通过其截止日期来完成，并且仅当它满足边界条件时。该核心结果在调度算法的设计和分析中起关键作用：（i）考虑到几个典型的目标，例如社交福利最大化，机器最小化和最小化最大加权完成时间，以及（ii）当算法和动态编程等算法技术技术时，会适用于社交范围。结果，我们为上述问题提供了四种新的或改进的算法。

查看详细

File

2023-11-09 机构名称:

Actis：严格的地方工会——寻找解码器

容错量子计算需要经典硬件来执行纠错所需的解码。并查集解码器是最佳候选解码器之一。它具有非常有机的特性，涉及通过最近邻步骤增长和合并数据结构；这自然表明它有可能使用带有最近邻链接的简单处理器格来实现。这样，计算负载可以以近乎理想的并行性进行分配。在这里，我们首次证明了这种严格（而非部分）局部性是实用的，最坏情况运行时间为 O(d3)，平均运行时间在表面代码距离 d 上是亚二次的。我们采用了一种新颖的奇偶校验计算方案，可以简化以前提出的架构，并且我们的方法针对电路级噪声进行了优化。我们将我们的局部实现与通过长距离链接增强的实现进行了比较；虽然后者当然更快，但我们注意到本地异步逻辑可能会消除差异。

查看详细

File

1900-01-01 机构名称:

你只需要关注

主要的序列传导模型基于复杂的循环或卷积神经网络，包括编码器和解码器。性能最佳的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构 Transformer，它完全基于注意力机制，完全省去了循环和卷积。在两个机器翻译任务上的实验表明，这些模型质量优越，同时可并行性更高，并且训练时间显著减少。我们的模型在 WMT 2014 英语到德语翻译任务中获得了 28.4 BLEU，比现有最佳结果（包括集成）提高了 2 BLEU 以上。在 WMT 2014 英语到法语翻译任务中，我们的模型在八个 GPU 上训练 3.5 天后，建立了新的单模型最新 BLEU 分数 41.0，这仅仅是文献中最佳模型训练成本的一小部分。

查看详细

File

2022-08-03 机构名称:

AI芯片技术对比报告 - STFC ePubs

人工智能 (AI) 芯片使用半导体来提供强大的处理器，可使需要高计算资源的领域受益，例如气候、能源、健康和安全。“AI 芯片”一词是指最近一代专门设计用于更快地处理人工智能任务的微处理器。AI 芯片是综合硅片，集成了 AI 技术并用于机器学习。(Viswanathan, 2020) 在过去十年中，深度学习技术领域取得了许多进步。自 2013 年以来，已经开发了各种新型 AI 芯片以及基于这些芯片的产品 (Momose, 2020)。中央处理器 (CPU) 等通用芯片也可以用于一些更简单的 AI 任务，但随着 AI 的发展，CPU 变得越来越不实用 (Saif M. Khan, 2020)。AI 芯片包括图形处理单元 (GPU)、现场可编程门阵列 (FPGA) 和专用于 AI 的专用集成电路 (ASIC)。AI 芯片包括图形处理单元 (GPU)、现场可编程门阵列 (FPGA) 和专用于 AI 的专用集成电路 (ASIC)。图形处理单元 (GPU) GPU 最初设计用于处理游戏等图形密集型任务。GPU 旨在处理并行性并提供高性能，这是并行性导致深度学习 AI 算法所必需的。GPU 是一种出色的 AI 硬件，在创意制作和 AI 中越来越受欢迎。现场可编程门阵列 (FPGA) FPGA 是可编程阵列，可以根据需求重新编程。FPGA 是具有逻辑门阵列的集成电路硅芯片：该阵列可以在现场编程，即用户可以用新定义的配置覆盖现有配置，并可以创建自己的数字电路。FPGA 因其灵活性而价格昂贵。(Pandit，2019) 专用集成电路 (ASIC) ASIC 芯片专为 AI 应用而设计，并与 AI 算法集成。基于 ASIC 的 AI 芯片有不同类型。本报告介绍了 Graphcore、Cerebras、SambaNova 等 AI 芯片以及 Nvidia、Intel、AMD 的 GPU 以及 Google TPU 的技术比较和编程模型规范。这是一项持续进行的工作，旨在评估尽可能多的 AI 芯片。截至撰写本文时，只有 Cerebras、Graphcore 和 Nvidia GPus 可用。本报告不偏袒任何供应商，且与供应商无关。

查看详细

File

2022-09-21 机构名称:

双阈值图像分割的容错量子算法

量子计算固有的高并行性和纠缠特性使得量子图像处理技术成为人们关注的焦点。图像处理中最广泛使用的技术之一是分割，其最基本的形式之一可以使用阈值算法来实现。本文提出了一种容错量子双阈值算法。该算法基于 Clifferd+T 门。由于 T 门增加了容错能力，但代价是成本比其他量子门高得多，因此我们的重点是减少 T 门的数量。这使得最先进的双阈值分割电路能够增加噪声容忍度、计算成本降低和容错能力。由于双阈值图像分割涉及比较操作，因此作为这项工作的一部分，我们实现了两个比较器电路。这些电路优化了 T 计数和 T 深度指标，使其与文献中目前可用的最佳电路比较器相比更胜一筹。

查看详细

File

2023-01-20 机构名称:

捕获离子和传输子 QPU 上的量子并行矢量化数据编码和计算

紧凑的量子数据表示对于数据分析的量子算法这一新兴领域至关重要。我们引入了两种新的数据编码方案 QCrank 和 QBArt，它们通过均匀控制的旋转门具有高度的量子并行性。QCrank 将一系列实值数据编码为数据量子位的旋转，从而实现高存储密度。QBArt 直接将数据的二进制表示嵌入计算基础中，需要更少的量子测量，并有助于对二进制数据进行易于理解的算术运算。我们介绍了针对不同类型数据的几种拟议编码应用。我们展示了用于 DNA 模式匹配、汉明重量计算、复值共轭和检索 O（400）位图像的量子算法，所有算法都在 Quantinuum QPU 上执行。最后，我们使用各种可云访问的 QPU（包括 IBMQ 和 IonQ）来执行其他基准测试实验。

查看详细

File

2024-12-13 机构名称:

重新思考MIMD-SIMD相互作用，用于内存内数据库引擎中的分析查询处理

利用并行性是在内存数据库引擎中执行低延迟的游戏的名称。最突出的是，现代通用CPU继续主导计算单元的领域，它通过两个面向数据的平行范式提供了高度计算的能力：MIMD和SIMD。不幸的是，由于两个平行范式都表现出不同的编程模型和内存访问模式，因此以组合方式利用这两种模型都是具有挑战性的。但是，CPU上SIMD的最新硬件进步放宽了对SIMD友好内存访问模式的限制。与纯线性访问模式的最新技术相比，替代访问模式的可用性和性能已显着提高。正如我们将在本文中所展示的那样，这些进步为统一的并行化方法铺平了道路，该方法以联合方式利用MIMD和SIMD，为有效的分析查询处理提供了一种新颖而有希望的方式。

查看详细

File

2023-11-09 机构名称:

Actis：严格的地方工会——寻找解码器

查看详细

烟花算法训练的人工神经网络（FWANN）的开发和绩效分析：财务时间序列序列序列的案例研究

File

2025-03-11 机构名称:

烟花算法训练的人工神经网络（FWANN）的开发和绩效分析：财务时间序列序列序列的案例研究

财务时间序列是高度非线性的，它们的运动是不可预测的。人工神经网络（ANN）在财务预测中有足够的应用。ANN模型的性能主要取决于其培训。尽管基于梯度下降的方法对于ANN训练很常见，但它们有几个局限性。烟花算法（FWA）是一种最近开发的元疗法，它受到夜间烟花爆炸现象的启发，它提出了诸如更快的融合，并行性和找到全球最佳优势之类的特征。本章打算开发一个由FWA和ANN（FWANN）组成的混合模型，用于预测收盘价系列，交换系列和原油价格时间序列。将FWANN的适当性与基于PSO的ANN，GA-基于ANN，基于DE的ANN和MLP模型等模型进行了比较。四个性能指标，MAPE，NMSE，ARV和R2被视为评估的晴雨表。进行性能分析以显示FWANN的适用性和优越性。

查看详细

用于人工智能和神经形态计算的硅光子学 Bhavin J. Shastri 1,2、Thomas Ferreira de Lima 2、Chaoran Huang 2、Bicky A. Marquez 1、Sudip Shekhar 3、Lukas Chrostowski 3 和 Paul R. Prucnal 2 1 加拿大安大略省金斯顿皇后大学物理、工程物理和天文学系，邮编 K7L 3N6 2 普林斯顿大学电气工程系，邮编新泽西州普林斯顿 08544，美国 3 加拿大不列颠哥伦比亚大学电气与计算机工程系，邮编 BC 温哥华，邮编 V6T 1Z4 shastri@ieee.org 摘要：由神经网络驱动的人工智能和神经形态计算已经实现了许多应用。电子平台上神经网络的软件实现在速度和能效方面受到限制。神经形态光子学旨在构建处理器，其中光学硬件模拟大脑中的神经网络。 © 2021 作者神经形态计算领域旨在弥合冯·诺依曼计算机与人脑之间的能源效率差距。神经形态计算的兴起可以归因于当前计算能力与当前计算需求之间的差距不断扩大 [1]、[2]。因此，这催生了对新型大脑启发算法和应用程序的研究，这些算法和应用程序特别适合神经形态处理器。这些算法试图实时解决人工智能 (AI) 任务，同时消耗更少的能量。我们假设 [3]，我们可以利用光子学的高并行性和速度，将相同的神经形态算法带到需要多通道多千兆赫模拟信号的应用，而数字处理很难实时处理这些信号。通过将光子设备的高带宽和并行性与类似大脑中的方法所实现的适应性和复杂性相结合，光子神经网络有可能比最先进的电子处理器快至少一万倍，同时每次计算消耗的能量更少 [4]。一个例子是非线性反馈控制；这是一项非常具有挑战性的任务，涉及实时计算约束二次优化问题的解。神经形态光子学可以实现新的应用，因为没有通用硬件能够处理微秒级的环境变化 [5]。

File

2021-04-13 机构名称:

用于人工智能和神经形态计算的硅光子学 Bhavin J. Shastri 1,2、Thomas Ferreira de Lima 2、Chaoran Huang 2、Bicky A. Marquez 1、Sudip Shekhar 3、Lukas Chrostowski 3 和 Paul R. Prucnal 2 1 加拿大安大略省金斯顿皇后大学物理、工程物理和天文学系，邮编 K7L 3N6 2 普林斯顿大学电气工程系，邮编新泽西州普林斯顿 08544，美国 3 加拿大不列颠哥伦比亚大学电气与计算机工程系，邮编 BC 温哥华，邮编 V6T 1Z4 shastri@ieee.org 摘要：由神经网络驱动的人工智能和神经形态计算已经实现了许多应用。电子平台上神经网络的软件实现在速度和能效方面受到限制。神经形态光子学旨在构建处理器，其中光学硬件模拟大脑中的神经网络。 © 2021 作者神经形态计算领域旨在弥合冯·诺依曼计算机与人脑之间的能源效率差距。神经形态计算的兴起可以归因于当前计算能力与当前计算需求之间的差距不断扩大 [1]、[2]。因此，这催生了对新型大脑启发算法和应用程序的研究，这些算法和应用程序特别适合神经形态处理器。这些算法试图实时解决人工智能 (AI) 任务，同时消耗更少的能量。我们假设 [3]，我们可以利用光子学的高并行性和速度，将相同的神经形态算法带到需要多通道多千兆赫模拟信号的应用，而数字处理很难实时处理这些信号。通过将光子设备的高带宽和并行性与类似大脑中的方法所实现的适应性和复杂性相结合，光子神经网络有可能比最先进的电子处理器快至少一万倍，同时每次计算消耗的能量更少 [4]。一个例子是非线性反馈控制；这是一项非常具有挑战性的任务，涉及实时计算约束二次优化问题的解。神经形态光子学可以实现新的应用，因为没有通用硬件能够处理微秒级的环境变化 [5]。

用于人工智能和神经形态计算的硅光子学 Bhavin J. Shastri 1,2、Thomas Ferreira de Lima 2、Chaoran Huang 2、Bicky A. Marquez 1、Sudip Shekhar 3、Lukas Chrostowski 3 和 Paul R. Prucnal 2 1 加拿大安大略省金斯顿皇后大学物理、工程物理和天文学系，邮编 K7L 3N6 2 普林斯顿大学电气工程系，邮编新泽西州普林斯顿 08544，美国 3 加拿大不列颠哥伦比亚大学电气与计算机工程系，邮编 BC 温哥华，邮编 V6T 1Z4 shastri@ieee.org 摘要：由神经网络驱动的人工智能和神经形态计算已经实现了许多应用。电子平台上神经网络的软件实现在速度和能效方面受到限制。神经形态光子学旨在构建处理器，其中光学硬件模拟大脑中的神经网络。 © 2021 作者神经形态计算领域旨在弥合冯·诺依曼计算机与人脑之间的能源效率差距。神经形态计算的兴起可以归因于当前计算能力与当前计算需求之间的差距不断扩大 [1]、[2]。因此，这催生了对新型大脑启发算法和应用程序的研究，这些算法和应用程序特别适合神经形态处理器。这些算法试图实时解决人工智能 (AI) 任务，同时消耗更少的能量。我们假设 [3]，我们可以利用光子学的高并行性和速度，将相同的神经形态算法带到需要多通道多千兆赫模拟信号的应用，而数字处理很难实时处理这些信号。通过将光子设备的高带宽和并行性与类似大脑中的方法所实现的适应性和复杂性相结合，光子神经网络有可能比最先进的电子处理器快至少一万倍，同时每次计算消耗的能量更少 [4]。一个例子是非线性反馈控制；这是一项非常具有挑战性的任务，涉及实时计算约束二次优化问题的解。神经形态光子学可以实现新的应用，因为没有通用硬件能够处理微秒级的环境变化 [5]。

查看详细

XiaoMi-AI文件搜索系统

并行性

用于调度截止日期敏感的可延展任务的算法

Actis：严格的地方工会——寻找解码器

你只需要关注

AI芯片技术对比报告 - STFC ePubs

双阈值图像分割的容错量子算法

捕获离子和传输子 QPU 上的量子并行矢量化数据编码和计算

重新思考MIMD-SIMD相互作用，用于内存内数据库引擎中的分析查询处理

Actis：严格的地方工会——寻找解码器

烟花算法训练的人工神经网络（FWANN）的开发和绩效分析：财务时间序列序列序列的案例研究

按机构统计排名前十媒体

按照发布年份统计数据

XiaoMi-AI