人工智能 (AI) 芯片使用半导体来提供强大的处理器,可使需要高计算资源的领域受益,例如气候、能源、健康和安全。“AI 芯片”一词是指最近一代专门设计用于更快地处理人工智能任务的微处理器。AI 芯片是综合硅片,集成了 AI 技术并用于机器学习。(Viswanathan, 2020) 在过去十年中,深度学习技术领域取得了许多进步。自 2013 年以来,已经开发了各种新型 AI 芯片以及基于这些芯片的产品 (Momose, 2020)。中央处理器 (CPU) 等通用芯片也可以用于一些更简单的 AI 任务,但随着 AI 的发展,CPU 变得越来越不实用 (Saif M. Khan, 2020)。AI 芯片包括图形处理单元 (GPU)、现场可编程门阵列 (FPGA) 和专用于 AI 的专用集成电路 (ASIC)。AI 芯片包括图形处理单元 (GPU)、现场可编程门阵列 (FPGA) 和专用于 AI 的专用集成电路 (ASIC)。图形处理单元 (GPU) GPU 最初设计用于处理游戏等图形密集型任务。GPU 旨在处理并行性并提供高性能,这是并行性导致深度学习 AI 算法所必需的。GPU 是一种出色的 AI 硬件,在创意制作和 AI 中越来越受欢迎。现场可编程门阵列 (FPGA) FPGA 是可编程阵列,可以根据需求重新编程。FPGA 是具有逻辑门阵列的集成电路硅芯片:该阵列可以在现场编程,即用户可以用新定义的配置覆盖现有配置,并可以创建自己的数字电路。FPGA 因其灵活性而价格昂贵。(Pandit,2019) 专用集成电路 (ASIC) ASIC 芯片专为 AI 应用而设计,并与 AI 算法集成。基于 ASIC 的 AI 芯片有不同类型。本报告介绍了 Graphcore、Cerebras、SambaNova 等 AI 芯片以及 Nvidia、Intel、AMD 的 GPU 以及 Google TPU 的技术比较和编程模型规范。这是一项持续进行的工作,旨在评估尽可能多的 AI 芯片。截至撰写本文时,只有 Cerebras、Graphcore 和 Nvidia GPus 可用。本报告不偏袒任何供应商,且与供应商无关。
大多数人工智能算法在现有的计算系统上运行,例如中央处理单元(CPU),图形处理单元(GPU)和现场可编程可编程的门阵列(FPGAS)。(Batra,Jacobson,Madhav,Queirolo和Santhanam,2019年; Viswanathan,2020年),也正在开发用于加速机器学习的数字类型或模拟数字混合信号类型的应用特定的集成电路(ASIC)。然而,随着摩尔法律方法的扩展极限,通过现有扩展可以实现的性能和功率效率正在下降。需要一个特殊的处理器来在短时间内接受和处理学习数据,而该处理器是“ AI半导体”。AI半导体是专门针对效率的非内存半导体,以超高速度和超功率实施AI服务所需的大规模计算。AI半导体对应于核心大脑,学习数据并从中得出推断的结果。(Al-Ali,Gamage,Nanayakkara,Mehdipour,&Ray,2020; Batra等,2019; Esser,Appuswamy,Merolla,Arthur,&Modha,2015年)CPU是处理计算机所有输入,输出和命令处理的计算机的大脑。但是,对于需要大规模并行处理操作的AI,串行处理数据的CPU并未优化。为了克服这一限制,GPU已成为替代方案。gpu是针对3D游戏等高端图形处理开发的,但具有并行处理数据的特征,使其成为AI半导体之一。
摘要 - 大脑网络是一个具有无尺度,小世界和模块化属性的大型复杂网络,在很大程度上支持这种高耐能力性的庞大系统。在本文中,我们建议将大型网络芯片网络的互连综合。首先,我们提出了一种生成具有有限规模和幂律的小世界属性的大脑网络风格拓扑的方法,该拓扑的总链路长度较低,并且与网络大小的对数大约成比例的平均HOP计数极低。此外,考虑到大规模应用,考虑到大脑网络启发的拓扑的模块化,我们提出了一种应用程序映射方法,包括任务映射和确定性的无僵持路由,以最大程度地减少功耗和啤酒花计数。最后,使用不同的合成图案和大规模测试用例(包括用于图形处理应用程序的现实世界通信网络)来验证建筑性能。实验表明,与其他拓扑和方法相比,由提出的方法生成的大脑网络启发的NOC的平均HOP计数显着降低,平均延迟较低。尤其是在具有幂律和紧密耦合核心间通信的图形处理应用中,大脑网络启发的NOC的平均HOP计数高达70%,比基于网格的NOC低75%。
这种灵活的架构创建了一个分析生态系统的基础,该生态系统将最佳技术、人员和流程统一起来。建立一个 AI 卓越中心,数据科学家可以在其中部署他们需要的所有工具,以提供最大价值并在不同的团队之间进行协作。在同一基础架构中同时运行工作负载并提供对更大数据集的无缝、多协议访问的同时,保持计算、图形处理单元 (GPU) 和存储资源的最佳性能。
随着人工智能 (AI) 和机器学习 (ML) 工作负载的增加,云数据中心需要专用的 AI 处理能力来卸载服务器和通用中央处理器 (CPU)。AI 处理和加速通常通过使用高效图形处理单元 (GPU)、神经处理单元 (NPU) 或定制 AI 加速器来实现。AI 处理/加速卡可能具有不同的外形尺寸。例如:• 插入服务器的 PCI Express ® 卡• 可放入标准 19 英寸或 24 英寸笔记本电脑的服务器式盒子
» 通过公私合作建立 AI 创新生态系统。 » 为高级 AI 计算基础设施部署 10,000 多个图形处理单元 (GPU)。 » 通过民主化、数据质量改进和本土 AI 能力开发,推动印度 AI 生态系统负责任、包容性增长。 ◊ 关键部委:电子和信息技术部 (MeitY)。 ◊ 资金:通过公私合作模式,为期 5 年。 ◊ 实施机构:数字印度公司旗下的“IndiaAI”独立业务部门。 ◊ 组成部分:计算能力、创新中心、数据集平台等。 ◊ IndiaAI 和相关计划的支柱
项目 学生将有机会参与人工智能和数据工程领域的前沿项目。当前项目的示例包括医疗保健应用的机器学习、使用深度学习的无人机视觉定位、使用个人大脑对自然刺激的反应进行行为预测、使用强化学习进行预测性维护、通过社交媒体帖子对消费者行为进行建模、使用雷达和机器学习进行穿墙感应以及用于视频中半监督异常检测的深度学习。这些项目由图形处理单元 (GPU) 加速计算机等最先进设备提供支持。
虽然半导体行业组织预测两年内芯片需求将增长 15%,但下游组织(依赖半导体供应来提供产品或服务和运营的组织)预计其芯片需求将以 29% 的更高增长率增长。人工智能 (AI) 和生成式人工智能 (Gen AI) 的普及推动了对专用神经处理单元 (NPU) 和高性能图形处理单元 (GPU) 的需求,这些单元可以高效处理大量计算和大型数据集。此外,下游组织预计未来 12 个月对人工智能芯片、定制硅片和内存密集型芯片的需求将增加。
人工智能无线电收发器 (AIR-T) 是一种高性能软件定义无线电 (SDR),与最先进的处理和深度学习推理硬件无缝集成。嵌入式图形处理单元 (GPU) 的加入使得实时宽带数字信号处理 (DSP) 算法可以在软件中执行,而无需专门的现场可编程门阵列 (FPGA) 固件开发。GPU 是机器学习中最常用的处理器,因此 AIR-T 大大降低了工程师创建自主信号识别、干扰缓解和许多其他机器学习应用的障碍。通过授予深度学习算法对收发器系统的完全控制权,AIR-T 允许完全自主的软件定义和认知无线电。
[与 ELEC 5680 共同上榜] [上一课程代码:COMP 6211D] 本课程重点介绍高级深度学习架构及其在各个领域的应用。具体来说,主题包括各种深度神经网络架构及其在计算机视觉、信号处理、图形分析和自然语言处理中的应用。将介绍不同的最新神经网络模型,包括图形神经网络、规范化流、点云模型、稀疏卷积和神经架构搜索。学生有机会为一些与 AI 相关的任务实施深度学习模型,例如视觉感知、图像处理和生成、图形处理、语音增强、情感分类和新颖的视图合成。排除:ELEC 5680