深度学习时代通过利用广泛传感器产生的大数据和不断增长的计算能力,为无处不在的机器人应用提供了巨大的机会。而对自然人机交互 (HRI) 的日益增长的需求以及对能源效率、实时性能和数据安全的关注,则推动了新的解决方案的产生。在本文中,我们提出了一种基于大脑启发式脉冲神经网络 (SNN) 的人机听觉接口,即 HuRAI。HuRAI 将语音活动检测、说话人定位和语音命令识别系统集成到一个统一的框架中,该框架可以在新兴的低功耗神经形态计算 (NC) 设备上实现。我们的实验结果证明了 SNN 的卓越建模能力,可以对每个任务实现准确而快速的预测。此外,能源效率分析揭示了一个引人注目的前景,与在最先进的 Nvidia 图形处理单元 (GPU) 上运行的等效人工神经网络相比,其能源节省高达三个数量级。因此,将大规模 SNN 模型的算法能力与 NC 设备的能源效率相结合,为实时、低功耗机器人应用提供了一种有吸引力的解决方案。2021 Elsevier BV 保留所有权利。
人工智能 (AI) 算法已应用于大量医疗任务,具有很高的准确性和效率。医生可以借助 AI 技术提高诊断效率,从而改善后续的个性化治疗和监测。AI 算法从根本上捕获数据、识别潜在模式、实现预设终点,并利用机器学习和深度学习的工作原理对现实世界事件做出决策和预测。具有足够图形处理单元能力的 AI 算法已被证明能够基于对大量临床和影像数据的初步训练提供及时的诊断参考。考虑到儿科肿瘤的发病率低和个体异质性,样本量问题是儿科肿瘤学不可避免的挑战。然而,考虑到 AI 算法在技术上的飞速进步,AI 操作对数据集数量和计算能力效率的依赖性降低,这个问题可能在不久的将来得到解决。例如,通过将卷积神经网络 (CNN) 从成人转移并在多个机构之间共享 CNN 算法(除了原始数据)可能是一个可行的解决方案。本综述通过系统地概述最新文献,为儿科肿瘤诊断的新兴人工智能应用提供了重要见解。
在追求这一目标的过程中,消除不可预测的行为已被视为一项必要的工程费用。消除计算噪声的努力涵盖了整个微电子技术堆栈,从研究高可靠性材料和设备到纠错电路和架构,再到容错系统和算法。确定性计算显然取得了令人难以置信的成功——在不到四分之三个世纪的时间里,我们已经从大约一千个只能进行相对简单计算的阴极管阵列过渡到每秒能够处理 10 18 次浮点运算的高性能计算百亿亿次系统。[2,3] 然而,能耗已日益成为传统处理器面临的挑战。人工智能 (AI) 和机器学习 (ML) 在多种应用中的采用越来越广泛,以及对更多计算的需求不断增长,导致对结合多种技术(图形处理单元 (GPU)、中央处理单元 (CPU) 等)的异构计算平台的需求更高。随着越来越多的处理器被整合,未使用的处理器需要关闭以处理散热问题(即“暗硅”)。[4] 这些问题加上大量新设备、内存计算、高效的芯片间通信、3D 堆叠和集成技术
DFF 触发器 DMM 数字万用表 DMA 直接存储器访问 DSP 数字信号处理 DSPI 动态信号处理仪器 DTMR 分布式三重模块冗余双通道。双通道 DUT 被测设备 ECC 纠错码 EDAC 错误检测与纠正 EEE 电气、电子和机电 EMAC 设备监控和控制 EMIB 多芯片互连桥 EPCS 扩展物理编码层 ESA 欧洲航天局 eTimers 事件计时器 ETW 电子技术研讨会 FCCU 流化催化裂化装置 FeRAM 铁电随机存取存储器 FinFET 鳍式场效应晶体管 FIR 有限脉冲响应滤波器 FMC FPGA 夹层卡 FPGA 现场可编程门阵列 FPU 浮点单元 FY 财政年度 Gb 千兆位 Gbps 千兆位/秒 GCR 银河宇宙线 GEO 地球静止赤道轨道 GIC 全球行业分类 GOMACTech 政府微电路应用和关键技术会议 GPIO 通用输入/输出 GPIB 通用接口总线 GPU 图形处理单元 GR 全球路线 GRC NASA 格伦研究中心 GSFC 戈达德太空飞行中心
GPU(图形处理单元)通常使用CUDA或OPENCL等低级语言进行编程。尽管这些语言允许实现非常优化的软件,但由于其低级性质,它们很难编程,在该软件中,程序员必须将协调代码(即如何创建和分发)与实际的计算代码混合在一起。在本文中,我们介绍了霍克(Hok),这是一种延伸到长生不老药功能性语言的信息,该语言允许促进高阶GPU内核,从而使程序能够明确地将协调与计算分开。HOK系统为编写可以使用计算代码参数化的低级GPU内核提供了DSL(特定领域的语言)。HOK允许在主机代码中创建和引用范围的功能,包括匿名功能,以便在启动内核之前配置它们。我们证明HOK可用于实施高级抽象,例如算法 - 麦克骨骼和数组综合。我们还提出了证明HOK当前实施的可用性的实验,并表明与纯长生不老药相比,可以获得高速加速,特别是在具有大量输入的集体密集型程序中。
结构变异(SV)是重大的基因组改变,在包括癌症在内的遗传多样性,进化和各种疾病中起着至关重要的作用。检测SVS的传统方法通常在计算效率,准确性和可扩展性方面面临挑战,尤其是在处理大型基因组数据时。近年来,图形处理单元(GPU)和机器学习(ML)的出现已经开发了解决这些挑战的新途径。本文探讨了GPU加速度和ML技术的整合,以增强结构变体的检测和分析。我们提出了一个全面的框架,该框架利用深度学习模型(用于在GPU上并行处理)以高精度实现实时SV检测。我们的方法不仅减轻了计算负担,而且还提高了与常规方法相比,SV检测的敏感性和特异性。通过在各种基因组数据集上进行广泛的基准测试,我们在速度,准确性和可扩展性方面证明了我们的GPU加速ML框架的出色性能。这些发现强调了将GPU和ML技术相结合以革新基因组研究的潜力,并为在临床和研究环境中更有效,更精确的结构变体分析铺平道路。
摘要 - 传统的卷积神经网络(CNN)通常在捕获各种数据集中的复杂空间关系和细微的模式方面遇到困难。为了克服这些限制,这项工作先驱,使视觉变压器(VIT)模型的应用在计算机视觉领域引起了显着关注,因为它们能够通过自我意见机制在图像中捕获图像中的长期依赖性的能力。然而,培训大量参数的大规模VIT模型会带来计算挑战。在本文中,我们提出了一种优化的方法,用于培训VIT模型,该模型利用图形处理单元(GPU)的并行处理功能,并使用多线程优化了计算工作负载分布。在CIFAR-10数据集上对所提出的模型进行了训练和测试,并在100个时期后达到了99.92%的出色精度。与现有方法相比,实验结果揭示了我们方法在优化训练效率方面的有效性。这强调了VIT模型的出色性能及其革新图像分类任务的潜力。索引术语 - CIFAR-10数据集,卷积神经网络(CNN),GPU,图像分类,多线程,视觉变压器(VIT),注意机制
在追求这一目标的过程中,消除不可预测的行为已被视为一项必要的工程费用。消除计算噪声的努力涵盖了整个微电子技术堆栈,从研究高可靠性材料和设备到纠错电路和架构,再到容错系统和算法。确定性计算显然取得了令人难以置信的成功——在不到四分之三个世纪的时间里,我们已经从大约一千个只能进行相对简单计算的阴极管阵列过渡到每秒能够处理 10 18 次浮点运算的高性能计算百亿亿次系统。[2,3] 然而,能耗已日益成为传统处理器面临的挑战。人工智能 (AI) 和机器学习 (ML) 在多种应用中的采用越来越广泛,以及对更多计算的需求不断增长,导致对结合多种技术(图形处理单元 (GPU)、中央处理单元 (CPU) 等)的异构计算平台的需求更高。随着越来越多的处理器被整合,未使用的处理器需要关闭以处理散热问题(即“暗硅”)。[4] 这些问题加上大量新设备、内存计算、高效的芯片间通信、3D 堆叠和集成技术
近年来,视觉变形金刚(VIT)已成为计算机视觉任务(例如图像分类,对象检测和分割)的强大而有前途的技术。与依赖层次特征提取的卷积神经网络(CNN)不同,VIT将图像视为斑块和杠杆自我发项机制的序列。但是,它们的高计算复杂性和内存要求对资源受限的边缘设备部署构成重大挑战。为了解决这些局限性,广泛的研究集中在模型压缩技术和硬件感知加速策略上。尽管如此,一项全面的审查系统地将这些技术及其在精确,效率和硬件适应性方面进行了对边缘部署的适应性的权衡。这项调查通过提供模型压缩技术的结构化分析,用于推理边缘的软件工具以及VIT的硬件加速策略来弥合此差距。我们讨论了它们对准确性,效率和硬件适应性的影响,突出了关键的挑战和新兴的研究方案,以推动Edge平台上的VIT部署,包括图形处理单元(GPU),张量处理单元(TPU)(TPU)和现场编程的门阵列(FPGAS)。目标是通过当代指南,以优化VIT,以在边缘设备上进行有效部署,以激发进一步的研究。
近年来,视觉变形金刚(VIT)已成为计算机视觉任务(例如图像分类,对象检测和分割)的强大而有前途的技术。与依赖层次特征提取的卷积神经网络(CNN)不同,VIT将图像视为斑块和杠杆自我发项机制的序列。但是,它们的高计算复杂性和内存要求对资源受限的边缘设备部署构成重大挑战。为了解决这些局限性,广泛的研究集中在模型压缩技术和硬件感知加速策略上。尽管如此,一项全面的审查系统地将这些技术及其在精确,效率和硬件适应性方面进行了对边缘部署的适应性的权衡。这项调查通过提供模型压缩技术的结构化分析,用于推理边缘的软件工具以及VIT的硬件加速策略来弥合此差距。我们讨论了它们对准确性,效率和硬件适应性的影响,突出了关键的挑战和新兴的研究方案,以推动Edge平台上的VIT部署,包括图形处理单元(GPU),张量处理单元(TPU)(TPU)和现场编程的门阵列(FPGAS)。目标是通过当代指南,以优化VIT,以在边缘设备上进行有效部署,以激发进一步的研究。