1 简介 人工智能领域的最新进展由 ChatGPT [ 18 ] 和 SORA [ 19 ] 等大型模型推动,带来了巨大的计算挑战。扩展这些模型通常需要多 GPU 或多节点系统 [ 2 , 14 ],利用张量并行等并行策略 [ 25 ] 来处理计算负载。例如,Llama 3.1-405B 模型训练使用了 16,000 个 H100 GPU [ 16 ]。然而,分布式计算引入了通信作为主要瓶颈,占执行时间的 80%,如 Llama 2-7B 模型所示 [ 1 ]。如 [ 3 ] 所示,将 Llama 2-13B [ 27 ] 训练从 8 个 GPU 扩展到 1,024 个 GPU 会因通信开销而将模型 FLOP 利用率 (MFU) 从 47% 大幅降低至 4%。这凸显了一个关键问题:尽管硬件功能有所进步,但由于引入了通信开销,硬件(尤其是 GPU)往往未得到充分利用。为了提高 MFU,先前的研究探索了通过通信 [ 20 、 22 、 28 、 30 ] 或数据加载 [ 9 ] 来提高硬件利用率的潜力。然而,这些策略主要侧重于重叠计算运算符和独立通信运算符。如果存在依赖关系(例如在推理阶段),则计算和通信都位于关键路径上,运算符间重叠是不可行的。认识到这一机会,我们引入了 DistFuse,这是一个即使在存在依赖关系的情况下也能促进细粒度重叠的系统。DistFuse 的核心旨在协调计算和通信,这样 GPU 就可以在部分数据准备就绪时立即启动通信,而不是等待整个数据。我们进行了一项概念验证实验,通过在单个节点上将 DistFuse 与 Llama 3-70B 的推理相结合来展示性能提升,该节点可以隐藏高达 44.3% 的通信延迟。我们目前的原型专注于 LLM 任务,但即时通信的核心概念是多功能的,可以应用于其他场景,例如卷积模型。鉴于数据中心中大型模型工作负载的日益普及以及对高效通信的需求不断增长,我们预计通过我们的技术将显着提高性能。此外,我们
学生,德里公立学校,瓦桑特库杰 摘要 本篇评论论文探讨了机械工程在推动体育科学领域发展方面的关键作用。本文重点介绍将机械原理融入运动表现的各个方面,强调了机械工程在设备设计、生物力学分析、伤害预防和性能优化方面的重大贡献。通过全面回顾现有研究和案例研究,本文展示了机械工程对提高运动表现和改善整体运动成绩的深远影响。通过利用材料科学、生物力学和数据分析方面的进步,机械工程师彻底改变了运动器材设计,生产出更轻、更耐用、符合人体工程学的装备。此外,机械工程技术促进的生物力学分析为人体运动动力学提供了宝贵的见解,从而实现了有针对性的训练干预和伤害预防策略。总体而言,本文强调了机械工程与体育科学跨学科合作在推动创新和突破运动卓越界限方面的重要性。关键词:机械工程、体育科学、设备设计、生物力学分析、伤害预防、性能优化、材料科学、数据分析、跨学科合作、运动表现、运动成果。简介体育科学是一个跨学科领域,涵盖各种科学学科,包括生理学、生物力学、心理学、营养学和运动机能学等。其主要目的是了解和优化人类在体育和体育活动中的表现。多年来,体育科学的进步彻底改变了训练技术、伤害预防策略和整体运动表现。这些进步的一个重要贡献者是将机械工程原理融入体育科学领域。[4] 机械工程专注于机械系统的设计、分析和优化,在提高运动表现方面发挥了至关重要的作用。通过应用力学、材料科学和动力学原理,机械工程师开发了创新的设备和技术,改变了运动员训练、比赛和恢复的方式。[1] 机械工程在体育领域的应用标志着体育器材设计和性能提升的重大变革。从历史上看,体育器材已经从基本的工具发展到
摘要。本科生或新手程序员经常在编程课程中受到高级和抽象概念的挑战。与构建顺序程序相比,并行和并发编程需要不同的、更复杂的控制流思维模型。现在,多核处理器已成为计算机和移动设备的标准,开发软件以利用这种额外的计算能力的责任现在落在了现代软件开发人员身上。关键词:性能、编程、线程、顺序程序、计算机体系结构。简介本文的目的是通过不仅提供定义和解释,还提供来自现实生活的例子,帮助读者理解什么是并行性和并发性,因为这样会更容易理解。有很多解释,但只有少数能让你对它们有一个很好的认识,其余的都让你感到困惑,然后你放弃理解这两个术语。你甚至不知道你不仅在编程时看到并发和并行性,而且在任何地方、任何时候都看到它。现实生活中的实现想象一下,一个人在图书馆工作,一堆新书到了。他的任务是按作者选择合适的书,然后将它们放到书架上。他完成这项任务的方式是遵循正确的步骤。他会从所有书中挑选出由同一作者写的书。将它们带到相应的位置后,他会将它们排列在书架上。为了使这个过程更有效率,他可以实施并行技术,使用两名工人并让他们同时工作。这样,他将减少两倍的时间。当然,如果他想使这项工作更有效率,他可以使用更多的工人。关于并行性,需要了解的一件重要事情是,有时您无法获得预期的性能提升,因为您可能会遇到瓶颈,这种情况发生在资源(书籍)繁忙且第二名工人无法选择所需书籍时,这就是为什么您可能会浪费与使用一名工人时相同的时间。现在,如果您想更好地优化,可以使用并发方法。因此,在进入这个主题之前,先定义什么是并发,因为很容易将并发与并行混淆,我们必须从一开始就尝试明确两者的区别: - 并行是指同时做很多事情。 - 并发是指同时处理很多事情。 并行 并行意味着在多个硬件(核心、机器等)上执行多个任务,这就是为什么这些任务并行运行并且尽可能快地执行。 并行计算机是一种在协作中使用同时处理元素的计算机或系统
胃癌是全球第三大癌症死亡原因(1)。大多数胃癌是在晚期才被诊断出来,因为其症状和体征往往不明显且无特异性,导致整体预后不良,而在早期发现的情况下,5 年生存率可超过 90%(2-4)。内镜检查仍被认为是检测 EGC 最有效的方法(5)。然而,早期胃癌(EGC)特别难以识别,因为它通常表现为细微隆起或凹陷以及淡淡的红色,很可能被识别为正常粘膜或胃炎。此外,胃壁内的侵入深度也很难预测。10 项涉及 3,787 名接受上消化道内镜检查的患者的研究显示在诊断前 3 年内上消化道癌症的漏诊率为 11.3%(6)。一项涉及 2,153 例病变图像的荟萃分析显示,白光成像 (WLI) 内镜诊断 EGC 的受试者工作特征曲线下面积 (AUC) 仅为 0.48 (7)。近十年来,人工智能 (AI) 在医学中的应用引起了广泛关注,人工智能辅助内镜诊断是研究的热点。人工智能是指计算机执行与智能生物相关的任务的能力,例如模仿人类的认知能力的“学习”功能 (8)。人工智能的子领域包含机器学习和深度学习(图 1)。机器学习这个术语最初由 Arthur Samuel 于 1959 年创造,是计算机科学的一个领域,即系统能够在没有特定程序的情况下从输入数据中“学习”的能力 (9)。分类模型训练中常见的机器学习方法包括集成树、决策树、支持向量机、k近邻等(10)。深度学习最初于1998年应用于图像处理领域,是指在用于特征提取和转换的机器学习算法的基础上,在非线性处理中应用各层(11)。神经网络与人脑相似,特别模仿紧密相连的神经元来识别模式、提取特征或“学习”输入数据以预测结果(12)。不同的模型训练范式被称为“神经网络”(13)。对于标准内窥镜图像,已经推荐了几种用于自动检测早期胃癌的计算机辅助检测(CAD)算法。原有图像分类模型的性能提升主要依赖于视觉特征和大规模数据集,这在 EGC 中很难实现
a. UMPA 必须保持更新的短期和长期负荷预测,并且必须监控其负荷和负荷形状,以确保资源选择的基础在峰值、中间和基本资源需求以及间歇性和可调度特性方面有充分依据。b. 必须监控和优化现有资源的性能,这些资源为引入新资源提供了框架,必须提供经济调度程序所需的全部电力。这将确保新资源占据与其特性相称的位置,而这些特性是其选择的主要依据。c. UMPA 必须继续分析潜在的需求方和供应方资源,以确定在 IRP 不断发展的动态过程中充分考虑有吸引力的选择,该动态过程旨在不断提高 UMPA 资源组合的经济性、可持续性、可靠性和适当性。UMPA 计划在其会议中提供一个论坛,让公众参与在确定首选和经济资源方面发挥作用。d. 任何方案中的不确定性也会影响 UMPA 负荷和资源计划。因此,我们的资源之间最好具有适当的冗余度或灵活性,这样当一种资源出现故障时,另一种资源的性能提升就可以弥补这种故障。相反,如果资源没有最低要求,则负载损失可以得到解决。对于短期影响,UMPA 可以依赖内部或合同资源、旋转备用或能源开放市场的可用性。e. 如果经济和环境属性合理,UMPA 必须继续优先考虑无碳、监管较少和更清洁的能源资源对环境的影响。2012 财年,该机构 35% 的供应方资源来自可再生资源,主要来自 WAPA 的水力发电。UMPA 敏锐地意识到清洁空气和水以及保护敏感环境的需求和相关费用,并致力于成为环境恶化的最小贡献者。近年来,UMPA 增加了来自 Olmsted 项目、Sixmile 水力发电项目和额外 CRSP 分配的可再生水力发电量,增加了来自两个项目(Mona 的 Clover Creek 和 Spanish Fork 的社区太阳能项目)的太阳能发电量,最后增加了来自 BYU 热电联产设施的能源。UMPA 的这些可再生能源努力正在减少对煤炭的依赖并减少我们的碳足迹。UMPA 最大的成员 Provo City 已制定了实现 60% 的目标
历史 人工智能 (AI) 是指能够执行通常需要人类智能的任务(例如决策或内容创建)的计算机系统。尽管人工智能最近才开始流行,但它并不是一项新技术。“狭义人工智能”或针对有限任务的人工智能几十年来一直广泛应用于各种应用,例如自动仓库机器人、社交媒体推荐算法和金融系统中的欺诈检测。尽管“人工智能”一词最早是在 1955 年提出的,但该领域的发展一直很缓慢,直到 21 世纪“机器学习”(ML) 方法流行起来,这一转变得益于互联网上数据的激增。1 与预先编程以遵循既定规则的旧人工智能系统不同,ML 使用数学算法来学习数据中的模式以进行分类或预测。2012 年,随着云计算、数据存储和“深度学习”(基于神经网络的 ML 子领域)的进步,ML 算法的性能实现了显著飞跃。 2 神经网络使用数百万个节点或“人工神经元”来分析以前的架构无法处理的大型数据集。在被称为图形处理单元 (GPU) 的高级芯片上训练 AI 系统也带来了巨大的性能提升。 3 五年后的 2017 年,谷歌的研究人员开发了“Transformer”模型,这是一种新的深度学习架构,可以将从一项任务(例如,图像中的对象识别)中学到的知识应用于另一项任务(例如,生成新图像)。 4 Transformer 在任务之间转移“知识”的能力为具有“通用”功能的模型铺平了道路,从而导致了 AI 平台的爆炸式增长,这些平台表现出比其前辈更强的推理能力和创造力。斯坦福大学的研究人员意识到这一发展,于 2021 年推广了“基础模型”一词,强调这些新模型在构建下一代 AI 应用程序方面的基础作用。 5 基础模型构成了“生成式 AI”的基础——这些模型可以用最少的人工输入创建复杂的文字、图像和其他形式的内容。例如,ChatGPT 的基础模型 GPT-4 可以创作诗歌、在律师资格考试中取得 90 分的成绩,甚至可以编写代码来控制机器人。AI 供应链数据:AI 系统性能的一个关键决定因素是模型训练数据的质量。以汽车为例,数据就像石油,模型就像发动机。高质量的数据集是目标领域的相关、准确和全面的样本。
飞秒激光分层表面重构用于下一代神经接口电极和微电极阵列 Shahram Amini * 1,2、Wesley Seche 1、Nicholas May 2、Hongbin Choi 2、Pouya Tavousi 3、Sina Shahbazmohamadi 2 1 Pulse Technologies Inc.,研究与开发,宾夕法尼亚州 Quakertown 18951 2 康涅狄格大学生物医学工程系,康涅狄格州斯托尔斯 06269 3 康涅狄格大学 UConn 科技园,康涅狄格州斯托尔斯 06269 * 通信地址为 SA(电子邮件:samini@pulsetechnologies.com)摘要 长期植入式神经接口设备能够通过神经刺激以及感知和记录往返于神经组织的电信号来诊断、监测和治疗许多心脏、神经、视网膜和听力疾病。为了提高这些设备的特异性、功能性和性能,电极和微电极阵列(大多数新兴设备的基础)必须进一步小型化,并且必须具有出色的电化学性能和与神经组织的电荷交换特性。在本报告中,我们首次表明可以调整飞秒激光分级重构电极的电化学性能,以产生前所未有的性能值,这些性能值大大超过文献中报道的性能值,例如,与未重构电极相比,电荷存储容量和比电容分别提高了两个数量级和 700 倍以上。此外,建立了激光参数、电化学性能和电极表面参数之间的相关性,虽然性能指标随着激光参数呈现出相对一致的增加行为,但表面参数往往遵循不太可预测的趋势,否定了这些表面参数与性能之间的直接关系。为了回答是什么推动了这种性能和可调性,以及广泛采用的增加表面积和电极粗糙化的原因是否是观察到的性能提升的关键因素,使用聚焦离子束对电极进行的横截面分析首次表明,存在可能有助于观察到的电化学性能增强的亚表面特征。本报告首次报道用于神经接口应用的飞秒激光分层重构电极的此类性能增强和可调性。简介人口老龄化和大量心脏 1,2 、神经 3-6 、视网膜 7,8 和听力障碍 9,10 的存在,这些疾病无法仅通过药物治愈,导致需要长期植入设备的患者数量显著增加。表 1 总结了这些设备及其广泛的应用范围。植入式设备通过将外部电信号从神经刺激器或植入式脉冲发生器 (IPG) 传输到植入式电极或微电极阵列,然后穿过神经细胞或组织 11 的膜,对活组织进行人工刺激。神经系统负责传输从大脑到肌肉以引起肌肉运动的电信号,反之亦然,从感觉器官到大脑(例如,感觉、听觉和视觉)。如果神经受伤,大脑与周围神经之间的交流中断,例如脊髓损伤 12-15 ,则有可能
生成模型一直是机器学习研究中特别受关注的一个领域,成功的模型架构极大地改进了生成模型,包括变分自编码器 (VAE)、生成对抗网络 (GAN) 和可逆神经网络 (INN) [1-3]。除其他应用外,生成模型在事件生成中的应用也得到了广泛研究 [4-6]。与马尔可夫链蒙特卡洛 (MCMC) 技术 [7-11] 相比,生成模型的优势不仅限于提高推理速度,而后者迄今为止已成为领先的 LHC 模拟和解释方法。此外,生成模型可以进行端到端训练,从而实现更全面的应用,如展开 [12-14]、异常检测 [15-19] 等等 [20]。然而,这些神经网络 (NN) 的参数空间巨大,使其能够模拟复杂的交互,但这也导致对计算资源的需求巨大。流行的 NN 架构的规模早已达到计算可行性的边界。量子机器学习 (QML) 将量子计算的强大功能引入现有的机器学习基础,以建立并利用量子优势,从而实现量子算法独有的性能提升。虽然基于门的量子计算与经典计算有很大不同,但已经构建了许多与上述经典生成网络等效的模型,包括量子自动编码器 [ 21 ] 和量子 GAN [ 22 – 27 ]。值得注意的例外是 INN [ 28 , 29 ],它们尚未转移到 QML 领域。此类网络将成为量子神经网络 (QNN) 阵列的理想补充。虽然经典 INN 中雅可比行列式的可处理性使它们能够执行密度估计,这从本质上防止了模式崩溃,但通常无法有效地计算完整的雅可比矩阵 [ 30 ]。 INN 中完全可处理的雅可比矩阵(QNN 可用)将允许高效学习主要数据流形 [31-34],为可解释的表示学习和对底层过程的新洞察开辟机会。基于耦合的 INN 架构已通过经验证明对消失梯度问题更具弹性 [28],这使它们可以直接受益于具有许多参数的深度架构。然而,到目前为止列出的许多 INN 应用已经需要大量的训练资源。目前的研究表明,量子模型可以避免这种对巨大参数空间的需求。它们在表达力方面胜过常规 NN,能够用少得多的参数表示相同的变换 [35-39]。这一理论基础得到了几个专门构建的 QML 电路实例的支持,这些电路为专门设计的问题提供了比经典解决方案更有效的解决方案 [ 40 – 43 ]。QNN 已经成功应用于相对有限的高能物理问题 [ 21 , 25 , 44 – 46 , 46 – 51 ] 以及非 QML 方法 [ 52 – 56 ]。然而,据我们所知,尚未尝试构建可逆 QNN,该 QNN 可通过其可逆性用作生成任务的密度估计器。通过这项工作,我们旨在填补与经典 INN 量子等价的剩余空白,开发量子可逆神经网络 (QINN)。我们展示了如何将 QNN 流程中的每个步骤设计为可逆的,并展示了模拟网络估计分布密度的能力。作为原理证明,我们将我们的模型应用于最重要、研究最多的高能物理过程之一的复杂模拟 LHC 数据,pp → Z j → ℓ + ℓ − j,
通过思维与效应器进行交互,可以使这些患者在日常生活中恢复一定的自主权。例如,基于运动想象的 BCI 已被用于控制脊髓损伤后截瘫或四肢瘫痪患者的上肢( Hochberg 等人, 2012 年; Collinger 等人, 2013 年; Wodlinger 等人, 2014 年; Edelman 等人, 2019 年)、下肢( López-Larraz 等人, 2016 年; He 等人, 2018 年)和四肢( Benabid 等人, 2019 年)的假肢或外骨骼。在本研究中,我们重点研究基于皮层脑电图 (ECoG) 的运动 BCI,这是一种很有前途的工具,与更具侵入性的方法相比,它可以实现神经假体控制的连续 3D 手部轨迹解码,同时降低植入风险 ( Volkova 等人,2019)。BCI 记录神经元活动并将其解码为效应器的控制命令。解码器通常以监督的方式使用机器学习算法进行训练。在绝大多数研究中,由于对记录的访问有限,训练数据集受到严格限制。同时,数据集大小是机器学习分析中的一个重要因素,会极大地影响整个系统的性能。与最近的计算机视觉和自然语言处理研究(Kaplan 等人,2020 年;Rosenfeld 等人,2020 年;Hoiem 等人,2021 年)相比,对于 BCI,很少研究训练数据的最佳数量,即解码器性能在给定应用中达到稳定状态的数量(Perdikis and Millan,2020 年)。尤其是学习曲线,它提供了对模型性能和训练集大小之间关系的洞察,但却很少被提出。学习曲线可用于模型选择、减少模型训练的计算量或估计向训练数据集添加更多数据的理论影响(Viering and Loog,2021 年)。考虑到人类记录的数据集的访问权限有限,最后一点在 BCI 中尤为重要。如果不知道系统性能和数据集大小之间的关系,就很难确定提高解码器准确性的策略:增加训练数据量还是增加模型容量。对于基于 ECoG 的运动 BCI,大多数模型的容量有限。所使用的解码器是卡尔曼滤波器(Pistohl 等人,2012 年;Silversmith 等人,2020 年)并且大多是线性模型的变体(Flamary 和 Rakotomamonjy,2012 年;Liang 和 Bougrain,2012 年;Nakanishi 等人,2013 年、2017 年;Chen 等人,2014 年;Bundy 等人,2016 年;Eliseyev 等人,2017 年)。在大多数这些研究中,解码器优化都是在包含几分钟或几十分钟信号的数据库上进行的。这会产生可用的模型,但并未提供有关可以通过更多数据实现的性能提升的任何信息,也没有比较多个解码器之间的数据量/性能关系。在 BCI 中,模型特征和学习曲线并不是影响解码器性能的唯一因素。人类生成独特脑信号模式的能力对于 BCI 系统至关重要。近年来的研究主要集中在开发越来越高效的解码器上,例如深度学习 (DL)(Bashivan 等人,2015 年;Elango 等人,2017 年;Schirrmeister 等人,2017 年;Du 等人,2018 年;Lawhern 等人,2018 年;Pan 等人,2018 年;Xie 等人,2018 年;Zhang 等人,2019 年;Rashid 等人,2020 年;´ Sliwowski 等人,2022 年),而不是耐心学习或共同适应(Wolpaw 等人,2002 年;Millan,2004 年),尽管一些研究表明