计算系统的能力正与其试图理解的海量视觉数据展开一场“军备竞赛”。在自动驾驶、机器人视觉、智能家居、遥感、显微镜、监控、国防和物联网等一系列应用中,计算成像系统记录和处理大量人类无法看到的数据,而是由基于人工智能 (AI) 的算法进行解释。在这些应用中,深度神经网络 (DNN) 正迅速成为视觉数据处理的标准算法方法 1-3。这主要是因为 DNN 在所有领域都取得了最先进的结果,而且往往领先优势很大。深度学习的最新突破得益于现代图形处理单元 (GPU) 的巨大处理能力和并行性,以及海量视觉数据集的可用性,这些数据集使得 DNN 能够使用监督机器学习策略进行高效训练。然而,运行日益复杂的神经网络的高端 GPU 和其他加速器对功率和带宽的需求巨大;它们需要大量的处理时间和笨重的外形尺寸。这些限制使得在边缘设备(如摄像头、自动驾驶汽车、机器人或物联网外设)中采用 DNN 具有挑战性。以自动驾驶汽车中的视觉系统为例,它们必须使用有限的计算资源即时做出稳健的决策。高速行驶时,瞬间的决策可以决定生死。事实上,几乎所有边缘设备都会受益于更精简的计算成像系统,提供更低的延迟和尺寸、重量和功率的改进。DNN 的两个阶段(训练和推理)的计算要求非常不同。在训练阶段,DNN 被输入大量标记示例,并使用迭代方法,其参数针对特定任务进行优化。训练完成后,DNN 用于推理,其中某些输入数据(例如图像)在前馈过程中通过网络发送一次,以计算所需的结果。在某些应用中,GPU 用于推理,但由于上述原因,对于许多边缘设备而言,这是不切实际的。
大规模 AI 训练需要尖端技术来最大限度地发挥 GPU 的并行计算能力,以处理数十亿甚至数万亿个 AI 模型参数,这些参数需要使用呈指数级增长的海量数据集进行训练。利用 NVIDIA 的 HGX™ H100 SXM 8-GPU/4-GPU 和最快的 NVLink™ 和 NVSwitch™ GPU-GPU 互连(带宽高达 900GB/s),以及最快的 1:1 网络到每个 GPU 进行节点集群,这些系统经过优化,可在最短的时间内从头开始训练大型语言模型。通过全闪存 NVMe 完成堆栈以实现更快的 AI 数据管道,我们提供带有液体冷却选项的完全集成机架,以确保快速部署和流畅的 AI 训练体验。
尽管人工智能 (AI) 并不是一个新概念,但计算能力的提高、海量数据存储和算法创新等一系列技术趋势正在重新引起人们的兴趣 (Vasudevan 等人,2020 年)。根据 Smith (2023) 的说法,人工智能是指在机器中模拟人类智能,这些机器被编程为像人类一样思考和学习。人工智能涉及开发能够处理和分析数据的计算机系统,例如视觉感知、语音识别、决策和语言翻译,其规模和速度如果没有技术是不可能实现的 (Smith,2023 年) (Cambridge Systematics and ITS America,2023 年)。通过快速处理、分类和整理数据,人工智能有可能从大量交通数据中提供有意义的见解 (Cambridge Systematics and ITS America,2023 年)。
生成式人工智能(通常称为 GenAI)更进一步,可以根据提示创建新内容(例如图像或文本)。你可能听说过公共生成式人工智能平台 ChatGPT。如果你问它一个问题,ChatGPT 会使用大型语言模型 (LLM)(一种使用机器学习从海量数据集中学习的人工智能算法)来了解你想要什么。然后,它将来自各种来源的信息拼凑在一起以创建响应。最近,它开始考虑来自实时互联网搜索的信息。尽管这很有价值,但我们必须记住,ChatGPT 和其他 GenAI 工具只能模拟智能,在信息不足时也会出错,这种结果被称为幻觉。例如,在撰写某人的传记时,此类模型会添加此人未获得的奖项或大学学位。
循证实践 (EBP) 已成为护理领域的基本支柱,推动基于高质量科学研究的有效临床决策。EBP 的主要目标是确保患者根据现有的最佳证据获得最适当、最安全的护理。在此背景下,知识综合方法是 EBP 的重要工具,因为它们有助于基于可靠的评论进行临床决策,而这些评论是每年在《健康》杂志上发表的 28,000 多篇科学文章中多项研究的结合。然而,当前的科学全景以海量知识生产为特点,这使得综合和解释证据的任务对医疗专业人员来说成为一项艰巨的挑战。面对这些挑战,人工智能 (AI) 应运而生,成为一种强大的工具,能够彻底改变 EBP,使其更高效、更准确,从而缩短研究时间并提高研究质量。
自从人工智能开始专注于将机器学习应用于海量数据以来,它取得了令人瞩目的飞跃。机器学习系统发现数据之间的相关性并建立相应的模型,将可能的输入与可能正确的响应(预测)联系起来。在机器学习应用中,人工智能系统在经过大量示例的训练后学会做出预测。因此,人工智能对数据如饥似渴,这种渴求刺激了数据收集,形成了一个自我强化的螺旋:基于机器学习的人工智能系统的发展以创建庞大的数据集(即大数据)为前提,并促进了大数据的创建。人工智能和大数据的融合可以为经济、科学和社会进步带来诸多好处。然而,它也给个人和整个社会带来了风险,例如无处不在的监视和对公民行为的影响,公共领域的两极分化和分裂。
放眼现代经济的任何地方,你都会看到科学研究的成果。智能手机等日常设备已被全球数十亿人使用,它可以随时提供数据,并且可以在您所在的任何地方将自己定位在几米之内。它的计算能力超出了半个世纪前的太空计划所梦想的。这些设备体现了全球数十年的研究成果,从设计和制造接近原子规模的集成电路,到访问组成 GPS 的卫星星座,到承载互联网海量信息流的全球光纤系统,再到制造智能手机和其他此类设备的超纯材料(如半导体、液晶或有机发光材料)。COVID-19 疫情提醒我们,当情况足够紧急时,科学研究可以多么迅速地转化为拯救生命和造福经济。从病原体鉴定到有效疫苗的开发,这一过程在 2020 年令人难以置信的八个月内完成。
近几十年来,治疗性肽已被证明具有巨大的药用价值和潜力。然而,人工智能辅助肽药发现的方法尚未充分探索。为了填补这一空白,我们提出了一种基于环面流形上的条件流匹配的靶标感知肽设计方法(PPF LOW),为肽结构设计建模扭转角的内部几何形状。此外,我们建立了一个名为PPBench2024的蛋白质-肽结合数据集,以填补基于结构的肽药物设计任务的海量数据空白并允许深度学习方法的训练。大量实验表明,与基线模型相比,PPF LOW 在肽药物生成和优化任务中达到了最先进的性能,并且可以推广到包括对接和侧链包装在内的其他任务。
癌症因其复杂性和严重性一直是医学界面临的最大挑战之一 [1]。癌症分类至关重要,因为确定癌症的具体类型对于确定适当的治疗方法至关重要,而适当的治疗方法最终将提高患者的生活质量 [2]。先前对癌症亚型分类的研究依赖于临床和组织病理学特征,但这些方法往往不足以捕捉癌症的分子异质性 [3]。随着高通量技术的进步,多组学数据(包括基因组学、转录组学、蛋白质组学和代谢组学)变得更容易获取。多组学数据的整合可以更准确、更全面地了解癌症亚型 [4]。然而,这些矩阵中的高维度和海量数据给分析和解释带来了重大挑战。
严格的数据分析让高管们在思考企业的长期竞争定位时不得不停下来思考。人工智能 (AI) 和其他技术的持续进步正在掀起一波颠覆浪潮,这将影响商业模式、扫除过时战略并改变客户体验。高管们在思考十年后的企业时,尤其需要注意如何驾驭这些数字创新的快速发展,并找到方法利用企业必须评估的海量数据中的洞察力。这些技术和创新问题与其他风险问题密不可分,这些风险使 2034 年十大风险成为关注的焦点,这些风险与管理数字技术采用的人才短缺、对遗留 IT 系统的依赖以及总体网络和隐私问题有关。再次强调,这些相互关联的风险不能孤立地看待。