摘要。大规模脉冲神经网络模型模拟是提高我们对大脑动态和最终功能理解的重要工具。然而,即使是像老鼠这样的小型哺乳动物也具有大约 1 × 10 12 个突触连接,在模拟中,每个突触连接通常至少有一个浮点值。这相当于几 TB 的数据——对于一台台式机来说,这是不切实际的内存要求。因此,大型模型通常在分布式超级计算机上进行模拟,这很昂贵,并且将大规模建模限制在少数特权研究小组中。在这项工作中,我们描述了 GeNN 的扩展——我们的图形处理单元 (GPU) 加速脉冲神经网络模拟器——使其能够在触发脉冲时“即时”生成连接和突触权重,而不是存储和检索它们。我们发现 GPU 非常适合这种方法,因为它们具有原始计算能力,但由于内存带宽限制,在模拟脉冲神经网络时,这种能力通常未得到充分利用。我们用最新的 Macaque 视觉皮层模型证明了我们方法的价值,该模型由 4.13×106 个神经元和 24.2×109 个突触组成。使用我们的新方法,它可以在单个 GPU 上进行模拟 - 这是使更多研究人员能够进行大规模大脑建模的重要一步。我们的结果与在超级计算机上获得的结果相符,并且模拟在单个高端 GPU 上的运行速度比以前在 1000 多个超级计算机节点上的运行速度快 35%。
人类大脑图谱为来自不同大脑、在不同层次上表征大脑组织的数据提供了空间参考系统。细胞结构是大脑微观结构组织的基本原理,因为神经元细胞排列和组成的区域差异是连接和功能变化的指标。自动扫描程序和独立于观察者的方法是可靠识别细胞结构区域和实现可重复的大脑分离模型的先决条件。当从分析单个感兴趣区域转向对大量全脑切片进行高通量扫描时,时间成为一个关键因素。在这里,我们提出了一种新的工作流程,用于映射人类死后大脑大量细胞体染色组织切片中的细胞结构区域。它基于深度卷积神经网络 (CNN),该网络在带有注释的切片图像对上进行训练,中间有大量未注释的切片。该模型学会了以高精度创建所有缺失的注释,并且比我们之前基于独立于观察者的映射的工作流程更快。新的工作流程不需要预先对切片进行 3D 重建,并且对组织学伪影具有很强的鲁棒性。它可以高效地处理大小为数 TB 的大型数据集。该工作流程集成到 Web 界面中,无需深度学习和批量计算方面的专业知识即可访问。将深度神经网络应用于细胞结构映射开辟了新的视角,以实现高分辨率的大脑区域模型,引入 CNN 来识别大脑区域的边界。
有意识的代理人在未来替代方案中执行真正选择的能力是道德责任的先决条件。遍及古典物理学的决定论禁止自由意志破坏道德的基础,并排除了个人偏见的有意义的量化。为了解决这种僵局,我们利用量子物理学的特征不确定性,并得出对脑皮质网络将表现出的自由量的定量度量。中枢神经系统与周围环境之间的相互作用被证明是对神经成分进行量子测量的,该测量结果实现了从所得量子概率分布中选择的单个测量结果。替代物理结局的量子倾向中的固有偏见提供了不同数量的自由意志,可以通过学习神经系统选择的实际作用方案来量化预期信息的增益。例如,神经元电尖峰引起了确定性的突触囊泡在感觉或体育体途径突触中的释放,没有任何自由会表现出来。然而,在皮质突触中,囊泡释放是不确定的,概率为每个尖峰0.35。这使脑皮质具有超过100万亿的突触,每秒的自由度将超过96吨。尽管可靠的感觉或躯体运动信息的确定性传播可确保动物对身体环境的强大适应性,但由脑皮层做出的决策引发的行为反应的不可预测性对于避免捕食者而言是进化的优势。因此,自由意志可能具有生存价值,可以通过自然选择进行优化。
大规模脉冲神经网络模型模拟是增进我们对大脑动态和最终功能理解的重要工具。然而,即使是像老鼠这样的小型哺乳动物也具有大约 1 × 10 12 个突触连接,在模拟中,每个突触连接通常至少由一个浮点值表示。这相当于几 TB 的数据——对于一台台式机来说,这是不切实际的内存要求。因此,大型模型通常在分布式超级计算机上进行模拟,这很昂贵,并且将大规模建模限制在少数特权研究小组中。在这项工作中,我们描述了 GeNN(我们的图形处理单元 (GPU) 加速脉冲神经网络模拟器)的扩展,使其能够在触发脉冲时“即时”生成连接和突触权重,而不是存储和从内存中检索它们。我们发现 GPU 非常适合这种方法,因为它们具有原始计算能力,但由于内存带宽限制,在模拟脉冲神经网络时,这种能力通常未得到充分利用。我们用最新的 Macaque 视觉皮层模型证明了我们方法的价值,该模型由 4.13×106 个神经元和 24.2×109 个突触组成。使用我们的新方法,它可以在单个 GPU 上进行模拟 - 这是使更多研究人员能够进行大规模大脑建模的重要一步。我们的结果与超级计算机上的结果相符,并且模拟在单个高端 GPU 上的运行速度比以前在 1000 多个超级计算机节点上的运行速度快 35%。
近年来,卫星发射到太空的数量大大增加了。截至2024年11月,卫星跟踪网站“立即轨道” [1]列出了各种地球轨道中的10,500多个活跃卫星。大多数(80%)与通信1052相关的是地球观察(EO)卫星,每天产生数千吨数据。通过传统的射频(RF)通信渠道将这些数据传递到地球是不可行的,因此已经研究了其他解决方案,包括处理生成数据的卫星上的数据。该解决方案类似于引入边缘计算的引入,该计算是一种分布计算的模型,该模型更接近数据源,该模型是为了管理连接到通常称为Internet Internet(IoT)的Internet的设备的扩散。机器学习(ML)一直是Edge Computing成功的关键推动力。Furano等人于2020年底发表的一篇文章。[2]探讨了需要部署ML板上卫星以进行图像处理的一些令人信服的原因。这包括通过响应数据下载能力增加的传感器所产生的数据量的增长,限制了较小卫星中的功率,以下载大图像和地面电台可用性的问题。还指出了挑战,包括资源不足,板载存储或工作内存不足以及模型培训所需的数据集的有限可用性
CTO 评论/开场白:感谢委员会给我这个机会回答你们提出的许多技术和预算问题。技术项目的运营模式将 IT 基础设施的责任放在 OIT 内部。该基础设施包括 2 个数据中心、4,000 多台服务器、存储的 31 PB 数据以及为大约 1,200 个地点的行政部门提供服务的安全内联网。(注:1 PB 为 1,000 TB,1 TB 为 1,000 GB)。我们有 577 名员工,并有几名承包商;相应地,各种机构特定应用程序的管理和支持由机构负责,这也将业务知识放在了那里。机构是数据管理员,控制如何使用和可能共享这些数据。这种结构目前已经到位,始于上一届政府的一项行政命令(EO 225 – Christie,2017 年)。对于我们这样规模的企业来说,制定为期 3 年的战略计划并不罕见(通常,1 年更像是一个战术/行动计划,而 5 年计划太过遥远,无法涵盖重大技术或经济转变)。我们目前的战略计划旨在涵盖 2023 年至 2025 年期间。然而,该计划发布后不久,整个技术行业——事实上,整个格局——随着生成式人工智能的爆炸式引入而发生了巨大变化。因此,与州长的生成式人工智能工作组一致,OIT 计划对该计划进行适当的更新。总的来说,作为新泽西州为 920 多万居民提供所有服务基础设施的机构,我为我们的团队感到自豪,并深深感谢他们的所有努力,这些努力通常需要加班工作并响应优先请求。我很乐意回答委员会的任何问题。
随着发射的成本暴跌,现在比以往任何时候都更容易进入轨道。这导致了每年发射的卫星数量的扩散,导致每天的数据的链接下降。地面站收到的数据通常是未经处理的,这使得考虑到大型数据大小,并且并非所有数据都有用。这加上对实时数据处理的需求不断增长,导致对轨道处理解决方案的需求不断增长。在这项工作中,我们通过将不同的图像压缩技术应用于卫星数据来研究基于CNN的对象检测器在受约束设备上的性能。我们检查了Nvidia Jetson Nano和Nvidia Jetson Agx Xavier的功能;低功率,高性能计算机,具有集成的GPU,足够小,可以在板载纳米卫星上装配。我们仔细研究了对象检测网络,包括单镜头多伯克斯检测器(SSD)和基于区域的完全卷积网络(R-FCN)模型,这些模型已在DOTA上进行了预训练 - 在空中图像中用于对象检测的大型数据集。性能是根据执行时间,内存消耗和准确性来衡量的,并与包含具有两个功能强大GPU的服务器的基线进行比较。结果表明,通过应用图像压缩技术,我们能够改善执行时间和内存消耗,从而实现完全可运行的数据集。无损压缩技术的执行时间大约减少了10%,记忆消耗降低了3%,对准确性没有影响。虽然有损耗的压缩技术将执行时间提高了144%,并且记忆消耗减少多达97%。但是,它对准确性有重大影响,具体取决于压缩比。因此,这些压缩技术的应用和比率可能会根据特定任务所需的准确性水平而定。
1程序概述1.1背景生活科学是对生物体和生命过程的研究。它包含了几个古典科学学科,包括生物学,生物化学,医学,药房,化学和生物工程的各个方面,因此有助于解决从医疗保健和营养到全球变暖的许多社会挑战。传统上认为是基于定性实验的科学,但新技术的出现,例如下一代测序,超分辨率成像和高分辨率的质谱学,导致了大量的定量数据,为对生活的最基本过程提供了更深入了解的机会。根据伽利略的说法:“数学是上帝写的宇宙的语言”,或者用S. devi的话语“数学是解决自然构成的难题的系统努力”。定量生命科学将生物系统与数学联系起来。在上个世纪,由于主要的分子和处理细胞生物学和相互作用的不同分子和过程,活生物体仍然被认为对于定量评估和计算建模太复杂。此外,任何生物体都会暴露于多种环境因素和异种生物,从而进一步影响有机体功能和行为。在21世纪,情况发生了巨大变化。现代的实验技术出现了,允许对活有机体进行全面分析,这些生物被称为OMICS科学。例如,现代质谱可以在测量时间的几个小时内获取生物样品的分子组成和含量的信息。同样,如今,可以在数十亿个核苷酸中包含遗传信息的整个生物体的基因组进行测序,从而在数小时或几天内测序,从而在许多实验室中每月生成每月数据的Terabytes。同时,现代数据科学在过去十年中赶上了这一开发,提供了适当的硬件来存储和处理所获得的大量数据。借助机器学习和人工智能等新颖方法,科学家现在不仅能够管理大数据集,而且还可以从生物学数据库中提取有意义的见解,并最终从生物学数据库中提取知识。所有这些事态发展均要求一项主计划,反映了建筑商大学提供的生命科学中的这些发展。为了利用这一大量数据并在这个大数据时代进行成功的研究,科学家需要逻辑严格和数值素养,使他们能够分析和解释这些新的数据形式。特此信息技术领域的当前发展,例如高性能计算和机器学习,将证明针对这些目标的宝贵工具。此外,开发利用这些新技术的全部潜力的新假设和设计实验需要深入了解它们的范围和局限性。掌握这些技能对于参与生活科学领域的这一持续革命至关重要,并在学术界和工业的科学研究中扮演领导角色。因此,与古典生活科学相反,定量生命科学强调了通过实验测量获得的数值数据,并通过数学和现代数据科学的工具进行了处理和概括。
气候重新分析和气候投影数据集为研究人员,学生和讲师提供了潜力,可以从20世纪后半叶获得物理知识,全球,时间和空间连续的气候数据,并探索不同的潜在潜在未来气候。尽管这些数据在生物学,环境和社会科学中都具有重要用途,但潜在用户通常会面临处理和访问没有专业知识,设施或帮助的处理和访问无法克服的数据的障碍。因此,在研究和教育社区中,气候重新分析和投射数据目前已实质上不足。为了解决这个问题,我们提出了两个简单的“点击点击”图形用户界面:Google Earth Engine气候工具(Geeclimate),可访问气候重新分析数据产品;和Google Earth Engine CMIP6 Explorer(GeeCe),允许处理和提取CMIP6投影数据,包括创建自定义模型集合的能力。Geeclimt和Geece一起提供了可轻松访问387多个数据的数据,这些数据可以在常用的电子表格(CSV)或栅格(Geotiff)格式中输出,以帮助随后进行平地分析。两个工具中包含的数据包括:20种大气,陆地和海洋重新分析数据产品;根据1950 - 2022年ERA5-Land数据计算出的年度分辨率气候变量(与WorldCLIM相当)的新数据集; 34个模型模拟,SSP2-4.5和SSP5-8.5方案的34个模型模拟的CMIP6气候投影输出。还提供了使用两种工具数据的五个案例研究。新数据产品也可以轻松地添加到工具中,因为它们在Google Earth Engine数据目录中可用。这些表明Geeclimt和Geece是易于扩展的工具,可以删除多个进入的障碍,可以将气候重新分析和投影数据打开到新范围更广泛的用户。
经过两年的虚拟会议,第 67 届涡轮博览会在鹿特丹迎来了来自世界各地的参与者。为期五天的会议和为期三天的展览将展示当前的知识状态、正在开发的技术以及在实现零影响能源生产、发电、推进和运输方面可用的产品。这就是为什么今年的会议主题是“规划推进和动力的未来路线图”。关于这个主题,我很高兴邀请大家参加周一的主题演讲,会议将由执行会议主席 Christer Björkqvist 和我主持。会议将以 Uniper SE 能源公司首席运营官 Pedro Lopez Estebaranz 先生、法航工业公司发动机产品高级副总裁 Michael Grootenboer 先生、荷兰皇家航空公司工程与维护部、西门子能源股份公司能源转型技术高级副总裁 Thomas Thiemann 教授和壳牌全球国际解决方案全球液化天然气技术创新经理 Priscilla Chandrasekaran 女士介绍未来战略和需求作为开场。Turbo Expo 的显性知识将发表在会议论文集的 1,000 多篇论文以及许多学生海报中。此外,隐性知识将在各种教程、数十场小组会议和全体会议上与预计的 1,800 名与会者积极分享。数字化和增材制造是不可或缺的解决方案
