16:00‒17:30 Masaru Ibuka 礼堂口语 5 视觉编码 III 23 Altuğ Şimşek(博阿齐奇大学)*; Günhan Dündar(博阿齐奇大学)一种基于纹理的快速 8K 通用视频编码 (VVC) 帧内分区算法
分类:定义、数据概括、分析特性、属性相关性分析、挖掘类别比较、大型数据库中的统计测量、基于统计的算法、基于距离的算法、基于决策树的算法。聚类:简介、相似性和距离测量、分层和分区算法。分层聚类 - CURE 和 Chameleon。基于密度的方法 - DBSCAN、OPTICS。基于网格的方法 - STING、CLIQUE。基于模型的方法 - 统计方法、关联规则:简介、大项目集、基本算法、并行和分布式算法、神经网络方法。
表格数据占企业数据资产的80%以上,在各个领域至关重要。随着对隐私保护和数据共享限制的越来越关注,产生高质量的合成表格数据已经变得至关重要。最近的进步表明,大型语言模型(LLMS)可以通过利用半度信息并克服由一个热编码引起的高维数据的挑战来有效地产生现实的表格数据。但是,当前方法并未完全利用表中可用的丰富信息。为了解决这个问题,我们基于迅速的效能引入了能力(AIGT),这是一种利用元数据信息(例如表描述和模式)的新颖方法,以生成超高质量合成数据的提示。为了克服LLMS的令牌限制限制,我们提出了长令牌分区算法,使AIGT能够对任何规模的表进行建模。AIGT在20个公共数据集中的14个和两个真实行业数据集中达到了最新的性能。
多块结构化网格的分区会影响数值模拟的性能和可扩展性。最佳分区器应同时实现负载平衡和最小化通信时间。最先进的域分解算法在平衡处理器之间的负载方面做得很好。但是,即使工作得到很好的平衡,通信成本也可能不平衡。影响通信成本的两个主要因素是边切割和通信量。当前的分区器主要侧重于减少总通信量,并依赖于简单的技术,例如在最长边处切割,而这种技术不会捕获几何中的连通性。它们也没有考虑网络延迟和带宽对分区的影响,导致所有平台上的分区相同。此外,它们的性能测试大多采用平面 MPI 模型,其中分区对通信的影响被同一节点上内核之间的快速共享内存访问所隐藏。在本文中,我们提出了用于多块结构化网格的新分区算法,以解决当前分区器的上述限制。新算法包括一个成本函数,它不仅考虑了通信量和边切,还考虑了网络的延迟和带宽。我们尽量减少所有处理器之间的总体成本,以创建最佳分区。为了证明所提算法的效率
NISQ设备具有多个物理局限性和不可避免的嘈杂量操作,并且只能在量子机上执行小电路以获得可靠的结果。这导致了量子硬件未充分利用的问题。在这里,我们通过提出量子多编程编译器(QUMC)同时在量子硬件上执行多个量子电路来解决此问题并改善量子硬件吞吐量。这种方法还可以减少电路的总运行时间。我们首先介绍了一个并行的管理器,以选择适当数量的电路,以同时进行。第二,我们提出了两种不同的量子分区算法,以将可靠的分区分配给多个电路 - 一种贪婪和启发式。第三,我们使用同时的随机基准测试协议来表征串扰属性,并在量子分区过程中考虑它们,以避免同时执行期间的串扰效应。最后,我们增强了映射过渡算法,以使用插入的门数减少在硬件上使电路可执行。我们通过同时在IBM量子硬件上执行不同尺寸的电路来演示我们的QUMC方法的性能。我们还在VQE算法上研究了此方法,以减少其开销。
摘要 — 大脑模拟是人工智能领域的最新进展之一,它有助于更好地理解信息在大脑中的表示和处理方式。人脑极其复杂,因此只有在高性能计算平台上才能进行大脑模拟。目前,具有大量互连图形处理单元 (GPU) 的超级计算机用于支持大脑模拟。因此,超级计算机中的高吞吐量低延迟 GPU 间通信对于满足大脑模拟这一高度时间敏感的应用的性能要求起着至关重要的作用。在本文中,我们首先概述了当前使用多 GPU 架构进行大脑模拟的并行化技术。然后,我们分析了大脑模拟通信面临的挑战,并总结了应对这些挑战的通信设计指南。此外,我们提出了一种分区算法和一种两级路由方法,以实现多 GPU 架构中用于大脑模拟的高效低延迟通信。我们报告了在一台拥有 2,000 个 GPU 的超级计算机上模拟具有 100 亿个神经元的大脑模型的实验结果,以表明我们的方法可以显著提高通信性能。我们还讨论了尚待解决的问题,并确定了大脑模拟低延迟通信设计的一些研究方向。
摘要 大脑模拟作为人工智能领域的最新进展之一,有助于更好地理解信息在大脑中的表达和处理方式。人类大脑的极端复杂性使得大脑模拟只有在高性能计算平台上才可行。目前,用于支持大脑模拟的超级计算机具有大量互连的图形处理单元(GPU)。因此,超级计算机中的高吞吐量低延迟 GPU 间通信对于满足大脑模拟这一高度时间敏感的应用的性能要求起着至关重要的作用。在本文中,我们首先概述了当前使用多 GPU 架构进行大脑模拟的并行化技术。然后,我们分析了大脑模拟通信面临的挑战,并总结了应对这些挑战的通信设计指南。此外,我们提出了一种分区算法和一种两级路由方法,以实现多 GPU 架构中用于大脑模拟的高效低延迟通信。我们报告了在具有 2000 个 GPU 的超级计算机上模拟具有 100 亿个神经元的大脑模型(数字孪生大脑,DTB)的实验结果,以表明我们的方法可以显著提高通信性能。我们还讨论了尚待解决的问题,并确定了大脑模拟低延迟通信设计的一些研究方向。
我们提出了一种高效且可扩展的分区方法,用于将具有局部密集和全局稀疏连接的大规模神经网络模型映射到可重构的神经形态硬件上。计算效率的可扩展性,即实际计算所花费的时间,在超大型网络中仍然是一个巨大的挑战。大多数分区算法还难以解决网络工作负载的可扩展性问题,即寻找全局最优分区并有效地映射到硬件上。由于通信被视为此类分布式处理中最耗能和最耗时的部分,因此分区框架针对计算平衡、内存高效的并行处理进行了优化,目标是低延迟执行和密集的突触存储,并尽量减少跨各个计算核心的路由。我们展示了高度可扩展且高效的分区,用于连接感知和分层地址事件路由资源优化的映射,与随机平衡分配相比,递归地显着减少了总通信量。我们展示了我们在具有不同稀疏度和扇出度的合成网络、小世界网络、前馈网络和果蝇大脑半脑连接组重建方面的成果。我们的方法和实际结果的结合表明,这是一条有希望扩展到超大规模网络和可扩展硬件感知分区的途径。
摘要。据估计,50% 的伤寒病例可通过血培养 (BC) 检测出来。需要经过验证的临床标准来定义 BC 阴性的病例,这既有助于指导经验性抗生素治疗,也有助于更好地评估伤寒疫苗的保护程度。为了推导和验证定义 BC 阴性伤寒的临床规则,我们在印度加尔各答的 Vi 多糖 (ViPS) 伤寒疫苗集群随机有效性试验中评估了 70,865 人在 4 年的全面 BC 监测期间发生的 14,797 次发热发作,这些发热发作持续至少 3 天。使用递归分区算法制定了决策规则来预测 BC 证实的伤寒病例,诊断特异性为 97 – 98%。为了验证此规则作为 BC 阴性伤寒的定义,我们评估了该规则是否定义了 ViPS 疫苗可预防的培养阴性综合征。在一个训练个体子集中,我们确定了以下两条规则:规则 1:年龄 < 15 岁的患者,发热时间延长,并伴有测得的体温 ³ 100 F、头痛和恶心;规则 2:年龄 ³ 15 岁的患者,发热时间延长,并伴有恶心和肝脏可触及,但没有便秘。在另一个验证子集中,对于 2 岁以上的人群,ViPS 对根据这些规则定义的临床伤寒的调整保护效果为 33%(95% CI:4 – 53%)。我们已经定义并验证了使用新型疫苗探针方法预测 BC 阴性伤寒的临床规则。如果在其他环境中得到验证,该规则可能有助于指导临床护理并加强伤寒疫苗评估。