首席研究科学家IBM T.J.纽约州沃森研究中心(Watson Research Center)在过去几十年中,高性能计算领域(HPC)一直在建立超级计算机来解决科学中一些最大的挑战。HPC是尖端技术(GPU,低潜伏期互连等)的地方用于解决科学和数据驱动的问题。ML当前成功的关键要素之一是能够对大量培训数据进行计算。今天,将HPC技术应用于ML算法是人工智能进展的基本驱动力。在本课程中,您将学习通常应用于超级计算软件的HPC技术,以及如何应用它们以从ML算法获得最大性能。您还将了解建立高效ML系统的技术。在需要大量计算能力和能量的大型基础模型(例如GPT和Llama)的时代,这尤其变得更加至关重要。本课程将引入有效的AI计算技术,用于培训和推理。主题包括模型压缩,修剪,量化,知识蒸馏,神经结构搜索,数据/模型并行性和分布式培训。该课程基于Pytorch和Cuda编程。课程结束时的目标,您将能够:
法国巴黎地区 Atos Quantum Lab 招聘研究工程师 Atos Quantum Lab ( https://atos.net/en/insights-and-innovation/quantum- computing ) 正在开放两个量子计算研究工程师的永久职位。 简介: 量子物理学(理论或实验)或量子信息科学博士学位。 至少 2 年量子计算研究经验,博士后或行业职位均可。 精通 Python 3 科学编程,最好是 C++。 了解软件工程者优先。 曾有资助项目(国家或国际)经验。 了解高性能编程技术者优先(OpenMP、MPI、OpenCL、Cuda)。 要求英语流利。 使命:参与设计和开发 QLM 的高级功能,QLM 是世界上最先进、使用最广泛的量子计算平台之一。这主要包括科学软件代码:量子过程的数值模拟、量子编译算法……对学术合作项目的科学贡献:www.neasqc.eu、www.aqtion.eu、www.pasquans.eu……指导博士生和本科生。发表研究论文,偶尔在大学授课(研究生水平)。地点:les Clayes sous Bois – 凡尔赛郊区申请:量子计算研究工程师 (H/F) https://jobs.atos.net/job/Les-Clayes-78-Quantum-Computing-Software-Engineer- %28HF%29-Ile/645634801/
E-BOOKS TITLES 1 Geometric Algebra for Computer Science 2 Customizable Embedded Processors 3 Probabilistic Methods for Bioinformatics 4 IPv6 Advanced Protocols Implementation 5 Microscope Image Processing 6 How to Build a Digital Library 7 Smart Things: Ubiquitous Computing User Experience Design 8 GPU Computing Gems Emerald Edition 9 CUDA Application Design and Development 10 Principles of Big Data 11 The Basics of Cyber Warfare 12 Accelerating MATLAB with GPU Computing 13 High-Performance Embedded Computing 14 The Basics of Hacking and Penetration Testing 15 Face Detection and Recognition on Mobile Devices 16 Python Forensics 17 Building an Information Security Awareness Program 18 Emerging Trends in Image Processing Computer vision & Pattern 19 Google Hacking for Penetration Testers 20 Practical Scientific Computing 21 Hack the Stack 22 Reverse Engineering Code with IDA Pro 23 Eleventh Hour安全+ 24剖析黑客:F0RB1DD3N网络,Rev Ed 25编码渗透测试器26黑客攻击网络应用程序27暴力Python 28网络入侵分析29高性能平行性珍珠30如何攻击和捍卫您的网站31
人工智能与机器人技术中心(CAIR)香港科学与创新研究所(医学模拟集团)香港,中国研究助理7月。2024 - 2024年11月,可区分的模拟控制和触觉模拟循环集成Hoyoverse(模拟和高性能小组)上海,中国计算机图形研究工程师7月。2023 - 3月。2024 GPU友好的实时大型布料和发型,虚幻发动机开发,实时空间音频Ø设计代码库,用于高性能布和发型gpu求解器,使用高级CUDA功能和cudagraph。Ø将我们的求解器与虚幻的引擎相结合,并为虚拟角色“ Lumi”建立数字人类项目。Ø优化用于CPU并行化布模拟管道的虚幻混乱系统。Ø开发新的基于GPU的实时空间音频并与Unity Engine集成。Mihoyo(仿真和高性能小组)上海,中国模拟研究工程师(实习生)3月2022 - 2022年9月GPU友好的布求解器开发Ø设计新的颜色图形算法,用于在布模拟中高度平行的数值方法。Ø与布料模拟中的高斯 - 塞德尔求解器相比,具有更快的优化速度和更少的伪影。Ø实施GPU内核发射管道用于布模拟。w orking a Wibers
受污染的奶酪,但这种物种越来越多地据报道,该物种越来越多地显示出高丙核麦克风的奶酪,这是人类侵入性感染的原因[4-6]。在这里,我们提供了从头基因组组装和临床D. catenulata型CBS565的注释。D. catenulata型CBS565在1926年是从一个痴呆症患者的粪便中分离出来的,当时居住在波多黎各[1]。基因组DNA提取。使用连接测序试剂盒(SQK-LSK109; ONT,UK,UK)和本机条形码套件(EXP-NBD114; ONT)进行连接测序试剂盒(SQK-LSK109; ONT)进行纳米孔测序文库制备。根据制造商的协议,将两个库运行到奴才流中心(Flo-Min106; ont)上。使用Guppy v5.0.16对原始的纳米孔读数进行了基础?B9FCD7B5B(ONT)使用设置 - 浮雕flo-min106-Kit SQK-LSK109-Barcode_kits exp-nbd114-device cuda:0,由消除电源和条形码放在同一软件中。使用参数-nano- raw \ fastq [ - uot-dir \ directory \ div> flye v2.9(https://github.com/ fenderglass/flye; [8])进行 de Novo基因组组装。使用GenomeQC评估了组装的基因组质量[9]。总基因组大小为14,464,696 bp,n50为2,438,920 bp,在9个重叠群上分配(范围为3,918,888-888-370,337 bp;
任何模型(SAM)具有先进的分割分割,但受高分辨率图像上的高计算成本的限制。这需要下采样以满足GPU的约束,牺牲了高精度交互式分割所需的细粒度。为了解决SAM的局限性,我们专注于视觉长度外推,并提出了一个名为HRSAM的轻量级模型。外推可以使接受低分辨率的HRSAM推广到高分辨率。我们首先找到推断和注意力评分之间的联系,这使我们在Swin的注意力下基于HRSAM。然后,我们使用CUDA优化的有效记忆注意以加速HRSAM引入灵活的局部关注(FLA)框架。在FLA中,我们实施了Flash Swin的注意,与传统的Swin注意相比,速度达到了35%的速度,并提出了一种仅KV的填充机制来增强术语。我们还开发了使用状态空间模型有效扩展HRSAM的受访场的自行车扫描模块。我们通过添加锚固图进一步开发了FLA中的HRSAM ++,从而以少量的计算成本为外推提供了多尺度数据和更大的接受场。实验表明,在标准培训下,HRSAMS仅占延迟的38%。随着SAM-依据,推断会使HRSAM能够在较低的延迟下胜过教师模型。进一步的填充能够显着超过先前的SOTA。代码可在https://github.com/youhuang67/high-resolution-segment-anything.git
最近的人工智能(AI)激增,其特征是大型语言模型(LLM)的突出性,已迎来了全球的基本转变。,除了这些进步之外,围绕LLMS合法性的担忧已经增长,对其广泛的应用构成了法律挑战。加剧了这些关注点,LLM的参数通常被视为知识产权,限制了直接调查。在本研究中,我们解决了AI立法领域中的基本挑战:建立LLMS产生的产出的真实性的必要性。为了解决这个问题,我们提出了ZKLLM,它是为我们所知的为LLMS量身定制的首届专业零知识证明。解决深度学习中非偏心操作的持续挑战时,我们介绍了Tlookup,这是一个平行的查找参数,专为深度学习中的非偏振量张量操作而设计,提供了一个没有渐近性高架的解决方案。此外,在利用Tlookup的基础上,我们介绍了Zkattn,这是一种专门的零知识证明,为注意机制而设计,精心平衡运行时间,内存使用和准确性的考虑。在我们完全并行的CUDA实现的能力下,ZKLLM旨在在LLMS上实现有效的零知识可验证计算的重要大步。非常重要的是,对于拥有130亿个参数的LLMS,我们的方法可以在15分钟内为整个推理过程提供正确的证明。由小于200 kb的最终证明旨在维护模型参数的隐私,从而确保没有无意的信息泄漏。
胶质母细胞瘤手术切除是神经外科医生的问题任务。肿瘤完全切除可提高患者的愈合机会和预后,而过度切除可能导致神经缺陷。然而,外科医生的视力几乎无法追溯肿瘤的范围和边界。的确,大多数手术过程都会导致小计切除术。组织病理学测试可能会完全消除肿瘤,尽管由于组织检查所需的时间是不可行的。几项研究报告了具有独特的分子特征和特性的肿瘤细胞。高光谱成像(HSI)是一种新兴的,非接触,非离子化,无标签和微创光学成像技术,能够在分子水平上提取有关观察到的组织的信息。在这里,我们利用了广泛的数据增强,转移学习,U-NET ++和DEEPLAB-V3+体系结构,以执行术中胶质母细胞瘤性超光谱图像的自动端到端分割,以符合竞争性处理时间和涉及金额标准过程的竞争性处理时间和细分结果。基于旋转框架提供的地面真理,我们大大改善了HSIS的处理时间,从而实现了针对手术开放式颅骨手术期间实时加工的胶质母细胞瘤的端到端分段,从而改善了金标准ML Pipeline。我们测量了有关MATLAB 2020a提供的标准CUDA环境的竞争推论时间。此外,我们在定性和定量上评估了分割结果。最快的平行版本最快的螺旋叶素得以阐述数据库中最突出的图像,而我们的方法论则在0.29±0.17 s中执行分割推断,因此对处理对处理的21秒构成了实时符合性的约束。
摘要 - 基因组分析是对基因的研究,其中包括对基因组特征的识别,测量或比较。基因组学研究对我们的社会至关重要,因为它可以用于检测疾病,创建疫苗和开发药物和治疗方法。作为具有大量并行处理能力的一种通用加速器,GPU最近用于基因组学分析。开发基于GPU的硬件和软件框架用于基因组分析正在成为一个有希望的研究领域。为了支持这种类型的研究,需要基准,以具有代表性,并发和多种应用程序的应用程序。在这项工作中,我们创建了一个名为Genomics-GPU的基准套件,其中包含10种广泛使用的基因组分析应用。它涵盖了DNA和RNA的基因组比较,匹配和聚类。我们还调整了这些应用程序来利用CUDA动态并行性(CDP),这是一个支持动态GPU编程的最新高级功能,以进一步提高性能。我们的基准套件可以作为算法优化的基础,也可以促进GPU架构开发进行基因组学分析。索引术语 - 基因组学,生物信息学,基准测试,GPU,加速计算,基因组分析,计算机体系结构。I。研究基因组序列分析是指组织ISM的DNA序列的研究。该程序具有许多重要的应用,例如大流行爆发追踪,早期癌症检测[79],药物发育[43]和遗传疾病鉴定[87]。要通过通过四个字母(A,C,T和G)(也称为碱基或核苷酸)的字符串的形式将DNA分子通过分析生物体的基因组构成分析。确定碱基序列的过程称为基因组测序[30]。比较和发现生物学序列之间差异的过程称为序列比对[67]。过去十年中,基因组数据库的指数增长,需要在计算工具的帮助下进行大量数据。结果,已经开发了几种用于基因组分析的工具,例如BLAST [57]和GATK [58]。为了提高性能,某些基因组测序框架(例如Parasail [31]和KSW2 [53])采用了具有SIMD能力的CPU。他们利用SIMD指令提供的并行性来执行矩阵计算,通过在多个操作数中运行同一矢量命令。FPGASW [39]使用FPGA中的大量执行单元创建线性收缩期
○ 与 A100 相比,新的第四代 Tensor Cores 的芯片间速度提高了 6 倍,包括每个 SM 的加速、额外的 SM 数量和 H100 的更高时钟频率。在每个 SM 的基础上,与上一代 16 位浮点选项相比,Tensor Cores 在等效数据类型上提供 2 倍的 A100 SM MMA(矩阵乘法累加)计算速率,使用新的 FP8 数据类型提供 4 倍的 A100 速率。Sparsity 功能利用深度学习网络中的细粒度结构化稀疏性,使标准 Tensor Core 操作的性能翻倍。○ 新的 DPX 指令使动态规划算法比 A100 GPU 加速高达 7 倍。两个示例包括用于基因组学处理的 Smith-Waterman 算法和用于在动态仓库环境中为机器人车队寻找最佳路线的 Floyd-Warshall 算法。○ 与 A100 相比,IEEE FP64 和 FP32 芯片间处理速度提高了 3 倍,这是由于每个 SM 的时钟对时钟性能提高了 2 倍,再加上 H100 的额外 SM 数量和更高的时钟。○ 新的线程块群集功能允许以大于单个 SM 上单个线程块的粒度对局部性进行编程控制。这通过在编程层次结构中添加另一个级别来扩展 CUDA 编程模型,现在包括线程、线程块、线程块群集和网格。集群支持跨多个 SM 同时运行的多个线程块同步并协作获取和交换数据。○ 新的异步执行功能包括一个新的张量内存加速器 (TMA) 单元,它可以在全局内存和共享内存之间非常高效地传输大块数据。TMA 还支持集群中线程块之间的异步复制。还有一个新的异步事务屏障,用于执行原子数据移动和同步。● 新的 Transformer Engine 结合使用软件和定制的 Hopper Tensor Core 技术,专门用于加速 Transformer 模型训练和推理。Transformer Engine 可智能管理并动态选择 FP8 和 16 位计算,自动处理每层 FP8 和 16 位之间的重新转换和缩放,与上一代 A100 相比,在大型语言模型上提供高达 9 倍的 AI 训练速度和高达 30 倍的 AI 推理速度。● HBM3 内存子系统提供的带宽比上一代增加了近 2 倍。H100 SXM5 GPU 是世界上第一款配备 HBM3 内存的 GPU,可提供一流的 3 TB/秒内存带宽。● 50 MB L2 缓存架构可缓存大量模型和数据集以供重复访问,从而减少 HBM3 的访问次数。● 第二代多实例 GPU (MIG) 技术为每个 GPU 实例提供大约 3 倍的计算能力和近 2 倍的内存带宽