胰腺导管腺癌(PDAC)是全球最致命的癌症之一,几十年来,生存率几乎没有提高。在精确医学时代,量身定制的针对疾病突变的治疗策略彻底改变了癌症治疗。下一代测序发现,所有PDAC肿瘤中最高三分之一含有DNA损伤修复(DDR)基因的有害突变,突显了这些基因在PDAC中的重要性。DDR基因突变促进肿瘤发生,治疗反应和随后的抗性的机制仍未完全了解。因此,存在阐明这些过程并发现相关的治疗药物组合和策略以靶向PDAC中DDR缺乏效率的机会。但是,临床前研究的限制是由于适当的实验室实验模型的局限性。有效概括其原始癌症的模型倾向于提供高水平的预测性和对临床前发现向诊所的有效翻译。在这篇综述中,我们概述了DDR表达在PDAC中的出现和作用,并提供了针对这些途径的临床试验和临床上模型的概述,例如2D细胞系,3D类器官和小鼠模型[基因工程的小鼠模型(GEMM),以及患者的Xenograft(PDX)(PDX)使用了PDAC DRDRECTICTINCTICTICTICTICT in PDAC DDRDDRDRDDRDRDDRDDRDRDDRDRDDRDRDDRDRDDRDRDDRDRDDRDRDDRDRDDRDRDDRDRDDRDRDDRDR。
摘要 - 在图形处理单元(GPU)上执行的深神经网络(DNN)的可靠性评估是一个具有挑战性的问题,因为硬件体系结构非常复杂,软件框架由许多抽象层组成。虽然软件级故障注入是评估复杂应用程序可靠性的一种常见且快速的方法,但它可能会产生不切实际的结果,因为它对硬件资源的访问有限,并且采用的故障模型可能太幼稚(即单位和双位翻转)。相反,用中子光束注射物理断层提供了现实的错误率,但缺乏故障传播可见性。本文提出了DNN故障模型的表征,该模型在软件级别结合了中子束实验和故障注入。我们将运行一般矩阵乘法(GEMM)和DNN的GPU暴露于梁中子,以测量其错误率。在DNNS上,我们观察到关键错误的百分比可能高达61%,并表明ECC在减少关键错误方面无效。然后,我们使用RTL模拟得出的故障模型进行了互补的软件级故障注入。我们的结果表明,通过注射复杂的断层模型,Yolov3的误导率被验证为非常接近通过光束实验测得的速率,该速率比仅使用单位倒换的断层注射测量的频率高8.66倍。
Aladdin [1] 是一个预 RTL 功耗/性能模拟器,旨在实现以加速器为中心的系统的快速设计空间搜索。该框架将算法的高级语言描述作为输入(C 或 C++),并使用动态数据依赖图 (DDDG) 作为加速器的表示,而无需生成 RTL。从无约束程序 DDDG(对应于加速器硬件的初始表示)开始,Aladdin 对图形应用优化和约束,以创建加速器活动的真实模型。我们针对一系列应用,通过手写 Verilog 和商用高级综合 (HLS) 工具对加速器的 RTL 实现验证了 Aladdin。我们的结果表明,与传统 RTL 流程生成的加速器设计相比,Aladdin 可以高精度地模拟功耗、性能和面积,误差在 10% 以内,同时以更少的设计工作量和时间提供这些估算。 Aladdin 可以捕捉加速器设计的权衡,从而为异构系统(包括加速器、通用核心和共享内存层次结构,例如在移动 SoC 中看到的)提供新的架构研究方向。特别是,Aladdin 允许用户在异构环境中探索加速器的定制和共享内存层次结构。例如,在使用 GEMM 基准的案例研究中,Aladdin 通过评估整个系统的更广泛设计空间发现了重要的高级设计权衡。我们设想 Aladdin 既可以用作加速器模拟器,也可以用作未来多加速器系统的设计空间探索工具。
肺癌是全球癌症相关死亡的主要原因。肺腺癌 (LUAD) 是最常见的组织学亚型,占所有病例的 40%。虽然现有的基因工程小鼠模型 (GEMM) 重现了人类 LUAD 的组织学进展和转录进化,但它们耗时且技术要求高。相比之下,细胞系移植模型快速灵活,但这些模型无法捕捉疾病进展的全部范围。类器官技术提供了一种创建下一代癌症模型的方法,该模型整合了自体系统和基于移植的系统的最有利特征。然而,目前缺乏强大而可靠的 LUAD 类器官平台。在这里,我们描述了在类器官培养中持续扩增小鼠肺泡 2 型 (AT2) 细胞(LUAD 的主要起源细胞)的优化条件。这些类器官表现出 AT2 细胞的典型特征,包括标记基因表达、层状体的存在以及分化为 AT1 谱系的能力。我们利用该系统开发了灵活且多功能的免疫功能正常的类器官模型,用于 KRAS 、 BRAF 和 ALK 突变型 LUAD。值得注意的是,类器官肿瘤表现出广泛的负担和完全渗透性,并且在组织病理学上与原发肿瘤没有区别。总之,该类器官平台是一个功能强大、用途广泛的新型 LUAD 研究模型系统。
随着量子硬件的快速发展,量子电路的高效模拟已变得不可或缺。主要的模拟方法基于状态向量和张量网络。随着目前量子器件中量子比特和量子门的数量不断增加,传统的基于状态向量的量子电路模拟方法由于希尔伯特空间的庞大和广泛的纠缠而显得力不从心。因此,野蛮的张量网络模拟算法成为此类场景下的唯一可行解决方案。张量网络模拟算法面临的两个主要挑战是最优收缩路径寻找和在现代计算设备上的高效执行,而后者决定了实际的效率。在本研究中,我们研究了此类张量网络模拟在现代 GPU 上的优化,并从计算效率和准确性两个方面提出了通用的优化策略。首先,我们提出将关键的爱因斯坦求和运算转化为 GEMM 运算,利用张量网络模拟的具体特性来放大 GPU 的效率。其次,通过分析量子电路的数据特性,我们采用扩展精度保证模拟结果的准确性,并采用混合精度充分发挥GPU的潜力,使模拟速度更快、精度更高。数值实验表明,在Sycamore的18周期情况下,我们的方法可以将随机量子电路样本的验证时间缩短3.96倍,在一台A100上持续性能超过21 TFLOPS。该方法可以轻松扩展到20周期的情况,保持相同的性能,与最先进的基于CPU的结果相比加速12.5倍,与文献中报道的最先进的基于GPU的结果相比加速4.48-6.78倍。此外,本文提出的策略对
摘要 - 基于CPU的推理可以作为外芯片加速器的拟合作用。在这种情况下,由于其高效率,新兴的矢量体系结构是一个有前途的选择。然而,卷积算法和硬件实现的庞大设计空间使设计选项的选择具有挑战性。在本文中,我们介绍了针对基于CPU的卷积神经网络(CNN)推断的共同设计的未来矢量体系结构的持续研究,重点是IM2Col+Gemm和Winograd内核。使用GEM5模拟器,我们探讨了几个硬件微体系特征的影响,包括(i)向量泳道,(ii)向量长度,(iii)缓存尺寸和(iv)将向量单元集成到CPU管道中的选项。In the context of im2col+GEMM, we study the impact of several BLIS-like algorithmic optimizations such as (1) utilization of vector registers, (2) loop unrolling, (3) loop reorder, (4) manual vectorization, (5) prefetching, and (6) packing of matrices, on the RISC-V Vector Extension and ARM-SVE ISAs.我们使用Yolov3和VGG16网络模型进行评估。我们的共同设计研究表明,BLIS样的优化对所有类型的矢量微体系结构都不是有益的。我们还证明,与我们优化的CNN内核相比,较长的矢量长度(至少为8192位)和较大的缓存(256MB)可以提高5倍的性能,而512位和1MB的载体长度则可以提高性能。我们的共同设计研究还表明,与IM2Col+GEMM相比,Winograd需要较小的缓存尺寸(高达64MB)。在Winograd的背景下,我们通过使用每个通道的8×8图块来介绍跨输入/输出通道之间的新颖的瓷砖并行方法,以对向量长度不可知(VLA)体系结构进行载体化算法。我们的方法利用了较长的向量长度并提供了高内存重复使用,与我们在Fujitsu A64FX处理器上优化的IM2Col+Gemm方法相比,对于具有3×3内核大小的非弯曲卷积层的性能提高了2.4倍。索引术语 - CNN,GEMM,Winograd,长量架构,向量长度不可知论ISA,共同设计,优化
耳廓的空间效应对神经形态语音去噪的影响 Ranganath Selagamsetty、Joshua San Miguel 和 Mikko Lipasti IEEE 神经启发计算元素会议 (NICE),2025 年 3 月,10 页 TaroRTL:使用基于协程的异构任务图调度加速 RTL 模拟 Dian-Lun Lin、Umit Ogras、Joshua San Miguel 和 Tsung-Wei Huang 国际欧洲并行和分布式计算会议 (Euro-Par),2024 年 8 月,15 页 Carat:为无乘法器 GEMM 解锁值级并行性 Zhewen Pan、Joshua San Miguel 和 Di Wu ACM 国际编程语言和操作系统架构支持会议 (ASPLOS),2024 年 4 月,17 页 // IEEE Micro Top Picks 2025 荣誉提名 // 杰出文物奖 NvMR:用于间歇计算的非易失性存储器重命名 Abhishek Bhattacharyya、Abhijith Somashekhar 和 Joshua San Miguel ACM/IEEE 国际计算机体系结构研讨会 (ISCA),2022 年 6 月,13 页,16.8% 接受率 // 最佳论文奖 uBrain:一元脑机接口 Di Wu、Jingjie Li、Zhewen Pan、Younghyun Kim 和 Joshua San Miguel ACM/IEEE 国际计算机体系结构研讨会 (ISCA),2022 年 6 月,14 页,16.8% 接受率 uSystolic:字节爬行一元脉动阵列 Di Wu 和 Joshua San Miguel IEEE 国际高性能计算机体系结构研讨会 (HPCA),2022 年 4 月,13 页,30.5% 接受率 保持自己的车道:具有低开销多数据包旁路的 NoC Hossein Farrokhbakht、Paul Gratz、Tushar Krishna、Joshua San Miguel 和 Natalie Enright Jerger IEEE 高性能计算机架构国际研讨会 (HPCA),2022 年 4 月,14 页,接受率为 30.5% 流式准确度:表征随机计算中的早期终止 Hsuan Hsiao、Joshua San Miguel 和 Jason Anderson 亚洲和南太平洋设计自动化会议 (ASP-DAC),2022 年 1 月,6 页,接受率为 36.5%