我们提供的软件SBIAX旨在使用机器学习和物理研究人员使用密度估计SBI技术来运行贝叶斯推断。这些模型可以轻松地适合代码中的多加速器培训和推断。该软件 - 用JAX编写(Bradbury等,2018) - 允许将最先进的生成模型整合到SBI上,包括连续正常化的流量(Grathwohl等,2018),匹配流量(Lipman等人,2023年,2023年),掩盖了自动化的自动化型(papamakarian et aul ther and all。在代码中实现。该代码具有与Optuna(Akiba等,2019)的集成(Akiba et al。,2019年)的超参数优化框架,该框架将用于确保一致的分析,用于快速MCMC采样的BlackJax(Cabezas等,2024)用于Neural网络方法,用于快速MCMC采样(Kidger&Garcia,2021)。SBIAX的设计允许训练和采样新的密度估计算法,只要它们符合SBIAX中所示的简单且典型的设计模式。
许多现实世界中的问题需要从棘手的多维分布中取样。这些样本可以通过使用蒙特卡洛近似值来估计其统计特性来研究物理系统的行为。通过此类分配进行抽样一直是一个挑战,是通过扰动近似或马尔可夫链蒙特卡洛(MCMC)技术进行的[1]。如果变量强烈耦合并且没有小参数,则无法应用扰动近似,并且使用MCMC方法。为了确保通过MCMC方法生成的样品的渐近精确性,使用了大都市 - 危机算法(MH),该算法(MH)使用模型和目标密度,即使仅知道这些密度仅为比例性恒定,也可以应用。但是,MCMC技术具有其局限性,例如相关样本的产生,阶段过渡期间的临界减速以及较高的仿真成本。在过去的几年中,已经开发了几种基于学习的方法来从此类分布中进行采样。生成对抗网络(GAN)[2-4]和变异自动编码器(VAE)[5,6]在给定的目标分布的给定样本中学到的采样分布中表现出了显着的功效。vaes是近似密度模型,因为它们为样品提供了近似的密度值。gans生成样品,而没有明确估计样品的密度值;因此,它们也称为隐式密度模型。他们两个都不能保证样品的精确性。这些此外,由于它们没有提供精确的模型密度,因此不能使用MH等方法对其进行修改或偏低。另一方面,基于流量的生成模型,例如标准化流(NF)[7,8]明确对目标分布进行建模并提供精确的模型密度值。它们与MH一起用于保证样品的精确性。在物理应用中,人们对通过物理配置(例如,经典磁体的每种自旋的方向)对概率分布进行取样感兴趣,这些分布是通过物理模型进行参数的。这些物理模型取决于一组参数,在以下内容中称为C,例如温度t或耦合常数。例如,在ISING模型和XY模型中,系统的属性取决于温度和最接近的近纽布交换(或包括在内的其他邻居或环形交换)耦合常数。改变这些参数也可以通过相变驱动系统,该相变已通过机器学习技术进行了研究[9-17]。建模此类分布的一种方法是为每个外部参数的每个设置重新训练生成模型。为了研究系统的性质,需要样本来进行外部参数的不同设置。这会导致在不同的环境中反复训练该模型,从而增加培训成本。许多晶格理论已经使用标准化流[18-20]建模。建模此类分布的替代方法是训练以外部参数为条件的生成模型。
动机:由于固有的热DNA运动,DNA双螺旋的两链在局部和自发分离并在活细胞中重新组合。这种动力学导致双螺旋中的瞬态开口,被称为“ DNA呼吸”或“ DNA气泡”。在广泛的生物学过程中,例如转录,复制和转录因子结合,形成局部瞬态开口的倾向很重要。然而,由于许多因素的复杂相互作用,例如温度,盐含量,DNA序列,氢键,基础堆积等,对这些现象的建模和计算机模拟仍然是一个挑战。结果:我们提出了Pydna-EPBD,这是扩展的Peyrard-Bishop-Dauxois(EPBD)非线性DNA模型的并行软件实现,该模型使我们能够详细描述DNA动力学的某些特征。pydna-epbD生成了基因组规模的基本量表,其基本水平开口,基本漏洞的概率,DNA气泡概率以及特征性动态长度的计算,表明碱基对统计学上的统计学数量在统计上显着地通过单点突变使用Markov Chain Monte Carlo(MCMC)Algor(MCMC)。
限制的玻尔兹曼机器(RBM)是一种基于能量的,无方向的图形模型。它通常用于无监督和监督的机器学习。通常,RBM是使用对比差异(CD)训练的。但是,使用CD的训练很慢,无法估计对数可能成本函数的确切梯度。在这项工作中,使用量子退火器(D-Wave 2000q)计算了对RBM梯度学习的模型期望,在CD中,获得样品的速度比Markov Chain Monte Carlo(MCMC)快。使用量子退火训练的RBM的训练和分类结果与基于CD的方法进行了比较。相对于分类精度,图像重建和对数可能的结果,将两种方法的性能进行比较。分类精度结果表明两种方法的性能可比性。图像重建和对数可能性结果表明,基于CD的方法的性能提高了。表明,从量子退火器获得的样品可用于在64位“条形和条纹”数据集上训练RBM,其分类性能类似于经过CD培训的RBM。尽管基于CD的培训表现出改进的学习成绩,但是使用量子退火器的训练可能会有用,因为它消除了CD的计算昂贵的MCMC步骤。
马尔可夫链蒙特卡洛(MCMC)方法的实现需要面对两个有趣的挑战:准确表示先验信息和可能性功能的效果。通常可以通过标准减少维度降低技术(例如主成分分析(PCA))来促进先前分布的定义和采样。此外,基于PCA的分解可以基于多项式混沌扩展(PCE)实现准确的替代模型。wever,具有鲜明对比的内在地质先验可能需要先进的维度减少技术,例如深生成模型(DGM)。尽管适用于先前的抽样,但这些DGM对替代建模构成了挑战。在此贡献中,我们提出了一种MCMC策略,该策略将DGM的高重建性能以变量自动编码器的形式与PCA – PCE替代建模的准确性相结合。此外,我们还引入了一个具有物理信息的PCA分解,以提高准确性并减少与替代建模相关的综合负担。在使用通道的子表面结构的贝叶斯地面雷达旅行时间断层扫描的背景下,我们的方法是例证的,提供了准确的重建和显着的加速速度,尤其是当全相正向模型的计算计算时。
摘要生物学中的许多数据是正态分布的,t检验,差异,回归和相关性的分析以分析这些类型的数据。但是,许多寄生虫数据并未遵循正态分布,包括卵子计数,蠕虫负担,抗体反应以及嗜酸性粒细胞和肥大细胞反应的组织学计数。因此,传统的实验设计可能不足,而传统的分析方法可以给出误导性的结果。合适的分析方法包括通用线性模型,广义线性模型,混合模型和蒙特卡洛·马尔可夫链(MCMC)Pro cedures。幸运的是,可以进行这些分析的程序可以广泛且自由使用。将使用自然和故意感染的数据来说明这些程序的使用。
描述传统的分阶段程序仅限于二倍体生物。我们的方法使用马尔可夫链蒙特卡洛(MCMC)方法修改了li和stephens算法,并构建了一个通用框架,该框架允许在多个感染设置中进行单倍型搜索。此软件包主要是PF3K项目的一部分,该项目是使用最新的测序技术的全球合作,可提供对疟疾寄生虫恶性疟原虫自然变化的高分辨率视图。寄生虫DNA,通常含有一个以上的寄生虫菌株,比例未知。此软件包用于反值使用混合单倍型,并报告每个样品中的混合物比例。
[1] T. Cui和F. Pillichshammer(2025)。伯恩斯坦近似及以后:通过基本概率理论的证明,元素der Mathematik,被接受,Arxiv:2307.11533。[2] T. Cui,J。Dong,A。Jasra和X. T. Tong(2025)。数值MCMC的收敛速度和近似精度,应用概率的进步,57(1),doi:10.1017/apr.2024.28。[3] T. Cui,G。Ditommaso,R。Scheichl(2024)。多级维度独立于可能性的MCMC,用于大规模反问题,反问题,40,035005。[4] Y. Zhao和T. Cui(2024)。张量训练方法用于状态空间模型中的顺序状态和参数学习,机器学习研究杂志,接受,ARXIV:2301.09891。[5] T. Cui,H。de Sterck,A。D. Gilbert,S。Polishchuk和R. Scheichl(2024)。多层次的蒙特卡洛方法用于随机对流扩散特征值问题,《科学计算杂志》,99(3),1-34。[6] T. Cui,S。Dolgov和R. Scheichl(2024)。使用张量列车进行的深度重要性采样,并适用于先验和后验罕见的事件估计,《 Siam Scientific Computing杂志》,46(1),C1 – C29。[7] T. Cui,S。Dolgov,O。Zahm(2023)。可扩展的有条件深度逆罗森布拉特使用张量列和基于梯度的尺寸降低,计算物理学杂志,485,112103。[8] T. Cui,S。Dolgov(2022)。使用平方逆的Rosenblatt传输,计算数学基础,22(6),1863– 1922年对张量列车的深度组成。[9] T. Cui,X。T。Tong和O. Zahm(2022)。先前的标准化了贝叶斯反问题,逆问题,38(12),124002。[10] T. Cui,X。T. Tong(2022)。统一的绩效分析对信息性的子空间方法,Bernoulli,28(4),2788–2815。[11] O. Zahm,T。Cui,K。Law,Y。Marzouk和A. Spantini(2022)。非线性贝叶斯逆问题的认证维度降低,计算数学,91(336),1789–1835。[12] T. Cui,Z. Wang和Z. Zhang(2022)。通过非线性流变学,计算物理学的通信,ARXIV:2209.02088,一种用于冰川建模的变分神经网络方法。[13] L. Bian,T。Cui,B.T。 Yeo,A。Fornito,A。Razi,J。Keith(2021)。 使用功能性MRI,Neuroimage,244,118635识别大脑状态,过渡和社区。div> [14] T. Cui,O。Zahm(2021)。 无数据的贝叶斯反问题,反问题的无数据信息尺寸减小,37(4),045009。 [15] J. Bardsley,T。Cui(2021)。 基于优化的非线性层次统计反问题的MCMC方法,《不确定性量化》的暹罗/ASA期刊,9(1),29-64。 [16] C. Fox,T。Cui,M。Neumayer(2020)。 随机降低了效率的大都市量的前向模型,并应用于地下流体流量和电容层析成像,《辉煌的地质杂志》,《地貌杂志》,11(1),1-38。 [17] J. Bardsley,T。Cui,Y。Marzouk,Z。Wang(2020)。 [18] R. Brown,J。Bardsley,T。Cui(2020)。 [19] S. Wu,T。Cui,X。Zhang,T。Tian(2020)。[13] L. Bian,T。Cui,B.T。Yeo,A。Fornito,A。Razi,J。Keith(2021)。 使用功能性MRI,Neuroimage,244,118635识别大脑状态,过渡和社区。div> [14] T. Cui,O。Zahm(2021)。 无数据的贝叶斯反问题,反问题的无数据信息尺寸减小,37(4),045009。 [15] J. Bardsley,T。Cui(2021)。 基于优化的非线性层次统计反问题的MCMC方法,《不确定性量化》的暹罗/ASA期刊,9(1),29-64。 [16] C. Fox,T。Cui,M。Neumayer(2020)。 随机降低了效率的大都市量的前向模型,并应用于地下流体流量和电容层析成像,《辉煌的地质杂志》,《地貌杂志》,11(1),1-38。 [17] J. Bardsley,T。Cui,Y。Marzouk,Z。Wang(2020)。 [18] R. Brown,J。Bardsley,T。Cui(2020)。 [19] S. Wu,T。Cui,X。Zhang,T。Tian(2020)。Yeo,A。Fornito,A。Razi,J。Keith(2021)。使用功能性MRI,Neuroimage,244,118635识别大脑状态,过渡和社区。div>[14] T. Cui,O。Zahm(2021)。无数据的贝叶斯反问题,反问题的无数据信息尺寸减小,37(4),045009。[15] J. Bardsley,T。Cui(2021)。基于优化的非线性层次统计反问题的MCMC方法,《不确定性量化》的暹罗/ASA期刊,9(1),29-64。[16] C. Fox,T。Cui,M。Neumayer(2020)。随机降低了效率的大都市量的前向模型,并应用于地下流体流量和电容层析成像,《辉煌的地质杂志》,《地貌杂志》,11(1),1-38。[17] J. Bardsley,T。Cui,Y。Marzouk,Z。Wang(2020)。[18] R. Brown,J。Bardsley,T。Cui(2020)。[19] S. Wu,T。Cui,X。Zhang,T。Tian(2020)。基于功能空间的基于可扩展优化的采样,《暹罗科学计算杂志》,42(2),A1317 – A1347。贝叶斯逆问题中的晶状麦片先验的半变量图超参数估计,逆问题,36(5),055006。一种用于推断遗传调节网络的非线性反向工程方法,PEERJ,8,E9065。[20] T. Cui,C。Fox,C.,M。O'Sullivan(2019)。大规模逆问题的自适应误差模型 - 延迟 - 受众MCMC中降低的模型的随机校正,并应用于多相性逆问题,《工程数值国际杂志》,118(10),578-605。[21] T. Cui,C。Fox,G。Nicholls,M。O'Sullivan(2019)。使用平行马尔可夫链蒙特卡洛来量化地热储层校准中的不确定性,国际不确定性量化杂志,9(3),295–310。[22] S. Thiele,L。Grose,T。Cui,S。Micklethwaite,A。Cruden(2019)。从数字数据中提取高分辨率结构取向:贝叶斯方法,结构地质杂志,122,106–115。[23] C. Reboul,S。Kiesewetter,M。Eager,M。Belousoff,T。Cui,H。DeSterck,D。Elmlund,H。Elmlund(2018)。快速接近原子分辨率单粒子3D重建,简单,结构生物学杂志,204(2),172-181。[24] A. Spantini,T。Cui,K。Willcox,L。Tenorio和Y. Marzouk(2017)。贝叶斯线性反问题的面向目标的最佳近似,《暹罗科学计算杂志》,39(5),S167 – S196。[25] Z. Wang,Y。Marzouk,J。Bardsley,T。Cui和A. Solonen(2017)。贝叶斯的逆问题L 1先验:随机化 - 优化方法,Siam on Scientific Computing杂志,39(5),S140 – S166。
使用MCMC算法的贝叶斯系统发育分析产生了以系统发育树和相关参数样本形式的系统发育树的poserior分布。树空间的高维度和非欧几里得性质使总结树空间中后验分布的核心趋势和方差复杂。在这里,我们介绍了一个可从树的后部样本构建的可构造的新的树木分布和相关的点估计器。通过模拟研究,我们表明,这一点估计器的性能也至少要比产生贝叶斯后摘要树的标准方法更好。我们还表明,执行最佳的摘要方法取决于样本量和以非平凡的方式的尺寸 - 问题。
这项研究引入了创新的机器学习(ML)辅助采样方法,旨在更有效地扩展标准模型(BSM)参数空间。Markov Chain Monte Carlo(MCMC)和Hamiltonian Monte Carlo(HMC)等传统方法经常在高维,多模式空间中面临限制,从而导致计算瓶颈。我们的方法结合了积极训练的深层网络(DNN)和嵌套采样,动态预测更高的样子区域,以加速收敛并提高采样精度。这些可扩展的框架具有可扩展的框架,可以在高层物理学(HEP)研究中进行全面分析,以解决bsm compariete bsm commiate bsm commiate bsm compariate bsm compariate bsm comporiate comportiation comportiation comportiation。