。CC-BY-NC-ND 4.0 国际许可证 它是永久可用的。是作者/资助者,已授予 medRxiv 许可以显示预印本(未经同行评审认证)预印本 此版本的版权所有者于 2025 年 2 月 17 日发布。;https://doi.org/10.1101/2023.07.24.23293075 doi:medRxiv 预印本
摘要。遗传学的一个基本目标是确定遗传变异与性状的相关性,通常使用全基因组关联(GWA)研究结果的回归结果。重要的方法论挑战是考虑到GWA效应估计的通货膨胀,并同时研究多个特征。我们利用这两个挑战的机器学习方法,开发了一种称为ML-MAGE的计算高效方法。首先,我们缩小了使用神经网络在变体之间非独立引起的GWA效应大小的通胀。然后,我们通过变异推断在多个性状之间群集变体关联。我们将通过神经网络收缩的性能与正则回归和绘制映射进行了比较,这两种方法用于解决膨胀效应,但处理不同大小的焦点区域的变体。我们的神经网络收缩在近似模拟数据中的真实效应大小方面优于两种方法。我们的无限混合聚类方法提供了一种灵活的,数据驱动的方式,可区分不同类型的关联(特征特异性,跨性状或虚假),基于其正则效应。聚类也会产生更高的精度和回忆,以区分模拟中的基因级关联。我们证明了ML-MAGE在英国生物库中的两个定量性状和两个二元性状的关联分析中的应用(英国500,000名居民的遗传和表型数据)。我们从单特征富集测试中鉴定出的相关基因与已知特征相关的生物学过程重叠。除特定特定的关联外,ML-mages还标识了几种具有共享多特征关联的变体,提示了假定的共享遗传结构。
标题:使用易于获得的临床数据作者的多变量预测模型的开发和验证:Alan L. Hutchison,MD,PhD * 1,Mary E. Rinella,Mary E. Rinella,MD 1,Raghavendra G. Mirmira,Mirmira,Mirmira,Mirmira,MIRMIRA,MD,MD,MD,MD,MD,PHD 2,WILLIAM F. PARKER,WILLIAM F. PARKER,MD 3 * ALAN.HUCHEN.HUCHIN.HUCTAN.HUCHICERINE。胃肠病学,肝病学和营养部分,2。内分泌学,糖尿病和代谢部分,3。与单独使用血红蛋白A1C测试相比,伊利诺伊州芝加哥芝加哥大学医学系肺和重症监护系,伊利诺伊州芝加哥大学,伊利诺伊州芝加哥,60637关键问题问题可以改善对糖尿病前和糖尿病的诊断?在这项横断面研究中的发现,对国家健康和营养检查调查中的13,800名成年成年成年人和口服葡萄糖耐受性测试,由8.6%未诊断的前糖尿病率和由血液氯脂素A1C未诊断的糖尿病率为3.5%。一种新型的多变量预测模型,包括禁食血浆葡萄糖,胰岛素,基本身体测量以及常规可用的血脂异常和肝功能实验室的实验室的准确性明显更准确(AUROC 0.66/0.71至0.77(单独的0.87/0.88至0.88至0.88至0.88至0.88至0.91),比糖尿病的糖尿病均与二型糖尿病相比。与单独的血红蛋白A1C相比,易于获取的临床数据纳入易于获得的临床数据可以改善糖尿病前和糖尿病的诊断。在美国,糖尿病前和糖尿病的抽象重要性与其他慢性疾病一起增加。我们排除了没有血红蛋白A1C,口服葡萄糖耐受性测试或样品体重数据的参与者。血红蛋白A1C是美国进行的糖尿病最常见的诊断测试,但在其他慢性疾病的情况下,它已知不准确。与仅血红蛋白A1C相比,目的可以使用容易获得的临床数据来改善糖尿病和糖尿病的诊断。设计,设置和参与者这项横断面研究分析了美国国家健康和营养检查调查调查的六个2年周期(2005年至2006年至2015年)获得的全国代表性数据。样本包括13,800名调查参与者。数据分析是从2024年5月1日至2025年2月9日进行的。的主要结果和措施我们估计了从梯度提升机器决策树学习模型的2小时葡萄糖,以诊断糖尿病前和糖尿病,这些糖尿病和糖尿病是由口服葡萄糖耐受性测试定义的2小时葡萄糖,大于或等于140 mg/dl,但小于200 mg/dl,大于或等于200 mg/dl,相应地分别为140 mg/dl,相应地分为200 mg/dl。我们将校准,校准,预测值和决策曲线分析的净益处与单独的血红蛋白A1C进行了比较。
在本文中,我们开发了一个新的多元分布,该分布适用于计数数据,称为树p´olya拆分。该类是由沿固定分区树的单变量分布和单数多变量分布的组合而产生的。已知的分布,包括Dirichlet-Multinomial,广义的Dirichlet-Multinomial和Dirichlet-Tree多项式,是此类中的特殊情况。正如我们将要证明的那样,这些分布是灵活的,可以在观测水平上建模复杂的依赖性结构(正,负或空)。具体来说,我们通过主要关注边缘分布,段落矩和依赖性结构(协方差和相关性)来介绍树p´olya分裂分布的理论特性。A dataset of abundance of Trichoptera is used, on one hand, as a benchmark to illustrate the theoretical properties developed in this article, and on the other hand, to demonstrate the interest of these types of models, notably by comparing them to other approaches for fitting multivariate data, such as the Poisson-lognormal model in ecology or singular multivariate distributions used in microbiome.
4.1主体成分散射虹膜花数据的图。。。。。。72 4.2主要组件瑞士钞票数据。。。。。。。。。。。。。。77 4.3瑞士钞票数据的病房聚类。。。。。。。。。。。。。。。。78 4.4瑞士钞票数据的平均链接聚类。。。。。。。。。。78 4.5瑞士钞票数据的完整链接聚类。。。。。。。。。79 4.6瑞士钞票数据的单个链接聚类。。。。。。。。。。。79 4.7虹膜花数据的原始四个变量的成对散点图。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。84 4.8在组误差内和之间,依赖组数的依赖性。。。。。。。。。。。。。。。。。。。。。。。。。。。86 4.9两个正常分布与两种模式的混合物。。。。。。。。90 4.10两个正常分布与单个模式的混合物。。。。。。90 4.11两个双变量正常分布与两种模式的混合物。。92 4.12混合模型与虹膜花数据的McLust拟合。。。。。。。。。。97 4.13 mclust BIC图选择了虹膜花数据的最佳组数。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。98
这篇主要的研究论文是由Uwindsor奖学金的论文,论文和主要论文免费提供给您的。已被Uwindsor的奖学金授权管理人纳入主要论文。有关更多信息,请联系schoolship@uwindsor.ca。
多元混合模型中随时间变化的关联:在体育分析中的应用 导师:Lisa McFetridge 博士 足球是世界上最受欢迎的运动之一,全球有超过 35 亿球迷。2021 年,足球的全球价值估计为 30.2 亿美元,预计到 2027 年将达到 38.7 亿美元。由于在这项运动中取得成功可以获得巨额经济回报,近年来,所有主要足球俱乐部都开始大量投资于大数据分析以及将统计和机器学习方法应用于体育分析。可穿戴技术的发展促进了此类投资,该技术可以实时监测健康和表现指标,例如球员在比赛和训练场景中的心率、动作和位置。球员生物标志物的动态变化(例如心率变异性)可作为伪变量来衡量他们对训练计划的适应度、比赛中的表现并发现疲劳的发生。如果正确使用,这些信息可以揭示随时间变化的趋势和模式,从而降低受伤风险、促进恢复并最终帮助球员提高健康和表现 (Viegas 2024)。可穿戴技术通常每秒收集多个观察结果,并在一个赛季内积累大量数据。为了对这种密集的纵向数据进行建模,可以使用多元混合效应模型 (Hickey 2016)。这些方法允许随时间对多个生物标志物或指标进行建模,同时捕捉影响球员内部负荷的不同方面,从而提供关键见解,不仅了解每个生物标志物如何独特地影响球员的健康,还了解不同生物标志物如何相互关联。虽然这些见解很有价值,但多元混合模型目前并未充分利用数据的时变性。当前的方法假设生物标志物之间的关系不会随时间而变化。这种时不变相关性的假设在分析随时间自然演变的信息时可能具有限制性并且可能不切实际。为了更好地捕捉这些关系随时间变化的本质,本项目将开发包含随时间变化相关性的新型多元混合模型方法。本项目将为预测体育分析 (PSA) 小组领导的一系列体育分析工作提供信息。为了最大限度地发挥这项工作的潜在影响力,博士生将与其他 PSA 研究人员以及当地精英足球俱乐部(包括在国家联赛顶级联赛中踢球的俱乐部)密切合作,将尖端的数据驱动决策融入他们的流程并实现预期的现实影响。有关项目的更多详细信息,请联系主要主管 l.mcfetridge@qub.ac.uk。Viegas, JM、Dores, H.、Freitas, A.、Cavigli, L.& D'Ascenzi, F., 运动心脏病学的发展:通向更光明的未来之路, Revista Portuguesa de Cardiologia, 2024; 43 (2), 87-89。Hickey, GL, Philipson, P., Jorgensen, A., & Kolamunnage-Dona, R., 事件发生时间和多变量纵向结果的联合建模:最新发展和问题, BMC Medical Research Methodology, 2016; 16 (1), 1-15。
背景和目的。在医学成像中,群体研究必须克服个体之间存在的差异,以识别可用于诊断目的的不变图像特征。在功能性神经成像中,识别在群体水平上成立的神经编码原理的一个有吸引力的解决方案是受试者间模式分析,即从来自多个受试者的数据中学习预测模型并评估其对新受试者的泛化性能。尽管近年来它越来越受欢迎,但由于文献中明显缺乏正式定义,其广泛采用仍然受到阻碍。在本文中,我们精确介绍了针对功能性神经成像的多变量组分析的受试者间模式分析的第一个原则性形式化。方法。我们建议将受试者间模式分析构建为多源传导传递问题,从而将其置于几个定义明确的机器学习设置中并拓宽可用算法的范围。我们描述了两组使用几个开放数据集的受试者间大脑解码实验:一项涉及 16 名受试者的脑磁图研究和一项涉及 100 名受试者的功能性磁共振成像范例。我们通过进行模型比较来评估我们框架的相关性,其中一个大脑解码模型利用我们的形式化,而其他则不利用。结果。第一组实验证明了使用受试者标准化的大脑解码器与使用其他标准化方案的最先进模型相比具有优越性,证明了我们形式化的传导和多源组件的兴趣第二组实验定量表明,即使经过这样的转换,大脑解码器也更难以推广到新参与者而不是来自训练阶段可用的参与者的新数据,从而凸显了需要克服的转移差距。结论。本文将受试者间模式分析的第一个形式化描述为多源传导迁移学习问题。我们利用几个互补的功能性神经成像数据集上的概念验证实验证明了这种形式化的附加价值。这项工作将有助于推广功能性神经成像人群研究的受试者间模式分析,并为未来的方法创新铺平道路。
描述具有组成响应和欧几里得预测指标的非线性回归。首先使用添加剂记录比率转换对组成数据进行转换,然后使用Rahman R.,Otridge J.和Pal R.(2017),的多元随机森林。
个性化医学和数字健康中的许多问题都取决于对高分辨率患者监测产生的连续时间功能生物标志物和其他复杂数据结构的分析。在此上下文中,这项工作提出了基于最佳subsset选择的指标空间中的多变量,功能,甚至更一般结果的新的新变量选择方法。我们的框架适用于几种类型的回归模型,包括线性,分位数或非参数添加剂模型,以及广泛的随机响应,例如单变量,多变量欧几里得数据,功能性,甚至随机图。我们的分析表明,我们所提出的方法在准确性方面的表现优于最先进的方法,尤其是在速度方面,与各种统计响应的竞争对手相比,作为数学功能的情况,对竞争对手的几个数量级改善。尽管我们的框架是一般的,并且不是为特定的回归和科学问题而设计的,但文章是独立的,专注于生物医学应用。在临床领域,为生物统计学,统计数据和人工智能专业人士的宝贵资源是对这一新技术AI-ERA中可变选择问题感兴趣的人工智能的宝贵资源。关键字:变量选择,多元数据,复杂的统计响应,数字健康,个性化医学。