具有缺失值的多变量时间序列在医疗保健和财务等领域很常见,并且多年来的数量和综合性已经增长。这提出了一个问题,是否可以在该领域中执行经典数据插补方法。然而,深度学习的幼稚应用在提供可靠的置信估计和缺乏可解释性方面缺乏。我们提出了一个新的深层连续变量模型,以减少维度和数据插补。我们的建模假设是简单且可解释的:高尺寸的时间序列具有较低的代数反应,该代态根据高斯过程在及时的及时演变而来。使用具有新型结构化变分近似的VAE方法实现了缺失数据的非线性维度降低。我们证明,我们的APS在计算机视觉和医疗保健领域的高维数据上胜过几种经典和深度学习的数据插补方法,同时增加了进化的平稳性,并提供了可解释的不良估计。
经验数据分析通常需要完整的数据集。在不完全观察到的数据集的情况下,对于未观察到的数据产生了合理的值(归纳),方法很有吸引力。这个想法是然后以简单的方式分析完整的数据集,例如使用公开可用的软件。因此,已经提出和评估了各种插补方法。用于评估这些方法的流行措施基于模拟研究中应用的真实值和估算值之间的距离。在本文中,我们通过一个理论示例和模拟研究表明,这些度量可能具有误导性:量度值的少量值是估算和真实值之间距离的函数的函数,并不意味着基于估算数据集的推论在某种程度上靠近(有效的)基于完全数据集的(有效的)推论,而没有丢失值集。因此,我们建议比较基于估算数据集的有效推论的插补方法。
出于多种原因,例如数据收集中的人错误或隐私注意事项,不完整的表格数据集在许多应用中无处不在。 人们会期望这样一种自然解决方案是利用强大的生成模型,例如扩散模型,这些模型在图像和连续域中表现出巨大的潜力。 但是,香草扩散模型通常对初始化的噪声表现出敏感性。 这与表格域固有的自然偏差有关,对扩散模型构成了挑战,从而影响了这些模型的鲁棒性,以进行数据插补。 在这项工作中,我们提出了一个高级扩散模型,名为S Elf Subsuped Impation d iffusion M Odel(简短的SIMPDM),专门针对表格数据插图任务量身定制。 为了减轻对噪声的敏感性,我们引入了一种自我监督的对准机制,旨在使模型正常,以确保同意和稳定的插定预测。 此外,我们在SIMPDM中引入了一个精心设计的状态依赖性数据增强策略,从而在处理有限的数据时增强了扩散模型的鲁棒性。 广泛的实验表明,在各种情况下,SIMPDM匹配或优于最先进的插补方法。不完整的表格数据集在许多应用中无处不在。人们会期望这样一种自然解决方案是利用强大的生成模型,例如扩散模型,这些模型在图像和连续域中表现出巨大的潜力。但是,香草扩散模型通常对初始化的噪声表现出敏感性。这与表格域固有的自然偏差有关,对扩散模型构成了挑战,从而影响了这些模型的鲁棒性,以进行数据插补。在这项工作中,我们提出了一个高级扩散模型,名为S Elf Subsuped Impation d iffusion M Odel(简短的SIMPDM),专门针对表格数据插图任务量身定制。为了减轻对噪声的敏感性,我们引入了一种自我监督的对准机制,旨在使模型正常,以确保同意和稳定的插定预测。此外,我们在SIMPDM中引入了一个精心设计的状态依赖性数据增强策略,从而在处理有限的数据时增强了扩散模型的鲁棒性。广泛的实验表明,在各种情况下,SIMPDM匹配或优于最先进的插补方法。
插入中包含的插补方法均已先前已开发,测试和广泛使用(Chilimoniuk等人。2024; Hastie等。2000; Pantanowitz和Marwala,2009年; Stekhoven等。2011; Troyanskaya等。2001; van Buuren等。 1999; van Buuren等。 2006; van Buuren等。 2011; Wright和Ziegler,2017年)。 如果在分析中选择了优化,则植入确定不同方法的插补错误率,并向用户建议数据集的最佳性能插补方法。 通过在所有方法和超参数范围内的网格搜索中,对给定数据集的插补的最佳方法进行。 确定了三种不同类型的丢失的误差级:完全随机丢失(MCAR),而不是随机丢失(MNAR),而在随机(MAR)中丢失。 优化搜索中使用的超参数值在补充表1中显示。2001; van Buuren等。1999; van Buuren等。 2006; van Buuren等。 2011; Wright和Ziegler,2017年)。 如果在分析中选择了优化,则植入确定不同方法的插补错误率,并向用户建议数据集的最佳性能插补方法。 通过在所有方法和超参数范围内的网格搜索中,对给定数据集的插补的最佳方法进行。 确定了三种不同类型的丢失的误差级:完全随机丢失(MCAR),而不是随机丢失(MNAR),而在随机(MAR)中丢失。 优化搜索中使用的超参数值在补充表1中显示。1999; van Buuren等。2006; van Buuren等。 2011; Wright和Ziegler,2017年)。 如果在分析中选择了优化,则植入确定不同方法的插补错误率,并向用户建议数据集的最佳性能插补方法。 通过在所有方法和超参数范围内的网格搜索中,对给定数据集的插补的最佳方法进行。 确定了三种不同类型的丢失的误差级:完全随机丢失(MCAR),而不是随机丢失(MNAR),而在随机(MAR)中丢失。 优化搜索中使用的超参数值在补充表1中显示。2006; van Buuren等。2011; Wright和Ziegler,2017年)。如果在分析中选择了优化,则植入确定不同方法的插补错误率,并向用户建议数据集的最佳性能插补方法。通过在所有方法和超参数范围内的网格搜索中,对给定数据集的插补的最佳方法进行。确定了三种不同类型的丢失的误差级:完全随机丢失(MCAR),而不是随机丢失(MNAR),而在随机(MAR)中丢失。优化搜索中使用的超参数值在补充表1中显示。
处理丢失数据的挑战在现代数据分析中很普遍,尤其是在预处理阶段和各种推论建模任务中。尽管存在许多算法来推出丢失的数据,但对患者级别的归纳质量的评估通常缺乏个性化的统计方法。此外,基于度量空间的统计对象存在稀缺的插补方法。本文的目的是引入一个新颖的两步框架,其中包括:(i)用于在指标空间中取值的统计对象的插补方法,以及(ii)使用保形推理技术个性化插补的标准。这项工作是出于需要在一项关于糖尿病的纵向研究的背景下,需要将连续葡萄糖监测(CGM)数据的分布功能表示形式进行,在这种情况下,很大一部分患者没有可用的CGM特征。通过评估CGM数据作为新的数字生物标志物的有效性来预测健康人群中糖尿病发作的时间来说明这些方法的重要性。为了应对这些科学挑战,我们提出:(i)一种新的回归算法,用于缺失响应; (ii)针对公制空间量身定制的新型保形预测算法,重点是2-wasserstein几何形状内的密度响应; (iii)一种广泛适用的个性化插补方法标准,旨在增强上述两种策略,但在任何统计模型和数据结构中都有效。我们的发现表明,将CGM数据纳入糖尿病时间分析中,并通过新颖的插补个性化阶段增强,与传统的糖尿病时间预测模型相比,预测准确性显着提高了10%以上。
-467 Microalbuminuria mg/l -347 Glicosuria G/l -317 Fasting glycaemia mg/dl -312 Gamma-glutamyl transferase UI/l -300 Alkaline phosphatase UI/l -294 Fibrinogen (serum) mg/dl -233 Hemoglobin g/dl -231 Glycated hemoglobin % -204 Creatinine mg/dl -202 Creatine phosphokinase (serum) UI/l -185 LDL cholesterol mg/dl -184 HDL cholesterol mg/dl -183 Cholesterol (total) mg/dl -173 Weist cm -118 Serum glutamic-oxaloacetic transaminase UI/l -61淀粉酶UI/L -45白蛋白排泄速率mcg/min -43丙氨酸氨基转移酶测试UI/L -21尿酸mg/dl -3性别无-2性别无-2年龄-1糖尿病年-1糖尿病持续时间
摘要非可再生化石燃料的精疲力尽提高了人们对环境问题的认识。因此,生物质能量已成为一种有希望的可再生替代方案,尤其是在通过废物生物量的热解生产生物油的背景下。不幸的是,物理学模型在建模生物油生产时会遇到困难,促使研究人员倾向于以数据为中心的方法。为了应对这个问题,本文展示了近千的综合数据集,这些数据集来自先前有关生物油生产的文献。除了收集,清洁和组织收集的数据外,我们还使用了机器学习技术来评估所得数据集,最有希望的结果产生的平均绝对误差为2.6,并且调整后的R平方在预测生物油收益率方面为0.9。据我们所知,本文提供了介绍该域中有史以来最全面的数据集。这样的详尽数据集的组装对于可持续过程工程来说至关重要,因为它可以促进精确的建模,从而更好地固定在此过程中固有的不确定性。
摘要:使用归一化的流和重新加权,Boltzmann发电机可以从玻尔兹曼分布中启用平衡采样,该分布由能量函数和热力学状态定义。在这项工作中,我们引入了热力学插值(TI),该插值允许以可控制的方式生成采样统计。我们引入了直接在环境配置空间中工作的Ti风味,在不同的热力学状态或通过潜在的,正态分布的参考状态绘制。我们的环境空间方法允许规范任意目标温度,从而确保训练集的温度范围内的普遍性,并证明了外推的潜力。我们验证了TI对表现标准化和非平凡温度依赖性的模型系统的有效性。最后,我们演示了如何通过各种自由能扰动方法组合基于Ti的采样来估计自由能差,并提供相应的近似动力学速率,通过发电机扩展动态模式分解(GEDMD)估计。■简介
基因型插补是遗传学领域中使用的标准方法。它可用于填充缺失的基因型或增加基因型密度。下游分析需要精确的估算基因型。在这项研究中,使用两种不同的参考面板,一个内部的参考人群和多种繁殖参考人群来检查全基因组序列插定的精确性。通过将介质密度(50K)基因型归纳为高密度,然后归因于整个基因组序列(WGS)来进行逐步插补。参考人群由1000个公牛基因组项目的WGS信息组成。繁殖参考面板包含396个Angus牛,而多品种参考方案的参考人群则将另外2 380个牛磺酸牛添加到参考人群中。插补精度是从10倍交叉验证的变异平均精度,并表示为一致率(CR)和Pearson的相关性(PR)。这两个插补场景实现了CR的中度至高插补精度,CR为0.896至0.966,而PR的准确精度为0.779至0.834。来自两个不同场景的准确性相似,除了WGS归因的PR,在该场景中,繁殖场景的表现优于多种品种方案。结果表明,包括参考面板中其他品种的大量动物以纯化的安格斯没有提高准确性,并可能对结果产生负面影响。2024作者。由Elsevier B.V.代表动物财团出版。总而言之,可以使用繁殖参考面板以很高的精度获得Angus牛中的WGS。这是CC BY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)下的开放访问文章。
缺少数据是许多数据集中的常见发生,并且在使用EMR数据或调查数据时可能会遇到的问题。随着分析方法的发展,更明显的是,简单的均值和模式插补可能不适用于我们使用的复杂数据集,因为它们可以引入偏差或不符合我们的预测模型对数据进行制作所需的假设。我经常使用的两种方法是PPCA(概率PCA),用于无监督分析,而随机森林插补是一种监督方法。ppca最适合您正在使用包含数千个功能和少数样本的数据的高维数据(浮标出现了)。在传统的预测分析案例中,随机森林归纳将更合适,因为它使用结果数据来帮助插补模型。