出于多种原因,例如数据收集中的人错误或隐私注意事项,不完整的表格数据集在许多应用中无处不在。 人们会期望这样一种自然解决方案是利用强大的生成模型,例如扩散模型,这些模型在图像和连续域中表现出巨大的潜力。 但是,香草扩散模型通常对初始化的噪声表现出敏感性。 这与表格域固有的自然偏差有关,对扩散模型构成了挑战,从而影响了这些模型的鲁棒性,以进行数据插补。 在这项工作中,我们提出了一个高级扩散模型,名为S Elf Subsuped Impation d iffusion M Odel(简短的SIMPDM),专门针对表格数据插图任务量身定制。 为了减轻对噪声的敏感性,我们引入了一种自我监督的对准机制,旨在使模型正常,以确保同意和稳定的插定预测。 此外,我们在SIMPDM中引入了一个精心设计的状态依赖性数据增强策略,从而在处理有限的数据时增强了扩散模型的鲁棒性。 广泛的实验表明,在各种情况下,SIMPDM匹配或优于最先进的插补方法。不完整的表格数据集在许多应用中无处不在。人们会期望这样一种自然解决方案是利用强大的生成模型,例如扩散模型,这些模型在图像和连续域中表现出巨大的潜力。但是,香草扩散模型通常对初始化的噪声表现出敏感性。这与表格域固有的自然偏差有关,对扩散模型构成了挑战,从而影响了这些模型的鲁棒性,以进行数据插补。在这项工作中,我们提出了一个高级扩散模型,名为S Elf Subsuped Impation d iffusion M Odel(简短的SIMPDM),专门针对表格数据插图任务量身定制。为了减轻对噪声的敏感性,我们引入了一种自我监督的对准机制,旨在使模型正常,以确保同意和稳定的插定预测。此外,我们在SIMPDM中引入了一个精心设计的状态依赖性数据增强策略,从而在处理有限的数据时增强了扩散模型的鲁棒性。广泛的实验表明,在各种情况下,SIMPDM匹配或优于最先进的插补方法。
-467 Microalbuminuria mg/l -347 Glicosuria G/l -317 Fasting glycaemia mg/dl -312 Gamma-glutamyl transferase UI/l -300 Alkaline phosphatase UI/l -294 Fibrinogen (serum) mg/dl -233 Hemoglobin g/dl -231 Glycated hemoglobin % -204 Creatinine mg/dl -202 Creatine phosphokinase (serum) UI/l -185 LDL cholesterol mg/dl -184 HDL cholesterol mg/dl -183 Cholesterol (total) mg/dl -173 Weist cm -118 Serum glutamic-oxaloacetic transaminase UI/l -61淀粉酶UI/L -45白蛋白排泄速率mcg/min -43丙氨酸氨基转移酶测试UI/L -21尿酸mg/dl -3性别无-2性别无-2年龄-1糖尿病年-1糖尿病持续时间
处理丢失数据的挑战在现代数据分析中很普遍,尤其是在预处理阶段和各种推论建模任务中。尽管存在许多算法来推出丢失的数据,但对患者级别的归纳质量的评估通常缺乏个性化的统计方法。此外,基于度量空间的统计对象存在稀缺的插补方法。本文的目的是引入一个新颖的两步框架,其中包括:(i)用于在指标空间中取值的统计对象的插补方法,以及(ii)使用保形推理技术个性化插补的标准。这项工作是出于需要在一项关于糖尿病的纵向研究的背景下,需要将连续葡萄糖监测(CGM)数据的分布功能表示形式进行,在这种情况下,很大一部分患者没有可用的CGM特征。通过评估CGM数据作为新的数字生物标志物的有效性来预测健康人群中糖尿病发作的时间来说明这些方法的重要性。为了应对这些科学挑战,我们提出:(i)一种新的回归算法,用于缺失响应; (ii)针对公制空间量身定制的新型保形预测算法,重点是2-wasserstein几何形状内的密度响应; (iii)一种广泛适用的个性化插补方法标准,旨在增强上述两种策略,但在任何统计模型和数据结构中都有效。我们的发现表明,将CGM数据纳入糖尿病时间分析中,并通过新颖的插补个性化阶段增强,与传统的糖尿病时间预测模型相比,预测准确性显着提高了10%以上。
摘要非可再生化石燃料的精疲力尽提高了人们对环境问题的认识。因此,生物质能量已成为一种有希望的可再生替代方案,尤其是在通过废物生物量的热解生产生物油的背景下。不幸的是,物理学模型在建模生物油生产时会遇到困难,促使研究人员倾向于以数据为中心的方法。为了应对这个问题,本文展示了近千的综合数据集,这些数据集来自先前有关生物油生产的文献。除了收集,清洁和组织收集的数据外,我们还使用了机器学习技术来评估所得数据集,最有希望的结果产生的平均绝对误差为2.6,并且调整后的R平方在预测生物油收益率方面为0.9。据我们所知,本文提供了介绍该域中有史以来最全面的数据集。这样的详尽数据集的组装对于可持续过程工程来说至关重要,因为它可以促进精确的建模,从而更好地固定在此过程中固有的不确定性。
具有缺失值的多变量时间序列在医疗保健和财务等领域很常见,并且多年来的数量和综合性已经增长。这提出了一个问题,是否可以在该领域中执行经典数据插补方法。然而,深度学习的幼稚应用在提供可靠的置信估计和缺乏可解释性方面缺乏。我们提出了一个新的深层连续变量模型,以减少维度和数据插补。我们的建模假设是简单且可解释的:高尺寸的时间序列具有较低的代数反应,该代态根据高斯过程在及时的及时演变而来。使用具有新型结构化变分近似的VAE方法实现了缺失数据的非线性维度降低。我们证明,我们的APS在计算机视觉和医疗保健领域的高维数据上胜过几种经典和深度学习的数据插补方法,同时增加了进化的平稳性,并提供了可解释的不良估计。
经验数据分析通常需要完整的数据集。在不完全观察到的数据集的情况下,对于未观察到的数据产生了合理的值(归纳),方法很有吸引力。这个想法是然后以简单的方式分析完整的数据集,例如使用公开可用的软件。因此,已经提出和评估了各种插补方法。用于评估这些方法的流行措施基于模拟研究中应用的真实值和估算值之间的距离。在本文中,我们通过一个理论示例和模拟研究表明,这些度量可能具有误导性:量度值的少量值是估算和真实值之间距离的函数的函数,并不意味着基于估算数据集的推论在某种程度上靠近(有效的)基于完全数据集的(有效的)推论,而没有丢失值集。因此,我们建议比较基于估算数据集的有效推论的插补方法。