出于多种原因,例如数据收集中的人错误或隐私注意事项,不完整的表格数据集在许多应用中无处不在。 人们会期望这样一种自然解决方案是利用强大的生成模型,例如扩散模型,这些模型在图像和连续域中表现出巨大的潜力。 但是,香草扩散模型通常对初始化的噪声表现出敏感性。 这与表格域固有的自然偏差有关,对扩散模型构成了挑战,从而影响了这些模型的鲁棒性,以进行数据插补。 在这项工作中,我们提出了一个高级扩散模型,名为S Elf Subsuped Impation d iffusion M Odel(简短的SIMPDM),专门针对表格数据插图任务量身定制。 为了减轻对噪声的敏感性,我们引入了一种自我监督的对准机制,旨在使模型正常,以确保同意和稳定的插定预测。 此外,我们在SIMPDM中引入了一个精心设计的状态依赖性数据增强策略,从而在处理有限的数据时增强了扩散模型的鲁棒性。 广泛的实验表明,在各种情况下,SIMPDM匹配或优于最先进的插补方法。不完整的表格数据集在许多应用中无处不在。人们会期望这样一种自然解决方案是利用强大的生成模型,例如扩散模型,这些模型在图像和连续域中表现出巨大的潜力。但是,香草扩散模型通常对初始化的噪声表现出敏感性。这与表格域固有的自然偏差有关,对扩散模型构成了挑战,从而影响了这些模型的鲁棒性,以进行数据插补。在这项工作中,我们提出了一个高级扩散模型,名为S Elf Subsuped Impation d iffusion M Odel(简短的SIMPDM),专门针对表格数据插图任务量身定制。为了减轻对噪声的敏感性,我们引入了一种自我监督的对准机制,旨在使模型正常,以确保同意和稳定的插定预测。此外,我们在SIMPDM中引入了一个精心设计的状态依赖性数据增强策略,从而在处理有限的数据时增强了扩散模型的鲁棒性。广泛的实验表明,在各种情况下,SIMPDM匹配或优于最先进的插补方法。
主要关键词