摘要本文介绍了我们评估表格数据合成(TDS)工具对用例特定要求的适用性的研究。主要目标是开发一个平台,该平台允许用户,例如其他领域的研究人员,为其现实世界应用选择合适的TDS工具。在开发此类平台的过程中,目前计划了三项贡献:首先,通过根据一组功能性和非功能性要求编制报告的领先工具性能的用户决策指南。其次,基于这些已确定要求的TDS工具的基准测试框架。最后是一个可自定义的工具选择平台,它是通过广泛的TDS工具的广泛基准测试而开发的。该平台必须基于特定的用例约束提供许多可能的工具,并允许基于社区的扩展,从而为TDS工具选择提供动态和适应性的解决方案。
尽管对文本和图像数据进行了深度学习的成功,但基于树的集合模型仍然是使用异质表格数据的机器学习的最新。但是,由于其高灵活性,因此非常需要基于表格的基于梯度的方法。在本文中,我们提出了Grande,Gra Die n t-d ecision树E nSembles,这是一种使用端到端梯度下降的努力学习的新方法。Grande是基于树形合奏的密集表示,该代表允许使用直线操作员使用backpropaga,以共同优化所有模型参数。我们的方法结合了轴对齐的分裂,这是对TAB-ular数据的有用电感偏差,并具有基于梯度的优化的灵活性。此外,我们引入了一个高级实例的加权,以促进单个模型中简单和复杂关系的学习代表。我们对预定义的基准进行了广泛的评估,并与19个分类数据集进行了广泛的评估,并证明我们的方法在大多数数据集上都优于现有的梯度增强和深度学习框架。该方法可在:https://github.com/s-marton/grande
在本文中,我们从现代 Hopfield 模型的角度研究表格学习。具体来说,我们使用广义稀疏的现代 Hopfield 模型来学习表格数据表示和预测。在这项工作中,引入了 BiSHop(双向 S 分析 Hop 场模型)作为端到端表格学习的创新框架,解决了深度表格学习中的两个挑战:非旋转不变数据结构和特征稀疏性。受到联想记忆和注意力机制之间新建立的联系的启发,BiSHop 采用了双组分策略。它通过双向学习模块按列和按行顺序处理数据,每个模块都配备广义稀疏 Hopfield 层。这些层通过引入可学习的稀疏性扩展了传统的 Hopfield 模型。从方法论上讲,BiSHop 支持多尺度表示学习,能够有效地捕捉特征内和特征间的交互,并在各种尺度上具有自适应稀疏性。在各种真实世界数据集上进行的经验验证表明,BiSHop 以更少的超参数优化 (HPO) 运行超越了当前最先进的方法的性能,标志着深度表格学习的重大进步。
出于多种原因,例如数据收集中的人错误或隐私注意事项,不完整的表格数据集在许多应用中无处不在。 人们会期望这样一种自然解决方案是利用强大的生成模型,例如扩散模型,这些模型在图像和连续域中表现出巨大的潜力。 但是,香草扩散模型通常对初始化的噪声表现出敏感性。 这与表格域固有的自然偏差有关,对扩散模型构成了挑战,从而影响了这些模型的鲁棒性,以进行数据插补。 在这项工作中,我们提出了一个高级扩散模型,名为S Elf Subsuped Impation d iffusion M Odel(简短的SIMPDM),专门针对表格数据插图任务量身定制。 为了减轻对噪声的敏感性,我们引入了一种自我监督的对准机制,旨在使模型正常,以确保同意和稳定的插定预测。 此外,我们在SIMPDM中引入了一个精心设计的状态依赖性数据增强策略,从而在处理有限的数据时增强了扩散模型的鲁棒性。 广泛的实验表明,在各种情况下,SIMPDM匹配或优于最先进的插补方法。不完整的表格数据集在许多应用中无处不在。人们会期望这样一种自然解决方案是利用强大的生成模型,例如扩散模型,这些模型在图像和连续域中表现出巨大的潜力。但是,香草扩散模型通常对初始化的噪声表现出敏感性。这与表格域固有的自然偏差有关,对扩散模型构成了挑战,从而影响了这些模型的鲁棒性,以进行数据插补。在这项工作中,我们提出了一个高级扩散模型,名为S Elf Subsuped Impation d iffusion M Odel(简短的SIMPDM),专门针对表格数据插图任务量身定制。为了减轻对噪声的敏感性,我们引入了一种自我监督的对准机制,旨在使模型正常,以确保同意和稳定的插定预测。此外,我们在SIMPDM中引入了一个精心设计的状态依赖性数据增强策略,从而在处理有限的数据时增强了扩散模型的鲁棒性。广泛的实验表明,在各种情况下,SIMPDM匹配或优于最先进的插补方法。
2。理论背景3 2.1。表格数据的最新时间。。。。。。。。。。。。。。。。。。。。。。。。3 2.2。表格数据深度学习方法的概述。。。。。。。。。。。6 2.2.1。数据编码方法。。。。。。。。。。。。。。。。。。。。。。。。。6 2.2.2。专业体系结构。。。。。。。。。。。。。。。。。。。。。。。。6 2.2.3。正则化模型。。。。。。。。。。。。。。。。。。。。。。。。。。7 2.3。用表格数据的深度学习方法的问题。。。。。。。。。。。7 2.3.1。 异质数据和非信息特征。 。 。 。 。 。 。 。 。 。 8 2.3.2。 嘈杂的数据。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 8 2.4。 圣人:自我注意力和样本相互注意变压器。 。 。 。 。 。 。 9 2.4.1。 功能嵌入。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 9 2.4.2。7 2.3.1。异质数据和非信息特征。。。。。。。。。。8 2.3.2。嘈杂的数据。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。8 2.4。圣人:自我注意力和样本相互注意变压器。。。。。。。9 2.4.1。功能嵌入。。。。。。。。。。。。。。。。。。。。。。。。。。。。9 2.4.2。自我注意力。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。10 2.4.3。样本间注意。。。。。。。。。。。。。。。。。。。。。。。。。。13 2.4.4。圣人。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。14 2.4.5。自我监督的预处理。。。。。。。。。。。。。。。。。。。。。。。15 2.4.6。finetuning。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。18 2.5。圣地。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。19 2.6。圣丹。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。20
尽管人工智能 (AI) 革命不断,但由于特征空间异构、样本量有限且缺乏可行的迁移学习,深度学习在表格数据方面尚未取得很大成功。由大型语言模型 (LLM) 驱动的生成式人工智能新时代为各种数据和领域带来了前所未有的学习机会。本文研究了 LLM 应用程序编程接口 (API) 和 LLM 迁移学习在表格数据分类中的有效性。LLM API 使用标记数据和指令响应输入文本提示,而迁移学习则针对目标分类任务对 LLM 进行微调。本文提出了一种端到端的 LLM 微调,以在不存在大型预训练表格数据模型来促进迁移学习的情况下,在十个基准数据集上展示跨数据迁移学习。所提出的 LLM 微调方法在具有少于十个特征(表格数据集的标准特征大小)的表格数据上的表现优于最先进的机器和深度学习方法。迁移学习方法仅使用其他深度学习或基于 API 的解决方案的计算成本的一小部分,同时确保具有竞争力或卓越的分类性能。
摘要 - 合成数据生成研究一直以快速的速度进行,并且时不时地设计了新颖的方法。早些时候,使用统计方法来学习真实数据的分布,然后从这些分布中采样合成数据。生成模型的最新进展导致了复杂的高维数据集的更有效的建模。此外,隐私问题也导致了较小的隐私漏洞风险较小的强大模型的发展。首先,本文对表格数据生成和评估矩阵的现有技术进行了全面调查。其次,它详细阐述了对ART合成数据生成技术的比较分析,特别是针对具有不同数据分布的小型,中和大型数据集的CTGAN和TVAE。它使用定量和定性指标/技术进一步评估综合数据。最后,本文提出了结果,还强调了仍然需要解决的问题和缺点。
摘要:基于利用数据可视化技术的先前开发的部分合成数据生成算法,该研究扩展了新型算法以生成完全合成的表格医疗保健数据。在这种增强的形式中,该算法是基于生成对抗网络(GAN)或变分自动编码器(VAE)的常规方法的替代方法。通过迭代应用原始方法,该适应算法采用UMAP(均匀的歧管近似和投影),一种维度降低技术,通过低维聚类来验证生成的样品。这种方法已成功地应用于三个医疗领域:前列腺癌,乳腺癌和心血管疾病。生成的合成数据已被严格评估,以获得保真度和效用。结果表明,基于UMAP的算法在不同情况下优于基于gan和vae的生成方法。在保真度评估中,它在不同属性的真实数据和合成数据的累积分布函数之间达到了较小的最大距离。在实用程序评估中,基于UMAP的合成数据集增强了机器学习模型性能,尤其是在分类任务中。总而言之,此方法代表了一种可实现安全,高质量合成医疗保健数据的强大解决方案,从而有效地解决了数据稀缺挑战。
摘要:在数据驱动的系统中,数据探索对于做出实时决策至关重要。但是,大数据存储在很难检索的大量数据库中。近似查询处理(AQP)是一种基于数据摘要(摘要)的汇总查询的近似答案的技术,该数据密切复制了实际数据的行为;当对查询的大概答案在实际执行时间的一小部分中可以接受时,这可能很有用。本研究探讨了生成对抗网络(GAN)的新利用,用于生成可以在AQP中用于概要构建中的表格数据。我们彻底研究了概要构建过程带来的独特挑战,包括维持数据分配特征,处理有限的连续和分类数据以及保持语义关系,然后我们介绍了克服这些挑战的表格GAN结构的进步。此外,我们提出并验证一套用于评估GAN生成概要的可靠性的统计指标。我们的发现表明,先进的GAN变化具有产生高保真概述的有前途的能力,有可能改变AQP在数据驱动系统中的效率和有效性。