摘要:基于利用数据可视化技术的先前开发的部分合成数据生成算法,该研究扩展了新型算法以生成完全合成的表格医疗保健数据。在这种增强的形式中,该算法是基于生成对抗网络(GAN)或变分自动编码器(VAE)的常规方法的替代方法。通过迭代应用原始方法,该适应算法采用UMAP(均匀的歧管近似和投影),一种维度降低技术,通过低维聚类来验证生成的样品。这种方法已成功地应用于三个医疗领域:前列腺癌,乳腺癌和心血管疾病。生成的合成数据已被严格评估,以获得保真度和效用。结果表明,基于UMAP的算法在不同情况下优于基于gan和vae的生成方法。在保真度评估中,它在不同属性的真实数据和合成数据的累积分布函数之间达到了较小的最大距离。在实用程序评估中,基于UMAP的合成数据集增强了机器学习模型性能,尤其是在分类任务中。总而言之,此方法代表了一种可实现安全,高质量合成医疗保健数据的强大解决方案,从而有效地解决了数据稀缺挑战。
1美国杜克大学医学院,美国北卡罗来纳州达勒姆大学医学院,美国2杜克大学血液学典型科学系高维细胞多摩学数据对于理解生物控制的各个层次至关重要。单一的'Omic方法提供了重要的见解,但在处理基因,蛋白质,代谢产物以及其他方面的复杂关系方面常常缺乏。在这里,我们提出了一种称为Gaudi的新颖,非线性和无监督的方法(通过UMAP数据集成进行组聚集),该方法利用独立的UMAP嵌入来进行多种数据类型的并发分析。Gaudi比几种最先进的方法更好地发现不同的OMIC数据之间的非线性关系。这种方法不仅通过它们的多摩尼克曲线群簇样本,而且还识别了每个OMICS数据集的潜在因素,从而促进对每个群集有助于的基本特征的解释。因此,Gaudi促进了更直观,可解释的可视化,从而从广泛的实验设计中识别出新颖的见解和潜在的生物标志物。引言多摩变分析整合了各种数据类型,例如基因组学,蛋白质组学和代谢组学。组合多种OMICS模式比单独分析每种数据类型时,有可能发现新颖的见解和生物标志物(1,2)。高通量技术的增长促使OMICS数据呈指数增加,这突显了对新的集成方法的迫切需求。传统的多摩学集成方法主要集中在降低尺寸技术上。例如,在RGCCA(3)中使用了基于规范相关分析(CCA)的方法,而MCIA中使用了共惯性分析(4)。同样,贝叶斯因子分析基于MOFA+(5)等方法,负基质分解对于Intnmf(6),主成分分析(7)和独立组件分析是TICA(8)的基础。尽管这些方法已在各种OMICS数据集和生物环境中应用,但它们的有效性和局限性各不相同,强调了在其应用中需要仔细考虑的需求(9)。这些方法共享的中心限制是它们对线性假设的依赖。虽然在某些情况下合适,但这种假设可能不足以准确捕获复合物,通常是非线性的相互作用(10,11)。此外,它们的计算强度构成了挑战,尤其是对于大型数据集。应对这些挑战,最近的进步已转向非线性整合方法(9,10)。均匀的歧管近似和投影(UMAP)是一种降低技术,可以揭示复杂数据集中的基础结构(12)。通过将流形学习与拓扑数据分析相结合,它可以有效地可视化较低空间中的高维数据。UMAP通过有效地从PCA和T-SNE等其他方法中脱颖而出
人工智能和机器学习的进步导致人工智能在各个领域中用于增强或支持人类决策的采用急剧增加。越来越多的研究致力于解决模型可解释性和解释的好处,以帮助最终用户或其他利益相关者解读所谓“黑匣子人工智能系统”的内部工作原理。然而,目前人们对传达解释的方式(例如,文本、可视化或音频)在通知、增强和塑造人类决策方面的作用了解甚少。在我们的工作中,我们通过可信度评估系统的视角来解决这一研究空白。考虑到通过各种渠道获得的大量信息,人们在做出决策时会不断考虑他们所消费信息的可信度。然而,随着信息过载的增加,评估我们所遇到的信息的可信度并非易事。为了帮助用户完成这项任务,自动可信度评估系统已被设计为各种情况下的决策支持系统(例如,,评估新闻或社交媒体帖子的可信度)。但是,为了使这些系统有效地支持用户,它们需要得到信任和理解。事实证明,解释在告知用户对决策支持系统的依赖方面发挥着至关重要的作用。在本文中,我们研究了解释方式对人工智能辅助可信度评估任务的影响。我们使用一项涵盖六种不同解释模式的受试者间实验(N = 375),以评估解释模式对 AI 辅助决策结果准确性、用户对系统信任度以及系统可用性的影响。我们的结果表明,解释在塑造用户对决策支持系统的依赖方面发挥着重要作用,从而影响决策的准确性。我们发现,在有解释的情况下,用户在评估陈述的可信度时表现更准确。我们还发现,在没有解释的情况下,用户很难就陈述的可信度达成一致。如果有解释,文本和音频解释比图形解释更有效。此外,我们发现