临床知识图中的光谱社区检测

简介 我们如何识别大型队列中的潜在患者群体?我们如何才能发现患者之间的相似之处,而不仅仅是与特定疾病相关的众所周知的合并症群?更重要的是,我们如何提取可以在不同临床场景中进行分析、比较和重用的定量信号?与临床知识图中的光谱社区检测后相关的信息首先出现在走向数据科学上。

来源:走向数据科学

简介

我们是否能在大型队列中识别出潜在的患者群体?我们如何才能发现患者之间的相似之处,而不仅仅是与特定疾病相关的众所周知的合并症群?更重要的是,我们如何提取可以在不同临床场景中进行分析、比较和重用的定量信号?

与患者队列相关的信息由各种格式的大型语料库组成。由于数据的质量和复杂性、重叠的症状、模糊的诊断和大量的缩写,数据通常难以处理。

这些数据集通常是高度互连的,并提供了完美的示例,其中知识图的使用非常有益。图的优点是使患者和相关实体(在我们的例子中为疾病)之间的关系变得明确,保留这些特征之间的所有联系。

在图形设置中,我们将标准聚类方法(例如 k-means)替换为社区检测算法,该算法可识别患者群体如何通过常见综合征进行自我组织。

考虑到这些观察结果,我们得出了探索性问题:

我们如何将图算法与光谱方法分层,以揭示传统方法遗漏的患者群体中具有临床意义的结构?

为了解决这个问题,我构建了一个端到端的临床图管道,它生成合成注释、提取疾病实体、构建 Neo4j 患者疾病知识图、使用 Leiden 算法检测社区,并使用代数连通性和 Fiedler 向量分析其结构。

Leiden 算法将图划分为簇,但它没有提供这些社区的内部结构的信息。

在本博客中,读者将看到如何:

  • 生成综合临床记录,
  • 提取并解析疾病实体,
  • 代数连通性衡量社区的强度,
  • 结论