随着个体通过数字平均值的显着相互作用的显着增加,图中节点的聚类已成为分析大型和复杂网络的一种基础方法。在这项工作中,我们提出了深层的位置模型(DEEPLPM),这是一种端到端的生成聚类方法,将广泛使用的潜在位置模型(LPM)与图形卷积网络(GCN)编码策略相结合。此外,还引入了一种原始估计算法,以通过变异推理和使用随机梯度下降进行图形重建来整合后聚类概率的明确优化。在模拟场景上进行的数值实验突出了DeepLPM自养生的能力,以选择簇数量的较低限制,这表明其聚类能力与最先进的方法相比。最后,DEEPLPM进一步应用于Merovingian Gaul的教会网络和引文网络Cora,以说明探索大型且复杂的现实世界网络的实际兴趣。
Natacha Cordonier,Marion Fossard,YvesTillé,Maud Champagne-Lavau。探索获得性脑损伤后认知务实的异质性:提示理解的聚类分析。《美国语言病理学杂志》,2023,32(6),第2752-2767页。10.1044/2023_AJSLP- 22-00389。hal-04330850
精确医学的愿景之一是基于分子特征而不是基于表型证据来重新定义疾病分类法。但是,实现这一目标是高度挑战的,特别是在神经病学方面。我们的贡献是基于15种构成27种蛋白质的15个分子机制的基因负担(例如apoE)在两种疾病中都有描述。我们证明,使用稀疏自动编码器和稀疏的非负基质分解的联合AD/PD聚类是可重现的,并且可以与临床,病理生理和分子水平上的AD和PD患者亚组的显着差异有关。因此,簇是与疾病相关的。据我们所知,这项工作是神经退行性疾病领域基于机制的分层的首次演示。总的来说,我们将这项工作视为迈向基于分子机制的神经疾病分类法的重要一步,这可以通过超越基于经典表型的疾病定义来帮助未来开发出更好的靶向疗法。
摘要。这项研究调查了用于医院中医学消费的机器学习,以优化资源分配和物流。我们使用两种方法:一种结合了多家医院数据的统一方法,以及一种预测个人医院的分离方法。我们根据消费趋势探索了K-均值聚类和手动对聚类。虽然K-均值聚类并未产生改进,但手动夹确定了具有明显增强预测准确性的特定药物对(例如,医院1:MAPE 1:MAPE从19.70%降低到3.30%)。但是,统一的方法并不能始终如一地使所有医院受益(例如,医学9)。这强调了在某些医院的准确性提高与其他医院潜在损失的需求。总体而言,分离方法中的手动聚类显示出希望。未来的工作应探索高级自动聚类技术,例如动态时间扭曲(DTW),并利用较大的数据集进行进一步验证。
要将以环境得出的元编码数据转换为社区矩阵进行生态分析,必须首先将序列聚集到操作分类单元(OTU)中。此任务对于包括大量带有不完整参考库的数据,包括大量的分类单元。OptimoTU提供了一种具有分类学意识的OTU聚类方法。它使用一组分类学识别的参考序列来选择最佳的遗传距离阈值,以将每个祖先分类群分组为最与后代分类单元最匹配的集群。然后,查询序列根据初步分类学标识和其祖先分类群的优化阈值聚类。该过程遵循分类学层次结构,从而将所有查询序列的所有查询序列完全分类为命名的分类学组以及占位符“ Pseudotaxa”,这些序列适合无法分类为相应等级的命名分类单元的序列。Optimutu聚类算法是作为R软件包实现的,在C ++中实现了速度的计算密集步骤,并合并了成对序列对齐的开源库库。距离也可以在外部计算,并且可以从UNIX管道中读取,从而允许大型数据集聚类,在该数据集中,整个距离矩阵将不方便地存储在内存中。Optimutu生物信息学管道包括一个完整的工作流程,用于配对端的Illumina测序数据,其中包含了质量过滤,DeNoising,Wratifact删除,分类学分类以及与Optimotu的OTU集群。开发了用于高性能计算簇的OptimoTU管道,并将其缩放到每个样品和数万个样本的数据集中。
摘要 — 自动检测和去除脑电图 (EEG) 异常值对于设计强大的脑机接口 (BCI) 至关重要。在本文中,我们提出了一种新的异常值检测方法,该方法适用于样本协方差矩阵 (SCM) 的黎曼流形。现有的异常值检测方法存在错误地将某些样本拒绝为异常值的风险,即使没有异常值,因为检测基于参考矩阵和阈值。为了解决这一限制,我们的方法黎曼谱聚类 (RiSC) 基于提出的相似性度量将 SCM 聚类为非异常值和异常值,从而检测异常值。这考虑了空间的黎曼几何,并放大了非异常值簇内的相似性并削弱了非异常值和异常值簇之间的相似性,而不是设置阈值。为了评估 RiSC 的性能,我们生成了受不同强度和数量的异常值污染的人工 EEG 数据集。比较 RiSC 与现有异常值检测方法之间的 Hit-False (HF) 差异,证实 RiSC 可以显著更好地检测异常值 (p < 0.001)。特别是,对于异常值污染最严重的数据集,RiSC 对 HF 差异的改善最大。
Alban Gallard,Auriane Bidaut,Arnaud Hubert,Elif Sade,Sylvestre Marechaux等人。通过无需临床和应变的临床和应变群集,响应者轮廓的特征 - 响应者概述,用于心脏重新同步治疗。美国超声心动图学会杂志,2021,34(5),pp.483-493。10.1016/j.echo.2021.01.019。hal-03156865
iClusterBayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 iClusterPlus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... .................................................................................................................................................................................................. 18 simuResult ........................................................................................................................................................................................................................................................ .................................................................................................................................................. .................................................................................................................................................. .................................................................................................................................................. 19 tune.iCluster2 ........................................................................................................................................................................................................................................................ .................................................................................................................................................................. .................................................................................................................................................. .................................................................................................................................................. 19 tune.iClusterBayes .................................................................................................. .................................................................................................................................................................................................................................................................................................................. 20 tune.iClusterPlus .................................................................................................................................................................................................................................................................................................................................. 22 实用程序 .................................................................................................................................................................................................................................................................................................................................................. 22 实用程序 .................................................................................................................................................................................................................................................................................................................................................................. 23 24 variation.hg18.v10.nov.2010 . ...
摘要。患者分层通过基于其分子和/或临床特征鉴定出不同的亚组,在个性化医学中起着至关重要的作用。但是,许多基于机器学习的分层技术无法识别与每个患者组相关的本质生物标志物特征。在本文中,我们提出了一种使用分层集合聚类来解释的患者分层的新方法。我们的方法利用具有与主成分分析(PCA)结合的采样,以捕获最重要的模式和贡献生物标志物。我们使用机器学习基准数据集和来自癌症基因组地图集(TCGA)的现实世界数据的方法的有效性,展示了检测到的患者簇的可解释性。
查找数据集的一组嵌套分区对于在不同尺度上发现相关结构很有用,并且经常处理与数据有关的方法。在本文中,我们引入了一种基于模型的分层聚类的一般两步方法。将集成的分类可能性标准视为目标函数,此工作适用于该数量可以处理的每个离散潜在变量模型(DLVM)。该方法的第一步涉及最大程度地提高相对于分区的标准。解决了通过贪婪的山坡攀岩启发式方法发现的已知局部最大最大最大最大值问题时,我们基于遗传算法引入了一种新的混合算法,该算法允许有效地探索解决方案的空间。所得算法小心地结合并合并了不同的解决方案,并允许簇数K的共同推断以及簇本身。从这个自然分区开始,该方法的第二步是基于自下而上的贪婪程序来提取簇的层次结构。在贝叶斯语境中,这是通过考虑dirichlet群集比例的先验参数α作为控制聚类粒度的正规化项来实现的。标准的新近似值被推导为α的对数线性函数,从而实现了合并决策标准的简单函数形式。第二步允许在更粗的尺度上探索聚类。将所提出的方法与现有的模拟和实际设置的策略进行了比较,结果表明其结果特别相关。本工作的参考实现可在论文1随附的r软件包贪婪中获得。