摘要。患者分层通过基于其分子和/或临床特征鉴定出不同的亚组,在个性化医学中起着至关重要的作用。但是,许多基于机器学习的分层技术无法识别与每个患者组相关的本质生物标志物特征。在本文中,我们提出了一种使用分层集合聚类来解释的患者分层的新方法。我们的方法利用具有与主成分分析(PCA)结合的采样,以捕获最重要的模式和贡献生物标志物。我们使用机器学习基准数据集和来自癌症基因组地图集(TCGA)的现实世界数据的方法的有效性,展示了检测到的患者簇的可解释性。
对抗训练(AT)是提高深度神经网络鲁棒性的最常用机制。最近,一种针对中间层的新型对抗攻击利用了对抗训练网络的额外脆弱性,输出错误的预测。这一结果说明对抗训练中对抗扰动的搜索空间不足。为了阐明中间层攻击有效的原因,我们将前向传播解释为聚类效应,表征神经网络对于与训练集具有相同标签的样本的中间层表示相似,并通过相应的信息瓶颈理论从理论上证明了聚类效应的存在。随后我们观察到中间层攻击违反了 AT 训练模型的聚类效应。受这些重要观察的启发,我们提出了一种正则化方法来扩展训练过程中的扰动搜索空间,称为充分对抗训练(SAT)。我们通过严格的数学证明给出了经过验证的神经网络鲁棒性界限。实验评估表明,SAT 在防御针对输出层和中间层的对抗性攻击方面优于其他最先进的 AT 机制。我们的代码和附录可以在 https://github.com/clustering-effect/SAT 找到。
过去 30 年来,疫苗犹豫行为现象愈演愈烈,危及群体免疫的维持。这种行为往往在空间上聚集,形成一些未受保护的亚群体,这些亚群体可能成为疫情爆发的热点。目前尚不清楚的是导致疫苗接种行为空间聚集的社会机制,尤其是在景观尺度上。我们关注空间聚集的存在,旨在从机制上理解不同的社会过程如何引起这种现象。具体来说,我们提出了两个假设来解释空间聚集的存在:(i) 社会选择,即对疫苗犹豫的个体具有相同的社会人口统计特征,这些特征的聚集会在疫苗犹豫中产生空间聚集;(ii) 社会影响,即犹豫行为具有传染性,会在邻近社会传播,从而形成犹豫聚集。采用理论空间网络方法,我们探讨了这两个过程在一系列空间结构下在疫苗接种行为中生成空间聚类模式的作用。我们发现这两个过程都能够独立地产生空间聚类,并且社会动态的空间结构越复杂,其实现的疫苗犹豫行为的空间聚类就越高。总之,我们证明了这些过程导致了犹豫簇的独特空间配置,并且我们用关于美国疫苗犹豫、社会决定因素和社会连通性的细粒度经验数据验证了这两个过程的模型。最后,我们提出并评估了两种减少犹豫行为的新型干预策略的有效性。我们的生成建模方法以独特的经验数据为基础,为复杂的社会过程在驱动疫苗犹豫的空间异质性方面的作用提供了见解。
可以使用不保留文本结构的模型或使用保留文本结构的模型来表示文本数据集。我们的差异是,根据数据集的性质,可以使用一个模型来保留文本结构的优势,而不是该模型的模型,而Viceversa则可以使用。关键是根据数据集本身确定表示术数据集的最佳方法。在这项工作中,我们建议通过基于字符串压缩组合文本失真和算法聚类来研究此问题。具体来说,作者先前开发的一种失真技术逐渐破坏文本结构。之后,基于字符串组合的聚类算法用于分析失真对文本中包含的信息的影响。在文本数据集和人工生成的数据集上进行了几项实验。结果表明,在强大的结构数据集中,随着文本结构被严格破坏,聚类结果恶化。此外,他们表明,使用一个可以选择左字节符号大小的压缩机有助于确定数据集的性质。最后,结果与基于多维投影的方法形成鲜明对比,并获得了类似的结论。
厄瓜多尔瓜亚基尔高等政治学院,ESPOL 电气和计算机工程系,Gustavo Galindo 校区,Perimetral 路 30.5 号,邮政信箱 09-01-5863,瓜亚基尔,厄瓜多尔 {vasanza 1、epelaez 2、floayza 3}@espol.edu.ec 摘要 —。现代技术使用脑机接口 (BCI) 来控制身体有障碍人士的设备或假肢。在某些情况下,EEG 数据用于确定受试者在执行运动和想象运动任务时的意向性。然而,由于获取的电压水平较低,EEG 信号很容易受到噪声的影响。我们使用了 25 名健康受试者在进行手脚运动和想象运动时 64 个 EEG 记录的数据集。数据经过预处理,包括设计滤波器以降低操作 EEG 信号的预期频谱之外的噪声。然后,我们使用基于谱密度的特征提取。最后,应用五种聚类算法来检测运动和想象运动任务。结果表明,k-means、k-medoids 和层次聚类算法可以更好地检测运动活动,而层次聚类则更适合手部的想象任务。
摘要 — 自动检测和去除脑电图 (EEG) 异常值对于设计强大的脑机接口 (BCI) 至关重要。在本文中,我们提出了一种新的异常值检测方法,该方法适用于样本协方差矩阵 (SCM) 的黎曼流形。现有的异常值检测方法存在错误地将某些样本拒绝为异常值的风险,即使没有异常值,因为检测基于参考矩阵和阈值。为了解决这一限制,我们的方法黎曼谱聚类 (RiSC) 基于提出的相似性度量将 SCM 聚类为非异常值和异常值,从而检测异常值。这考虑了空间的黎曼几何,并放大了非异常值簇内的相似性并削弱了非异常值和异常值簇之间的相似性,而不是设置阈值。为了评估 RiSC 的性能,我们生成了受不同强度和数量的异常值污染的人工 EEG 数据集。比较 RiSC 与现有异常值检测方法之间的 Hit-False (HF) 差异,证实 RiSC 可以显著更好地检测异常值 (p < 0.001)。特别是,对于异常值污染最严重的数据集,RiSC 对 HF 差异的改善最大。
在大范围内,Lyman-α森林提供了对宇宙膨胀历史的见解,而在小尺度上,它对生长历史,暗物质的性质和中微子质量的总和施加了严格的限制。这项工作引入了ForestFlow,这是一个新颖的框架,它弥合了大型和小规模分析之间的差距,这些分析传统上依赖于不同的建模方法。使用条件归一化的流量,ForestFlow预测了两种lyman-α线性偏见(Bδ和Bη)和六个参数,描述了三维频谱功率谱(P 3D)的小规模偏差(p 3D),从线性理论作为体体和核学中培养基的功能。随后将它们与Boltzmann求解器相结合,以对P 3D和从其衍生的任何其他统计数据进行一致的预测,从任意大的尺度到非线性制度。在30个固定和分配的宇宙流体动力学模拟的套件中训练,跨越z = 2至4.5的红移,森林流在描述P 3D和一维闪光功率谱(p 1d)中获得了3和1.5%的精度,从线性量表到k = 5 mpc- = 5 mpc- = 5 mpc-k. = 5 mpc-k. = 4 mpc- = 4 mpc = 4 Mpc = 4 mpc = 4 mpc。由于其条件参数化,森林流对电离历史和两个λCDM模型扩展(大量中微子和曲率)显示出相似的性能,尽管训练集中都不包含这些扩展。该框架将对DESI调查的Lyman-α森林测量结果进行全面宇宙学分析。
对实验伪影和噪声敏感,从而降低了它们对具有相似定位但不同对比度的空间模式的泛化能力。最近,使用卷积神经网络 (CNN) 的迁移学习和半监督深度学习方法已经开发出来,分别用于聚类离子图像和量化分子共定位。26,27 这些报告表明,MSI 数据的有限大小对传统的 CNN 训练框架提出了挑战,因为传统的 CNN 训练框架通常依赖于大量带注释的图像。因此,这些方法与传统的机器学习方法相比,在查找共定位分子图像方面提供了相对较小的改进。计算机视觉自监督对比学习方法的最新进展,包括 MoCo、28 SimCLR 29
摘要 —本文研究了在设计零排放社区 (ZEN) 的能源系统时使用聚类的方法。ZEN 是旨在在其生命周期内实现净零排放的社区。虽然以前的工作已经使用和研究了聚类来设计社区的能源系统,但没有一篇文章涉及像 ZEN 这样的社区,这些社区对太阳辐照度时间序列有很高的要求,包括 CO 2 因子时间序列,并且零排放平衡限制了可能性。为此,我们使用了几种方法并比较了它们的结果。结果一方面是聚类本身的性能,另一方面是使用数据的优化模型中每种方法的性能。测试了与聚类方法相关的各个方面。研究的不同方面包括:目标(聚类以获得天数或小时数)、算法(k 均值或 k 中心点)、规范化方法(基于标准偏差或值范围)和启发式的使用。结果强调,k-means 提供的结果比 k-medoids 更好,并且 k-means 系统地低估了目标值,而 k-medoids 则不断高估了目标值。当可以选择聚类天数和小时数时,似乎聚类天数提供了最佳精度和求解时间。选择取决于优化模型使用的公式和对季节性存储建模的需求。归一化方法的选择影响最小,但值范围方法在求解时间方面显示出一些优势。当需要很好地表示太阳辐照度时间序列时,需要使用更多的天数或小时数。选择取决于什么样的求解时间是可以接受的。
查找数据集的一组嵌套分区对于在不同尺度上发现相关结构很有用,并且经常处理与数据有关的方法。在本文中,我们引入了一种基于模型的分层聚类的一般两步方法。将集成的分类可能性标准视为目标函数,此工作适用于该数量可以处理的每个离散潜在变量模型(DLVM)。该方法的第一步涉及最大程度地提高相对于分区的标准。解决了通过贪婪的山坡攀岩启发式方法发现的已知局部最大最大最大最大值问题时,我们基于遗传算法引入了一种新的混合算法,该算法允许有效地探索解决方案的空间。所得算法小心地结合并合并了不同的解决方案,并允许簇数K的共同推断以及簇本身。从这个自然分区开始,该方法的第二步是基于自下而上的贪婪程序来提取簇的层次结构。在贝叶斯语境中,这是通过考虑dirichlet群集比例的先验参数α作为控制聚类粒度的正规化项来实现的。标准的新近似值被推导为α的对数线性函数,从而实现了合并决策标准的简单函数形式。第二步允许在更粗的尺度上探索聚类。将所提出的方法与现有的模拟和实际设置的策略进行了比较,结果表明其结果特别相关。本工作的参考实现可在论文1随附的r软件包贪婪中获得。