聚类

2012-08-24 机构名称:

确定空中交通管制员的熟练程度使用聚类识别客观指标

摘要：空中交通管制 (ATC) 是一项复杂且要求严格的工作，只有训练有素的专业人员才能胜任。培训 ATC 候选人具有挑战性，因为受训人员会受到教员的主观评估，而教员的工作方式会带有偏见。为了客观地确定控制专业知识，本研究对现有数据集采用了聚类技术，其中课程和专业管制员参与了中等保真度模拟实验。结果确定了一组八项指标，形成了两个独特而稳定的专业知识集群。随后的敏感性分析能够揭示每个课程参与者与专家集群的距离（或接近程度），以及这些参与者在哪些指标上偏离了专家。然而，在这个阶段，很难将这些结果转化为关于如何提高欠发达技能的具体建议。尽管这项探索性研究的样本量很小，结果的普遍性有限，但该方法似乎是确定描述 ATC 专业知识的客观因素的有希望的示范，值得进一步研究。

查看详细

File

2019-12-01 机构名称:

通过组稀疏聚类对混合数据进行稀疏 k 均值分类

虽然通过正则化程序进行特征选择的问题在监督学习环境中引起了极大关注，并在过去二十年中产生了大量文献，但直到很晚且相对较新的时候，它才有效地出现在无监督框架中。第一种方法是基于模型的，这些方法自然适合包括套索（L 1）和相关惩罚，并且可以引用 [1] 来了解 L 1 惩罚的 EM 程序（混合由方差相等的高斯分布组成）或 [2] 来详细回顾基于模型的高维数据聚类。在更通用的框架中，没有对底层分布做出任何假设，在 [3] 中引入了具有 L 1 惩罚的稀疏 k 均值算法，后来扩展到每个聚类内的特征选择，并通过一致性结果得到加强，[4] [5] [6]。我们还要提到，最近在 [7] 中引入了稀疏 k 均值算法对重叠变量组的推广。话虽如此，上面引用的所有方法本质上都是为数值数据设计的，而真实数据通常由数值和分类特征组成。上面的一些作者触及了分类特征的问题，提到了使用虚拟变量进行转换使其数字化的可能性。但是，这个处理步骤并不是那么直接，因为零一向量上的欧几里得距离并不特别适合与数值变量上的欧几里得距离混合。其他作者

查看详细

File

2021-06-17 机构名称:

基于脑电图的情绪识别的可能性聚类促进半监督学习

最新脑机接口的目的是通过为每个受试者定制识别器来实现准确的情绪识别。在机器学习领域，基于图的半监督学习 (GSSL) 因其直观且在情绪识别方面具有良好的学习性能而受到越来越多的关注。然而，现有的 GSSL 方法对噪声或基于异常脑电图 (EEG) 的数据很敏感或不够稳健，因为每个受试者在相同场景中可能呈现噪声或异常 EEG 模式。为了解决这个问题，在本文中，我们发明了一种基于 EEG 的情绪识别的可能性聚类促进半监督学习方法。具体而言，它限制每个实例具有与其局部加权均值相同的标签成员值，以提高识别方法的可靠性。另外，在目标函数中引入了关于模糊熵的正则化项，通过增加样本判别信息量来增强隶属函数的泛化能力，提高了方法对噪声和异常值的鲁棒性。在三个真实数据集（即DEAP、SEED和SEED-IV）上的大量实验结果表明，所提方法提高了基于脑电信号的情绪识别的可靠性和鲁棒性。

查看详细

File

2021-05-06 机构名称:

基于 Wasserstein 距离的时间聚类用于电力系统容量扩展规划

摘要 — 随着可变可再生能源稳步融入欧洲电力系统，对容量扩展模型更高时间分辨率的需求也随之增加。当然，用于规划未来几十年电力系统的时间数据量与准确表示可再生能源变化所需的时间分辨率之间存在权衡。我们建议使用 Wasserstein 距离作为聚类差异的度量，用它来聚类需求、风能可用性和太阳能可用性数据。与欧几里得距离和最大距离相比，使用 Wasserstein 距离执行的层次聚类可使容量扩展规划 1) 更准确地估计系统成本和 2) 更有效地采用存储资源。数值结果表明，与欧几里得距离相比，成本估算提高了 5%，存储投资减少了相当于基准全时分辨率下安装容量的近 100%。

查看详细

File

2023-03-13 机构名称:

用于重建NGS的聚类模型之间的性能比较来自技术重复

为了提高单个DNA测序结果的性能，研究人员经常使用同一个人和各种统计聚类模型的重复来重建高性能呼叫仪。在这里，考虑了基因组Na12878的三个技术重复，并比较了五个模型类型（共识，潜在类，高斯混合物，kamila - 适应性的K-均值和随机森林），涉及四个性能指标：敏感性，精度，精度，准确性和F1评分。与不使用组合模型相比，i）共识模型提高了精度0.1％； ii）潜在类模型带来了1％的精度改善（97％ - 98％），而不会损害灵敏度（= 98.9％）； iii）高斯混合模型和随机森林提供了更高精确度（> 99％）但敏感性较低的呼叫； iv）卡米拉提高了精度（> 99％），并保持高灵敏度（98.8％）；它显示出最好的总体表现。根据精确和F1得分指标，比较了组合多个呼叫的非监督聚类模型能够改善测序性能与先前使用的监督模型。在比较模型中，高斯混合模型和卡米拉提供了不可忽略的精度和F1得分的改进。因此，可能建议将这些模型用于呼叫集重建（来自生物或技术重复），以进行诊断或精确医学目的。

查看详细

File

2023-10-16 机构名称:

基于改进的k-neareb邻居和欧几里得聚类分割的锂电池表面缺陷的新方法

急剧降低加工效果。对于选择参数D，我们必须考虑点云数据收集的密度。当距离太小时，可以选择致密点，但是某些缺陷点会损失；当距离太大时，很难选择所有离群值D需要达到平衡的距离（图8b）。和最后，要确定体素网格的密度ρ从边缘去除稀疏体素，这反映了体素网格k-邻域中点云的密度（图8C）。因此，在此仿真示例中，提出的算法的参数配置如下：n = 12，d = 1，ρ= 0.5。

查看详细

File

2025-02-07 机构名称:

森林流：预测Lyman-α森林聚类从线性到非线性尺度

在大范围内，Lyman-α森林提供了对宇宙膨胀历史的见解，而在小尺度上，它对生长历史，暗物质的性质和中微子质量的总和施加了严格的限制。这项工作引入了ForestFlow，这是一个新颖的框架，它弥合了大型和小规模分析之间的差距，这些分析传统上依赖于不同的建模方法。使用条件归一化的流量，ForestFlow预测了两种lyman-α线性偏见（Bδ和Bη）和六个参数，描述了三维频谱功率谱（P 3D）的小规模偏差（p 3D），从线性理论作为体体和核学中培养基的功能。随后将它们与Boltzmann求解器相结合，以对P 3D和从其衍生的任何其他统计数据进行一致的预测，从任意大的尺度到非线性制度。在30个固定和分配的宇宙流体动力学模拟的套件中训练，跨越z = 2至4.5的红移，森林流在描述P 3D和一维闪光功率谱（p 1d）中获得了3和1.5％的精度，从线性量表到k = 5 mpc- = 5 mpc- = 5 mpc-k. = 5 mpc-k. = 4 mpc- = 4 mpc = 4 Mpc = 4 mpc = 4 mpc。由于其条件参数化，森林流对电离历史和两个λCDM模型扩展（大量中微子和曲率）显示出相似的性能，尽管训练集中都不包含这些扩展。该框架将对DESI调查的Lyman-α森林测量结果进行全面宇宙学分析。

查看详细

File

2023-12-26 机构名称:

社会互动的时间聚类交易疾病传播和知识扩散

非药品措施，例如预防隔离，远程工作，学校和工作场所关闭，锁定等。从流行病控制的角度表现出了有效性。但是，它们也对社会生活和人际关系，工作训练和社区参与产生重大负面影响。特别是，，复杂的思想，工作和学校合作，创新的发现以及弹性的规范形成和维护，通常需要开发和协同协同协调的两个或多个聚会的面对面互动。在这项研究中，我们提出了一种替代杂种解决方案，该解决方案可以平衡流行病扩散的放缓与维护面对面相互作用的保存，我们测试了模拟疾病的模拟和知识在接触网络上同时扩散的知识。我们的方法涉及对人口的两步分区。首先，我们调整节点聚类的水平，创建“社交气泡”，而每个气泡内部的接触增加，外部较少，同时保持每个网络中的平均触点数。第二，我们通过对特定社交气泡的节点进行配对来调整时间聚类的水平。我们的结果表明，混合方法可以在流行病控制和复杂的知识扩散之间实现更好的权衡。我们模型的多功能性使调整和精炼聚类水平可以根据疾病或知识扩散过程的可能变化的特征来最佳实现所需的权衡。，复杂的思想，工作和学校合作，创新的发现以及弹性的规范形成和维护，通常需要开发和协同协同协调的两个或多个聚会的面对面互动。在这项研究中，我们提出了一种替代杂种解决方案，该解决方案可以平衡流行病扩散的放缓与维护面对面相互作用的保存，我们测试了模拟疾病的模拟和知识在接触网络上同时扩散的知识。我们的方法涉及对人口的两步分区。首先，我们调整节点聚类的水平，创建“社交气泡”，而每个气泡内部的接触增加，外部较少，同时保持每个网络中的平均触点数。第二，我们通过对特定社交气泡的节点进行配对来调整时间聚类的水平。我们的结果表明，混合方法可以在流行病控制和复杂的知识扩散之间实现更好的权衡。我们模型的多功能性使调整和精炼聚类水平可以根据疾病或知识扩散过程的可能变化的特征来最佳实现所需的权衡。

查看详细