chr start(bp)结束(bp)参考1 47761741 51822307 [51,53,66] 2 129125957 139525961 [5,23,45,51,53,61] 2 49987563 [51,53,66] 3 83368159 86868160 [51,53,66] 3 161899518 163699518 [61] 5 9863636396 1011366397 136136412 139136412 [51,53] 6 23691793 38924246 [5,222,23,45,51,51,53,61,66] 6 1396370170 142170 142137170 [51,53,66] [5,22,23,45,51–53,61,66] 8 110918595 113918595 [51,53,66] 11 88127184 91127184 [51,53,66 [61] 17 42394456 46567318 [5,23] 20 33948533 36438183 [51,53,66]
我们从数据矩阵中介绍了可靠的主成分分析,其中其列的条目已被排列损坏,称为未标记的主成分分析(UPCA)。使用代数几何形状,我们确定UPCA是一个良好的代数问题,因为我们证明,与给定数据一致的唯一最小级别的矩阵是地面矩阵的行 - 渗透矩阵的行为,它是作为多项程度系统的独特溶液的唯一方程式系统而产生的。此外,我们提出了适用于仅处理数据的一小部分的UPCA的有效的两阶段算法管道。I阶段I采用异常值PCA方法来估计地面真相柱空间。配备了柱空间,II阶段应用了最新的方法,用于恢复排列的数据。允许在UPCA中排列的丢失条目导致未标记的矩阵完成的问题,为此,我们得出了类似的avor的理论和算法。关于合成数据,面部图像,教育和医疗记录的实验揭示了我们的算法对数据私有化和记录链接等应用的潜力。关键字:健壮的主成分分析,矩阵完成,记录链接,数据重新标识,代数几何
摘要 - 内存计算(IMC)是机器学习(ML)数据密集型计算加速器的最有希望的候选者之一。用于尺寸降低和分类的关键ML算法是主要成分分析(PCA),它在很大程度上依赖于经典的von Neumann架构未优化的矩阵矢量乘法(MVM)。在这里,我们提供了基于IMC的新PCA算法的实验演示,该算法基于功率迭代和在4 kbit的电阻切换随机访问存储器(RRAM)中执行的放气。威斯康星州乳腺癌数据集的分类准确性达到95.43%,接近浮点的实施。我们的模拟表明,与商业图形处理单元(GPU)相比,能源效率有250倍,因此在现代数据密集型计算中支持IMC的能源有效ML。