这些技术允许根据相似性标准将初始数据集细分为两个或多个子集。相似性(或不相似性)的定义是这些技术的核心。正确选择此标准可以将观测结果分成子集,每个子集具有不同的属性。
已经提出了神经网络表示之间的多种(DIS)相似性度量,从而导致了零散的研究景观。这些措施中的大多数属于两个类别之一。首先,诸如线性回归,规范相关分析(CCA)和形状距离之类的措施,都学习神经单位之间的明确映射,以量化相似性,同时考虑预期的不断增长。第二,诸如表示相似性分析(RSA),中心内核比对(CKA)和归一化Bures相似性(NBS)之类的措施都量化了摘要统计数据中的相似性,例如逐个刺激的内核矩阵,它们已经不一致地是预期的。在这里,我们通过观察Riemannian形状距离的余弦(从类别1)等于NB(来自类别2)来统一这两个广泛的方法的步骤。我们探讨了这种联系如何导致形状距离和NB的新解释,并将这些措施的对比与CKA进行对比,这是深度学习文献中的流行相似性度量。
天然化合物是潜在小分子治疗药物的丰富资源。尽管由于其多样性和系统纯化的困难,这种资源的实验性访问受到限制,但计算评估与已知治疗分子的结构相似性提供了一种可扩展的方法。在这里,我们使用机器学习方法结合多种化学相似性指标和物理化学性质来评估天然化合物与已批准药物之间的功能相似性。我们计算了 1410 种药物之间的成对相似性以训练分类模型,并使用药物共享的蛋白质靶标作为类标签。表现最好的模型是随机森林,其平均 ROC 下面积为 0.9,马修斯相关系数为 0.35,F1 得分为 0.33,表明它很好地捕捉了结构-活性关系。然后使用这些模型通过将大约 11k 种天然化合物与药物进行比较来预测其蛋白质靶标。这揭示了几种天然化合物的治疗潜力,包括那些有以前发表的资料支持的化合物以及迄今为止尚未开发的化合物。我们通过实验验证了预测对之一的活性,即 5-甲氧基水杨酸对 Cox-1 的抑制作用,5-甲氧基水杨酸是一种常见于茶、草药和香料中的分子。相比之下,另一种天然化合物 4-异丙基苯甲酸在考虑最大加权相似度指标时具有最高相似度得分,但未被我们的模型挑选出来,它没有抑制 Cox-1。我们的结果证明了结合多种化学特征的机器学习方法在揭示天然化合物的蛋白质结合潜力方面的实用性。
摘要 — 语义文本相似性是估计两个文本含义之间的相似性的任务。在本文中,我们通过部分调整模型然后端到端调整,在语义文本相似性基准上对 Transformer 架构进行微调,以实现语义文本相似性。我们通过将问题作为二分类任务或回归任务来尝试 BERT、RoBERTa 和 DeBERTaV3 交叉编码器。我们结合 Transformer 模型的输出,并使用手工制作的特征作为增强算法的输入。由于测试集结果较差,加上验证集的改进,我们尝试使用不同的数据集拆分来进一步调查这种情况。我们还提供了错误分析,重点关注预测范围的边缘。索引术语 — 语义文本相似性、Transformer、增强算法、自然语言处理
这样的微阵列技术是原始测试组织(Cancer Genetics,Inc。),以前称为原始测试的PathWork®组织和原始测试的反应性组织。测试测量了2,000个基因的表达,并比较了未知主要癌症的基因表达谱与来自15个具有58个组织学形态的15个组织的已知特征数据库的基因表达谱。为每个肿瘤生成的报告由“相似性评分”组成,这是标本与数据库中15个已知肿瘤谱的基因表达分布相似性的量度。分数范围从0(非常低的相似性)到100(非常高的相似性),并在面板上的所有15个组织中总和到100。如果单个相似性评分大于或等于30,则表明这可能是
背景:代际转移效应包括从父母到孩子的特征传播。虽然在行为上有充分的文献记载,但对大脑结构或功能的代际转移效应的研究很少,尤其是那些检查行为和神经生物学内表型的关系的研究。这项研究旨在研究与皮质胶质电路相关的行为和神经间传递效应,与社会情感功能和心理健康有关。方法:从72名参与者那里获得T1-神经影像学和行为数据(39名母子二元/ 39名儿童; 7 - 13岁; 16个女孩/ 33位母亲; 26 - 52岁)。灰质体积(GMV)是从conticolimbic区域提取的(皮质下:杏仁核,海马,伏隔核;新皮层:前扣带回,内侧轨道额叶区域)。通过相关系数和与随机的成人孩子对的相关系数和比较来量化母子相似性。结果:我们确定了皮质下皮质上的明显的皮质性母子相似性(r = 0.663)。在心理健康方面的母子相似性是显着的(r = 0.409),通过新皮质中的相似性,但不是皮质下GMV的相似性,可以预测心理健康中的二元相似程度。结论:代际神经影像揭示了Corticolimbic GMV的明显母子转移,最强烈地在皮层下区域。然而,新皮质相似性的变化预测了母亲幸福感的相似性。最终,这种技术可能会增强我们对与健康和疾病相关的行为和神经家族转移影响的了解。
摘要 - 识别和利用各种生物标志物跟踪阿尔茨海默氏病(AD)的进展已受到许多最近的关注,并使帮助临床医生迅速做出了迅速的决定。传统的进程模型着重于从MRI/PET图像(例如区域平均皮质厚度和区域量)中提取感兴趣区域(ROI)中的形态生物标志物(ROI)。它们是有效的,但忽略了随着时间的流逝,大脑ROI之间的关系会导致协同的恶化。用于探索这些生物标志物之间的协同恶化关系,在本文中,我们提出了一种新型时空相似性度量的多任务学习方法,可有效预测AD的进展并敏感地捕获生物标志物之间的关键关系。特别是,我们首先定义了一个时间量度,用于估计生物标志物变化随时间变化的幅度和速度,这表明趋势变化(时间)。将这一趋势转换为矢量,然后我们比较了统一的矢量空间(空间)中生物标志物之间的这种变异性。实验结果表明,与直接基于ROI的特征学习相比,我们提出的方法在预测疾病进展方面更有效。我们的方法还使执行纵向稳定性选择以确定生物标志物之间不断变化的关系,这些关系在疾病进展中起着关键作用。我们证明,皮质体积或表面积之间的协同恶化的生物标志物对认知预测具有显着影响。索引术语 - Alzheimer疾病,脑生物标志物相关性,余弦相似性,多任务学习
摘要 - 本文介绍了超维计算(HDC)域中数据的聚类。在先前的工作中,已经提出了一个基于HDC的聚类框架,称为HDCluster。但是,现有的HDCluster的性能并不强大。在初始化步骤中随机选择簇的高量向量,HDCluster的性能被降解。为了克服这种瓶颈,我们通过探索编码数据的相似性(称为查询过量向量,分配了初始群集过度向量。组内过度向量的相似性比组间高向量具有更高的相似性。利用查询过量向量之间的相似性结果,本文提出了四种基于HDC的聚类算法:基于相似性的K-均值,相等的Bin宽度直方图,相等的BIN高度直方图和基于相似性的亲和力传播。实验结果说明:(i)与现有的HDCluster相比,我们提出的基于HDC的聚类算法可以实现更好的准确性,更健壮的性能,更少的迭代和更少的执行时间。基于相似性的亲和力提出优于八个数据集上的其他三种基于HDC的聚类算法,而聚类准确性则高于2%约38%。(ii)即使对于一通聚类,即没有群集高量向量的任何迭代更新,我们提出的算法也可以提供比HDClter更强大的聚类精度。(iii)在八个数据集上,当八分之一的数据集投影到高维空间上时,八分之一可以达到更高或可比的精度。传统聚类比HDC更可取,当时簇数k的数量很大。
来源于东松巴县的PM B1和来源于西松巴县的PM B2与其他菌株具有较高的相似性,它们的相似性达99.6%,即每1000个核苷酸中只有4个不同。进一步与GenBank中的核苷酸序列进行比较,发现它们与下列菌株具有较高的相似性:DQ286927(印度分离株)、AY078999(英国分离株)、KT222136(印度分离株)、E05329(日本分离株)和AY638485,相似性分别为99.8%、99.6%、99.6%、99.4%和99.1%。与编号为HE800437(巴基斯坦多杀性巴氏杆菌分离株)的菌株相比,相似性为48.8%。根据表 2 中的数据,进一步分析了系统发育树,发现两个当地分离株与 DQ286927(印度分离株)、AY078999(英国分离株)、KT222136(印度分离株)、E05329(日本分离株)和 AY638485 分离株属于一个分支。分析结果还将巴基斯坦分离株 HE800437 归入与其他分离株不同的分支(图 5)。
本研究解决了雇主在筛选大量工作职位简历方面面临的困难。我们旨在通过自动化恢复筛选过程来确保对候选人的公平评估,降低偏见并提高候选评估过程的效率。拟议的系统使用NLP技术从简历中提取相关能力,重点关注特定职位所需的关键技能。使用了为职位所采用的能力集。进行了123个工作职位的案例研究。jaccard的相似性和余弦相似性度量。由于余弦相似性着重于单词频率,Jaccard相似性度量的结果与研究目的更加一致。提取的能力与使用JACCARD相似性相关的各种职位相关的预定义技能匹配。此方法通过分析与所需能力有关的简历中的存在或不存在特定单词来分配候选人的相似性分数。这个基于NLP的系统提供了巨大的好处,例如节省时间和其他资源,增加候选人选择方面的能力以及仅通过专注于能力来减少偏见。系统与LinkedIn的集成通过促进无缝进口和简历分析来增强方法的有效性。总体而言,这项研究通过为大型组织提供可扩展,高效和无偏见的解决方案来证明NLP在优化简历筛选过程中的潜力。