有效的计算或Levenshtein distance是一种用于评估序列相似性的普遍指标,随着DNA存储和其他生物学应用的出现,引起了显着的关注。序列嵌入将Levenshtein的距离映射到嵌入向量之间的调用距离,已成为一种有前途的解决方案。在本文中,提出了一种基于泊松再生的新型基于神经网络的序列嵌入技术。我们首先提供了对嵌入维度对模型性能的影响的理论分析,并提出了选择适当的嵌入性识别的标准。在此嵌入维度下,通过假设托管式分离后的固定长度序列之间的levenshtein距离来引入泊松式,这自然与左环特链距离的定义相一致。此外,从嵌入距离的分布的角度来看,泊松回归大约是卡方分布的负面对数可能性,并在消除偏度方面提供了进步。通过对实际DNA存储数据的全面实验,我们证明了与最新方法相比,采用方法的出色性能。
本文研究了提高竞争平衡对锦标赛排名可靠性的影响。排名可靠性以前是一种定性属性,本文将其量化为锦标赛结束时的真实排名与球队排名之间的接近程度。使用三个指标来衡量这种接近程度:Spearman 等级相关系数、Kendall tau 和排名领域中相对较少使用的算法:Levenshtein 距离。模拟了三种锦标赛结构:循环赛、随机配对和瑞士制。在多次试验和不同数量的比赛中模拟锦标赛。研究发现,随着比赛数量的增加,锦标赛结构可靠性的增长率会下降。研究还发现,竞争不平衡与可靠性之间存在正相关关系。竞争不平衡增加的边际效益会随着边际效益的增加而下降。出乎意料的是,与随机配对和瑞士配对相比,循环赛制在所有指标和比赛场次中都获得了最高的可靠性得分。随着竞争不平衡的增加,锦标赛结构之间的可靠性差异也会增加。建议的进一步工作包括调查锦标赛结果的不确定性与可靠性和竞争平衡的关系,更深入地研究莱文斯坦距离作为一种有用的算法来量化密切度
摘要本文旨在概述我们的方法,以区分人类生成的文本和具有模型融合方法的生成AI模型。我们的方法包括三个步骤:首先,我们将PAN的竞争数据集扩展到Clef 2024的竞争数据集,其中包括来自著名的数据科学和机器学习竞赛平台Kaggle的外部数据集,并应用Levenshtein距离算法算法纠正拼写错误的单词。然后,基于共享主题并将培训,验证和测试数据集形成文本对的数据集。第二,我们训练一个微调的BERT作为基本模型和使用R-Drop方法的BERT来减轻过度拟合问题。最后,这两个模型是使用合奏学习技术和投票策略组合的。我们的实验结果表明,融合模型的ROC-AUC度量为0.932,比基线模型Fast-DetectGpt(Mistral)提高了5.6%。
在传统(经典)纠错中,Levenshtein 于 1966 年引入的删除纠错 [1] 近来引起了广泛关注(例如,参见 [2] 及其参考文献)。在纠正擦除时,接收方知道擦除的位置 [3]–[5]。与此相反,接收方不知道删除的位置,这给纠正删除和构造适合删除纠错的代码增加了额外的难度。部分由于删除纠错和量子纠错的共同困难,量子删除纠错的研究最近才刚刚开始 [6]–[8]。这些研究提供了量子删除纠错码的具体示例。 [6] 提出了第一个系统地构造1-删除校正二元量子码,其中对任意正整数k,构造了((2 k +2 − 4 , k )) 2 码。最近,[9],[10] 提出了第一个系统地构造t-删除校正二元量子码,适用于任意正整数t。现有研究存在以下问题:(1)没有系统地构造纠正1以上删除的非二元量子码。(2)现有的稳定器量子纠错研究不能以明显的方式重复使用,而置换不变码
由于空气的精致抗原特异性,个人的适应性免疫受体(空气)曲目记录了免疫病史。阅读此记录需要从序列中推断受体功能的计算方法,因为可能受体 - 抗原对的多样性大大超过了实验知识。鉴定具有相似序列的空气,因此在这些方法中是常见的性能瓶颈。在这里,我们基于基于半径的搜索Levenshtein邻居的五种不同算法方法的时间复杂性。我们表明,最初提出的用于拼写检查的对称删除查找方法特别可扩展。然后,我们引入Xtneighbor,这是该算法的一种变体,可以在GPU上大规模平行。对于一百万个输入序列,Xtneighbor识别了所有序列邻居,这些序列邻居在商品硬件上最多差异两个编辑,比现有方法快的数量级。我们还展示了对称删除查找如何使用更复杂的序列相似性指标(例如TCRDIST)加快搜索。我们的概述将大大加快现有分析管道的速度,并能够处理大规模的免疫测序数据而不会降采样。
摘要 — 最近的实验证明了在 DNA 和蛋白质等大分子中存储数字信息的可行性。然而,DNA 存储通道容易出现删除、插入和替换等错误。在 DNA 字符串的合成和读取阶段,会生成许多原始字符串的噪声副本。从这些噪声副本中恢复原始字符串的问题称为序列重建。该问题中的一个关键概念是错误球,它是所有可能序列的集合,这些序列可能由对原始序列应用有限数量的错误而产生。Levenshtein 表明,给定通道恢复原始序列所需的最小噪声副本数等于两个错误球交集的最大大小加一。因此,推导任何通道和任何序列的错误球大小对于解决序列重建问题至关重要。在 DNA 存储系统中,字符串中的多种错误(例如删除、插入和替换)可能同时发生。在这项工作中,我们旨在推导具有多种错误类型和最多三次编辑的通道的错误球大小。具体来说,我们考虑具有单删除双替换、单删除双插入和单插入单替换错误的通道。