有效的计算或Levenshtein distance是一种用于评估序列相似性的普遍指标,随着DNA存储和其他生物学应用的出现,引起了显着的关注。序列嵌入将Levenshtein的距离映射到嵌入向量之间的调用距离,已成为一种有前途的解决方案。在本文中,提出了一种基于泊松再生的新型基于神经网络的序列嵌入技术。我们首先提供了对嵌入维度对模型性能的影响的理论分析,并提出了选择适当的嵌入性识别的标准。在此嵌入维度下,通过假设托管式分离后的固定长度序列之间的levenshtein距离来引入泊松式,这自然与左环特链距离的定义相一致。此外,从嵌入距离的分布的角度来看,泊松回归大约是卡方分布的负面对数可能性,并在消除偏度方面提供了进步。通过对实际DNA存储数据的全面实验,我们证明了与最新方法相比,采用方法的出色性能。
主要关键词