摘要 — 最近的实验证明了在 DNA 和蛋白质等大分子中存储数字信息的可行性。然而,DNA 存储通道容易出现删除、插入和替换等错误。在 DNA 字符串的合成和读取阶段,会生成许多原始字符串的噪声副本。从这些噪声副本中恢复原始字符串的问题称为序列重建。该问题中的一个关键概念是错误球,它是所有可能序列的集合,这些序列可能由对原始序列应用有限数量的错误而产生。Levenshtein 表明,给定通道恢复原始序列所需的最小噪声副本数等于两个错误球交集的最大大小加一。因此,推导任何通道和任何序列的错误球大小对于解决序列重建问题至关重要。在 DNA 存储系统中,字符串中的多种错误(例如删除、插入和替换)可能同时发生。在这项工作中,我们旨在推导具有多种错误类型和最多三次编辑的通道的错误球大小。具体来说,我们考虑具有单删除双替换、单删除双插入和单插入单替换错误的通道。
摘要 - 我们考虑用于基于DNA的存储的错误校正编码。我们将DNA存储通道建模为多绘制IDS通道,其中输入数据分解为简短的DNA链,并将其复制到随机数量中,并且该通道输出了随机选择N噪声DNA链的随机选择。检索到的DNA链易于插入,删除和分层(IDS)错误。我们提出了一个基于索引的串联编码方案,该方案由外部代码的串联,索引代码和内部同步代码组成,其中后两个铲球IDS错误。我们进一步提出了不匹配的关节指数同步代码最大的后验概率解码器,可选聚类以推断外解解码器的后验概率。我们分别在合成和实验数据上分别计算出外部代码的可实现的信息率,并为信息输出概率和框架错误率提供了蒙特卡洛模拟。