1摘要与世界以指数速率生成数字数据,DNA已成为一种有希望的档案介质。由于其耐用性,物理密度和高信息容量,它提供了更高效,更持久的数字存储解决方案。该领域的研究包括编码方案的开发,这些方案与现有的DNA合成和测序技术兼容。最近的研究表明,使用复合DNA字母来利用这些技术的固有信息冗余性。这种方法中的一个主要挑战涉及嘈杂的推理过程,这阻止了大型复合字母的使用。本文引入了一种基于DNA的数据存储的新方法,与标准基于DNA的存储系统相比,逻辑密度增加了6.5倍,其重建误差接近零。组合DNA编码使用一组可明显区分的DNA短裤来构建大型组合字母,其中每个字母代表一个短成员的子集。这些组合字母的性质可以最大程度地减少混合误差,同时也确保了系统的鲁棒性。正如本文所示,我们正式定义了各种组合编码方案并研究其理论属性,例如信息密度,重建概率和所需的合成以及测序多重性。然后,我们建议使用基于组合DNA的数据存储系统的端到端设计,包括编码方案,二维误差校正代码和重建算法。在使用计算机模拟中,我们演示了我们建议的方法,并评估不同的组合字母,用于在不同的误差方面编码10KB消息。模拟揭示了重要的见解,包括核苷酸替代误差对缩短器级插入和缺失的相对可管理性。测序覆盖范围被发现是影响系统性能的关键因素,并且使用二维REED - 固体(RS)误差校正已显着提高了重建率。我们的实验概念证明通过使用吉布森组装构建两个组合序列来验证我们的方法的可行性,从而模仿了一个4周期组合合成过程。我们确认了成功的重建,并确定了我们方法对不同错误类型的鲁棒性。子采样实验支持采样率的重要作用及其对整体性能的影响。我们的工作证明了组合短材料编码基于DNA的数据存储的潜力,同时提出了理论研究问题和技术挑战。这些包括组合DNA的误差校正代码的开发,最佳采样率的探索以及支持组合合成的DNA合成技术的发展。将组合原理与错误校正校正策略结合起来为有效的,错误的DNA的存储解决方案铺平了道路。