摘要 — 最近的实验证明了在 DNA 和蛋白质等大分子中存储数字信息的可行性。然而,DNA 存储通道容易出现删除、插入和替换等错误。在 DNA 字符串的合成和读取阶段,会生成许多原始字符串的噪声副本。从这些噪声副本中恢复原始字符串的问题称为序列重建。该问题中的一个关键概念是错误球,它是所有可能序列的集合,这些序列可能由对原始序列应用有限数量的错误而产生。Levenshtein 表明,给定通道恢复原始序列所需的最小噪声副本数等于两个错误球交集的最大大小加一。因此,推导任何通道和任何序列的错误球大小对于解决序列重建问题至关重要。在 DNA 存储系统中,字符串中的多种错误(例如删除、插入和替换)可能同时发生。在这项工作中,我们旨在推导具有多种错误类型和最多三次编辑的通道的错误球大小。具体来说,我们考虑具有单删除双替换、单删除双插入和单插入单替换错误的通道。
摘要 - 我们考虑用于基于DNA的存储的错误校正编码。我们将DNA存储通道建模为多绘制IDS通道,其中输入数据分解为简短的DNA链,并将其复制到随机数量中,并且该通道输出了随机选择N噪声DNA链的随机选择。检索到的DNA链易于插入,删除和分层(IDS)错误。我们提出了一个基于索引的串联编码方案,该方案由外部代码的串联,索引代码和内部同步代码组成,其中后两个铲球IDS错误。我们进一步提出了不匹配的关节指数同步代码最大的后验概率解码器,可选聚类以推断外解解码器的后验概率。我们分别在合成和实验数据上分别计算出外部代码的可实现的信息率,并为信息输出概率和框架错误率提供了蒙特卡洛模拟。
快速增长的数据需要可靠且持久的存储解决方案。DNA由于其高信息密度和长期稳定性而成为一种有希望的媒介。但是,DNA存储是一个复杂的过程,每个阶段都会引入噪声和错误,包括合成错误,存储衰减和测序错误,它需要对错误校正的代码(ECC)才能获得可靠的数据恢复。要设计一种最佳数据恢复方法,对DNA数据存储通道中噪声结构的综合理解至关重要。由于在体外运行DNA数据存储实验仍然很昂贵且耗时,因此必须进行模拟模型,以模仿真实数据中的误差模式并模拟实验。现有的仿真工具通常依赖固定的误差概率或特定于某些技术。在这项研究中,我们提出了一个基于变压器的生成框架,用于模拟DNA数据存储通道中的错误。我们的模拟器将寡素(DNA序列写入)作为输入,并生成错误的输出DNA读取,与常见DNA数据存储管道的真实输出非常相似。它捕获了随机和有偏见的误差模式,例如K-MER和过渡错误,无论过程或技术如何。我们通过分析两个使用不同技术处理的数据集来证明模拟器的有效性。在第一种情况下,使用Illumina Miseq处理,由DDS-E-SIM模拟的序列显示出与原始数据集的总误率偏差仅为0.1%。第二次使用牛津纳米孔技术进行的偏差为0.7%。基本级别和K-MER错误与原始数据集紧密对齐。此外,我们的模拟器从35,329个序列中生成100,743个独特的橄榄岩,每个序列读取五次,证明了其同时模拟偏置错误和随机属性的能力。我们的模拟器以优越的精度和处理多种测序技术的能力优于现有的模拟器。
错误检测和纠正是任何可扩展量子计算架构的必要先决条件。鉴于量子系统中不可避免地存在不必要的物理噪声,并且错误容易随着计算的进行而扩散,计算结果可能会受到严重破坏。无论选择哪种物理实现,这一观察结果都适用。在光子量子信息处理的背景下,人们对包括玻色子采样在内的被动线性光学量子计算产生了浓厚的兴趣,因为这种模型通过快速、主动控制消除了前馈的极具挑战性的要求。也就是说,这些系统在定义上是被动的。在通常情况下,错误检测和纠正技术本质上是主动的,这使得它们与该模型不兼容,这引起人们的怀疑,即物理错误过程可能是一个难以逾越的障碍。这里我们探索了一种基于光子量子比特 W 状态编码的光子误差检测技术,该技术完全是被动的、基于后选择的,并且与这些近期感兴趣的光子架构兼容。我们表明,这种 W 状态冗余编码技术能够通过简单的扇出式操作抑制光子量子比特上的失相噪声,该操作由光学傅里叶变换网络实现,现在可以轻松实现。该协议有效地将失相噪声映射到预兆故障,在理想的无噪声极限下故障概率为零。我们在单个光子量子比特通过嘈杂通信或量子存储通道的背景下提出我们的方案,该方案尚未推广到更一般的全量子计算背景。
I. 引言 DNA 分子具有高密度和长期稳定性,因此成为存档海量信息的一种有前途的解决方案。传统数字存储介质(如硬盘和磁带)受限于物理尺寸,且易随时间推移而退化。相比之下,DNA(生物体中携带遗传信息的分子)则为数据存储提供了一种紧凑而耐用的介质。多项开创性研究已证明这一潜力 [1]–[4]。在传统的 DNA 数据存储系统中,二进制数据被编码为四种 DNA 碱基序列:腺嘌呤 (A)、胞嘧啶 (C)、鸟嘌呤 (G) 和胸腺嘧啶 (T)。然后,这些序列通过 DNA 合成的生化过程合成 DNA 分子,称为链。合成的链被集体储存在一个管子里,或封装在二氧化硅颗粒中,在适当的条件下,它们可以保持数千年的稳定 [5]。为了检索存储的二进制数据,需要使用 DNA 测序技术读取 DNA 链,该技术可以确定 DNA 分子中碱基的顺序。然后将测序数据解码回其原始二进制形式。然而,使用 DNA 存储和检索数据的过程并非没有挑战。一个重大问题是 DNA 合成、存储和测序过程中会出现错误。这些错误可能包括替换、插入、删除,尤其是链断裂。当 DNA 分子被切割成两个或多个片段时,就会发生链断裂,这会使准确重建原始数据的过程变得复杂。多项研究 [6]–[8] 已经探讨了纠正传统 DNA 数据存储通道中断裂的问题,这些研究提出了各种编码方案来减轻此类错误的影响。
经济发展与可持续性[1 E 4]。可再生能源的效率和技术使我们能够提供丰富,可靠,清洁,安全且独立于燃油价格的低碳能量。作为一种环保和可疑的能源,氢是化石燃料的绝佳替代品。汽油或其他化石燃料等燃料的能量密度比氢之类的燃料低七倍。氢的能量密度增加使其成为更理想的燃料。氢的运输和存储所需的安全性和特殊表达对氢的应用和广泛使用产生了重大影响。目前,运输主要是由石油燃料燃料燃料的[5 E 7]。石油燃料正变得越来越昂贵且难以获得。氢可以完美地填充这个利基市场。要将这种燃料用作运输燃料,但是,必须首先开发高密度存储通道[8 E 10]。氢可以以多种方式存储,包括具有高容量的高重储罐(350 E 700 bar)。尽管有压力,但与常规能源相比仍然很低。为了使储罐保持高压条件,应通过固体和轻质材料来构建它们。未来车辆的氢燃料储存策略是原子氢的低温液化。由于环境热量的转移,氢的除湿氢是一个严重的chal子。材料的一般结构能由其特异性重力确定。内部存储压力增加并导致燃料损失的主要原因,例如煮沸。由于氢可以通过解离在金属固体(例如LI,Mg或Al)中吸收,因此,化学储存固体化合物比液化化合物更安全,更有效。在温度和压力的环境条件下,可以使用这种方法在大规模上恢复氢。高
I. i Dratsuction的数字数据快速增长,预计到2025年将达到180个Zettabytes,这会导致数据存储危机,需求超过供应[1]。现有的存储技术面临满足大数据需求的挑战。为了响应,DNA由于其密度和杜比(Durabil)而成为有前途的培养基。DNA存储过程涉及综合,创建人工DNA链,编码用户信息,并限制了导致短链和多个嘈杂副本[2],存储容器和测序的存储,一个关键组件[3],[4],[4],[5],[5],[6],将DNA转化为数字序列。与替代方案相比,当前的DNA测序仪可能存在DNA的潜力,但当前的DNA测序仪面临诸如缓慢吞吐量和高成本等挑战[7],[8],[9]。覆盖深度,测序读取与设计链的比率,影响系统潜伏期和成本,突出了优化的需求[10],[4]。我们通过将其推广到更实用的情况来扩展了解决覆盖深度问题[11]的最新研究。具体来说,我们考虑一个存储M文件的容器,每个文件由K信息链组成。使用某些编码方案将这些链编码为MN链,目的是从总m中恢复文件。我们的重点是研究所需的覆盖深度,考虑到诸如DNA存储通道和错误校正代码之类的因素。此外,我们旨在探索错误纠正代码与给定DNA存储系统的最佳配对,以最大程度地减少覆盖深度。此调查是在随机访问设置的框架内进行的,用户试图仅检索存储信息的一小部分。在这种情况下,我们同时进行了理论和实验分析,以检查完全恢复指定文件所需的样本数量的期望和概率分布。DNA覆盖深度问题类似于众所周知的问题,例如优惠券收藏家,Dixie Cup和urn问题,目的是收集所有类型的优惠券或物体[12],[13],[14],[15]。在我们的上下文中,“优惠券”代表综合链的副本,目的是阅读每个信息链的至少一个副本。例如,如果n张优惠券是随机均匀地绘制的,众所周知,所需的预期抽奖
摘要 - 尽管与DNA降低相关的费用正在迅速降低,但目前的成本约为1.3k/tb,这比今天现有的档案存储解决方案从现有的档案存储解决方案中阅读起来昂贵。在这项工作中,我们旨在通过研究DNA覆盖深度问题来减少DNA存储的成本,还要减少DNA存储的潜伏期,该问题旨在减少所需数量的读取数量以从存储系统中检索信息。在此框架下,我们的主要目标是了解如何将错误纠正代码与给定检索算法配对以最大程度地减少测序覆盖范围的深度,同时确保具有很高概率的信息。此外,我们研究了随机访问设置下的DNA覆盖深度问题。I。由于其显着的密度和耐用性,DNA是一种有前途的存储介质。任何DNA存储系统[1],[8],[17],[23]中的主要组件之一是DNA Sequencer,它可以读回用户的预存储信息。如今,DNA测序仪相对于其他替代存储技术的吞吐量相对较慢,并且成本相对较高[19],[24],[25]。这些问题与所谓的DNA储存覆盖深度有关,DNA存储的覆盖深度定义为所述的读数数量与合成寡核的数量之间的比率[12]。减少覆盖范围的深度可以改善任何现有的DNA存储系统的延迟,并降低其成本。简单地说,DNA覆盖深度问题旨在最大程度地减少覆盖深度,同时保持系统可靠性。是由覆盖深度,潜伏期和成本之间的联系的动机,在这项工作中,我们启动了对新问题的研究,被称为DNA覆盖深度概率。在这项工作中,我们研究了所需的覆盖深度作为DNA存储通道,错误校正代码和重建算法的函数。此外,我们试图了解如何将错误纠正的代码与给定的重建算法配对,以最大程度地减少覆盖范围的深度。将在随机和非随机访问设置下研究此问题。DNA覆盖深度问题与优惠券收集器(CCP),Dixie Cup和URN问题[7],[9],[10],[16]有关。对于所有这些问题,假定n种不同类型的优惠券,感兴趣的问题是人们在拥有每种类型的一张优惠券之前应收集多少优惠券。众所周知,如果优惠券是随机统一绘制的(重复),则预期