DNA 存储是一项快速发展的技术,它使用四进制编码将数字数据编码为核苷酸序列,其中碱基 A 、C 、G 和 T 代表信息 [2],[3]。这些序列或链通过称为合成的过程产生,并通过测序检索。该方法的一个关键方面是在合成过程中生成每条链的多个副本。在本文中,我们通过引入复合 DNA 字母探索了一种利用这种冗余的新方法 [1],[4]–[8]。复合 DNA 字母由混合不同的核苷酸形成,实验表明它可以提高数据编码性能 [4],[5],[8]。潜在的好处是显而易见的:虽然标准的四字母 DNA 编码每个通道使用 log(4) = 2 位,但复合编码提供了无限的容量,使较短的链能够编码更多的数据。这一点至关重要,因为较短的链可以降低合成成本 [5] 并降低出错的风险,而出错的风险会随着链长度的增加而增加 [9]。编写复合字母并随机读取 n 份副本可以建模为一个嘈杂的通信信道,特别是多项式信道 [1]。该信道的输入是一个长度为 k = 4 的概率向量,表示核苷酸的混合。通道输出遵循多项分布,进行 n 次试验,概率由输入向量决定。通道的最大信息存储率或容量是通过在所有可行的输入分布选择 [10](即 (k − 1) 维概率单纯形上的分布)中最大化输入和输出之间的互信息来获得的。先前的研究 [1] 表明,即使对于较小的 n 值(例如 n = 9),最大化容量的输入分布也需要数十个质点。此外,如缩放定律 [11] 所示,支持大小随容量呈指数增长。这对 DNA 存储系统提出了挑战,因为每个质点对应一种不同的核苷酸混合物,而可能的混合物数量是有限的。为了解决这个问题,我们的论文重点计算了容量实现
计算机科学系弗吉尼亚理工大学,弗吉尼亚州,美国摘要——“除非我们的社会认识到网络欺凌的本质,否则成千上万的沉默受害者将继续遭受痛苦。”~安娜玛丽亚查韦斯。关于网络欺凌的研究已经有很多,但都无法提供可靠的解决方案。在这项研究工作中,我们开发了一个能够以 92% 的准确率检测和拦截欺凌传入和传出消息的模型,从而为这一问题提供了永久的解决方案。我们还开发了一个聊天机器人自动化消息系统来测试我们的模型,从而开发了人工智能驱动的反网络欺凌系统,使用多项式朴素贝叶斯 (MNB) 和优化的线性支持向量机 (SVM) 的机器学习算法。我们的模型能够检测和拦截欺凌的传入和传出欺凌消息并立即采取行动。