1. 将大文件拆分为两个或多个小文件,然后分别上传每个小文件(参见 2.1 拆分文件) 2. 使用 WinZip 或其他压缩实用程序“压缩”文件,然后上传(较小的)压缩文件(参见 2.2 压缩文件(压缩)) 3. 作为最后的手段,利用 DODSafe 将文件传输到 COR 以上传并附加到 eCMS 对象(参见 2.3 通过 DODSafe 发送文件)
信息的概念在我们这个时代无处不在。但要对这个术语的含义给出一个精确的定义却不那么明显。一个基本的直觉是,信息与知识相关,并且可以被传递。在 20 世纪 30 年代和 40 年代,图灵和香农将信息的概念从其物理载体中抽象出来,目的是建立一个适用于所有物理系统的通用信息和计算理论。在通用信息理论中,基本单位是比特。一个比特可以取两个值。在实践中,比如在计算机中,这可能是电流是否存在,或者一个微小的磁铁是指向上方还是下方,等等。然而,对于信息论而言,物理细节完全不重要,我们只需用值 0 或 1 标记这两个状态。在信息论中,我们想到的是某个过程,一个源,生成符号序列。例如,这可能是你在电脑上打字。我们如何使用比特来测量信息?让我们用压缩的基本例子来具体说明这一点。假设您在计算机上编写了一份文档。您可以通过将每个符号编码为位来保存文档。如果您使用包含 k 个符号的字母表编写了长度为 n 的文本,这将需要 n ⌈ log k ⌉ 位(因为您需要 ⌈ log k ⌉ 位来编码字母表中的单个符号)。但是,您可能很熟悉,您也可以让计算机将文本文件压缩为更少的位数。此过程使得您可以通过某种算法从压缩文件中恢复原始文档。这表明,考虑文本文档中存在的信息量的合理方法可能是您可以压缩文件到的最小位数。信息的第二个基本方面涉及传输。物理通信信道(例如电缆或电磁波)通常很嘈杂:如果发出特定信号,它可能会在途中损坏。但是,可以通过向信号添加冗余来纠正错误。信息论研究如何添加尽可能少的冗余以实现可靠的通信。信息理论对于高速电子通信的运行至关重要。
尽管已经对数百万个基因组进行了测序,但其中大多数是从少数物种(例如人,大肠杆菌和结核分枝杆菌)中测序的。结果,现有的基因组序列是高度冗余的。这就是Hunt等人的方式。(2024)压缩了7.86个细菌组件(TB),也称为Alltheberacteria,在分组系统发育相关的基因组后,将其分成78.5 GB(GB)(Bˇrinda等人(Bˇrinda等),2024)。所得的压缩文件无损地保留所有序列,但不能直接搜索。索引对于启用快速序列搜索是必需的。k-mer数据结构是序列索引的流行选择(Marchet等人,2021)。它们可以分为三类。第一类并不将K-MER与数据库序列中的位置相关联。这些数据结构支持会员资格查询或伪字符(Bray等人,2016年),但无法重建输入序列或报告基础对齐。Petabase量表的序列搜索使用所有此类方法(Edgar等人,2022; Karasikov等。,2024; Shiryev和Agarwala,2024年)。第二类将K-MER的子集与其位置相关联。找到K-MER匹配时,此类别中的算法回到数据库序列并执行基本对齐。大多数对齐器都这样工作。但是,由于数据库序列不能很好地压缩,因此这些算法可能需要很大的空间来存储它们。最后一个类别保留所有K-Mers及其位置。,2024)。此类别中的算法可以重建所有数据库序列而无需明确存储它们。尽管可以有效地压缩K-MER的位置(Karasikov等人,2020),他们仍然占用很大的空间。最大的无损K-MER指数由一些terabase组成(Karasikov等人压缩全文索引,例如FM索引(Ferragina和Manzini,2000)R-Index(Gagie等人。,2018年; Bannai等。,2020年; Gagie