CBD/DSI/AHTEG/2020/1/3 第 2 页 7. “数字序列信息”(DSI)被广泛认为是一个占位符,迄今为止尚未就其替代词或精确定义达成共识。本研究首先力求通过解释可理解为构成 DSI 的各种信息类型并提供此类信息生成和使用方式的背景,确保有足够的技术基础来考虑 DSI 的概念。图 1 显示了来自遗传资源的信息流,这是读者了解本研究技术基础的重要参考。它以“分子生物学的中心法则”(即 DNA 转录为 RNA,进而翻译成蛋白质的过程)为基础,解释了遗传资源的 DNA(无论是从天然来源获得还是人工开发)如何用于生物学。DNA、RNA、蛋白质和代谢物在我们理解为生命的生物体内执行任务和过程。该图还描述了可能与遗传资源及其衍生物相关的不同类型的数据,包括基因组、转录组、代谢组、表观基因组数据和元数据。
疟疾是由疟原虫感染引起的,仍然是全球关注的重大健康问题。几十年来,遗传难治性和有限的工具阻碍了我们研究恶性疟原虫(与最严重的疟疾病例相关的寄生虫)中必需蛋白质和途径的能力。然而,近年来,我们在基因操纵恶性疟原虫和有条件控制蛋白质表达/功能的能力方面取得了重大飞跃。恶性疟原虫中使用的条件敲低系统针对中心法则的所有 3 个组成部分,使研究人员能够有条件地控制基因表达、翻译和蛋白质功能。在这里,我们回顾了一些已调整或开发用于恶性疟原虫的常见敲低系统。使用条件敲低方法所做的大部分工作是在无性生殖的血液阶段寄生虫中进行的,但我们也会重点介绍它们在生命周期其他部分的用途,并讨论在红细胞内阶段之外应用这些系统的新方法。随着这些工具的使用,该领域对寄生虫生物学的了解不断增加,并且正在发现抗疟药物开发的有希望的新途径。
摘要:非编码 RNA (ncRNA) 违背了中心法则,它代表了一类 RNA 分子,这些分子不会翻译成蛋白质,但可以传递 DNA 中编码的信息。阐明 ncRNA 的确切功能是过去十年的发现重点,并且仍然具有挑战性。尽管如此,了解 ncRNA 的重要性显而易见,因为这些分子在转录和转录后水平上调节基因表达,发挥对发育、肿瘤发生和免疫至关重要的多效性作用。ncRNA 被称为“细胞核的暗物质”,揭示它们在生理和病理过程中的作用将为基础和转化研究提供大量机会,并有可能取得重大治疗进展。因此,人们正在大力努力开发 ncRNA 的治疗效用,其中一些已获得美国食品药品管理局和欧洲药品管理局的批准。 ncRNA 疗法(或“疫苗”,如果定义为抗病药物)单独使用或与现有疗法结合使用时,可能会改善治疗策略。本综述将重点介绍 ncRNA 疗法在前列腺癌中的作用,同时探索这些分子的基本生物学方面,这些分子约占人类转录组的 97%。
摘要:KRAS 是一种经过充分验证的抗癌治疗靶点,其转录下调已被证明对具有异常 KRAS 信号传导的肿瘤细胞具有致命性。G-四链体 (G4) 是一种非典型核酸结构,可介导中心法则事件,例如 DNA 修复、端粒延长、转录和剪接事件。G4 是极具吸引力的药物靶点,因为它们比 B-DNA 更球形,能够实现更具选择性的基因相互作用。此外,它们的基因组普遍性在致癌启动子中增加,它们的形成在人类癌症中增加,并且它们可以通过小分子或靶向核酸进行调节。文献中描述了多种 G4 的推定形成,但对这些结构具有选择性的化合物尚未能够区分主要结构的生物学贡献。利用无细胞筛选技术、新型吲哚喹啉化合物的合成和 KRAS 依赖性癌细胞的细胞模型,我们描述了在 KRAS 启动子 G4 近区和 G4 中区之间进行选择的化合物,将化合物的细胞毒活性与 KRAS 调节相关联,并强调 G4 中区作为进一步靶向努力的先导分子非规范结构。
摘要:正向遗传筛选已显示出有害突变的后果;然而,它们最适合于繁殖率高、繁殖量大的模式生物。此外,研究人员必须如实地识别表型变化,即使是细微的变化,才能充分发挥筛选的优势。反向遗传方法也探测基因型与表型的关系,只是遗传目标是预先定义的。直到最近,反向遗传方法还依赖于非基因组基因沉默或相对低效的同源性依赖基因靶向来产生功能丧失的产物。幸运的是,成簇的规律间隔的短回文重复序列 (CRISPR)/Cas 系统的灵活性和简单性彻底改变了反向遗传学,几乎可以随意对任何生物体中的任何基因进行精确诱变。成功整合插入/缺失 (INDEL) 和无义突变,从表面上看,会产生预期的功能丧失表型,但事实证明,这些整合几乎没有效果,即使其他基因沉默方法显示出强大的功能丧失后果。结果之间的分歧提出了有关我们对基因型到表型的理解的重要问题,并强调了中心法则中的补偿能力。本综述描述了最近似乎存在基因组补偿的研究,讨论了可能的补偿机制,并考虑了对强大的基因功能丧失研究很重要的因素。
基因组是完全编码 DNA、RNA 和蛋白质的序列,这些序列协调着整个生物体的功能。机器学习的进步与大量全基因组数据集相结合,可以实现生物基础模型,从而加速对复杂分子相互作用的机制理解和生成设计。我们报告了 Evo,这是一种基因组基础模型,可以实现从分子到基因组规模的预测和生成任务。使用基于深度信号处理进步的架构,我们将 Evo 扩展到 70 亿个参数,上下文长度为 131 千碱基 (kb),分辨率为单核苷酸字节。Evo 在整个原核生物基因组上进行训练,可以推广到分子生物学中心法则的三个基本模式,以执行零样本函数预测,其性能可与领先的领域特定语言模型相媲美,甚至优于它们。Evo 还擅长多元素生成任务,我们通过首次生成合成的 CRISPR-Cas 分子复合物和整个可转座系统来证明这一点。利用从整个基因组中学到的信息,Evo 还可以在核苷酸分辨率下预测基因的必要性,并可以生成长度高达 650 kb 的编码丰富序列,比以前的方法长几个数量级。Evo 在多模态和多尺度学习方面的进步为提高我们对多个复杂程度的生物学的理解和控制提供了一条有希望的道路。
与癌症易感性和肿瘤发生相关的 DDR 基因的发现迫使 NGS 面板扩展个性化方法,以超越 BRCAness(即 BRCA1/2 基因)的范畴。然而,仅仅试图扩展 DDR 基因面板也有局限性。首先,尚不清楚低频突变的 DDR 基因(甚至是变体)是否真的是肿瘤发生的驱动改变。不幸的是,在许多情况下,包括 BRCA1/2 突变肿瘤在内,在特定肿瘤类型中发现的突变频率可能与更常见的癌症驱动基因(例如 Kras 或 TP53 )相比非常低,因此很难判断这些事件是否在给定的患者群中经常被选择。根据传统癌症遗传学的中心法则,某种肿瘤类型的突变频率必须高于健康对照群体的预期 (7)。其他复杂层面包括这些 DDR 相关基因是否具有与 BRCA1/2 等已建立的 DDR 基因相同的致命弱点(也称为合成致死性),以及这些基因是否符合经典的肿瘤抑制规则,即需要在肿瘤中丢失第二个等位基因(例如杂合性缺失,LOH)(7)。因此,在许多 DDR 基因中,尚不清楚这些 DDR 缺陷基因是否具有预测治疗价值。基于这些问题,许多研究人员试图设计检测分子特征的检测方法,以识别具有缺陷 DDR 通路的肿瘤(即 HRD,见下文)。
1 医学生物学作为一门科学,是生物学和遗传学史上的标志 2 细胞和人体的化学组成。生物分子中的化学键 3 生物聚合物、一般结构、脂质、多糖 4 蛋白质结构 5 蛋白质功能 6 原核细胞和真核细胞的结构 7 生物膜(结构、功能) 8 膜蛋白和膜转运 9 细胞器(概述、结构、功能) 10 细胞骨架系统 - 概述、中间丝 11 细胞骨架系统 - 微管、微丝 12 导致发现 DNA 作为遗传信息载体的实验 13 核酸结构 14 原核生物和真核生物基因组(特征和差异) 15 人类基因组的结构(组蛋白、核小体、染色质) 16 线粒体基因组 17 DNA 复制 18 原核生物和真核生物中 DNA 复制的比较 19 DNA 损伤的类型及其原因 20 DNA 修复机制(NER、BER、错配修复 21 DNA 双链断裂修复 22 染色体不稳定性和非整倍性 23 分子生物学的中心法则,原核和真核基因 24 RNA 分子的类型和转录的一般特征 25 原核生物的转录 26 真核生物的转录 27 真核生物的转录后修饰 28 RNA 编辑和逆转录 29 遗传密码 30 tRNA 和氨酰基-tRNA 合成酶,核糖体结构 31 翻译 32 翻译后修饰 33 蛋白质折叠和蛋白质降解,蛋白质分选 34 原核生物基因表达调控-操纵子模型,示例 35 真核生物基因表达调控(概述) 36 转录水平的调控,转录因子 37 转录后水平的表达调控(从细胞核输出,mRNA退化,非
图表列表 图 1.1:限制性酶的发现时间表及一般历史里程碑……………………………………………………………………………………………………… 2 图 1.2:中心法则图…………………………………………………………………… 4 图 1.3:不同类型的限制性酶;ZFN 和 TALEN 序列特异性分别与特定三联体或有限特定 bp 序列有关。粉红色高亮表示所示限制性酶或内切酶的结合位点。粗线表示切割位点………………………………………………………… 5 图 1.4:CRISPR-Cas9 系统的功能组件(Bortesi, L. 和 Fischer, R.,2014 年)。面板 (a) 显示了 Cas9 正常发挥功能所必需的各个 RNA 组件。图 (b) 显示 RNA 成分连接在一起形成 sgRNA 序列。……………………………………………………………………...… 8 图 3.1:设计引物的 Lambda DNA 凝胶电泳(目标大小 1000bp)。孔 1 显示大小标准(以“M 表示),孔 2 和 3 显示成功 PCR …………………………………………………………………………………..... 20 图 3.2:基于 Origene 的 CRISPR-Cas9 方案的凝胶电泳。含有梯状物的孔标记为“L”。含有未切割的 PCR 产物储备孔标记为“P”。标签 2/3、1X 和 4X 表示反应中使用的 DNA 浓度。标准浓度为 1X。孔 2-4、6-8、10-12、14-16、18 和 19 显示 CRISPR/Cas9 反应产物 .……………………………….…….….… 21 图 3.3:基于 Origene 的改良版 CRISPR-Cas9 方案的凝胶电泳图,其中模板 DNA 浓度和 Cas9 试剂浓度均增加。含有梯度的孔标记为“L”。含有未切割的 PCR 产物原料孔标记为“P”。孔 3-6、7、8、10-13、14 和 15 含有 CRISPR/Cas9 反应产物。所有反应均含有 10uL 模板 DNA .…………………………………………………..……………………..……...…. 22 图 3.4:基于 IDT 的改良版 CRISPR-Cas9 方案的凝胶电泳图。含有梯状物的孔标有“L”。含有未切割的 PCR 原液产物的孔标有“P”。孔 2 不含任何产物。孔 3-6、7-10 和 11-14 含有 CRISPR/Cas9 反应产物。所有反应均含有 tracrRNA。孔 11-14 含有 3 倍量(uL)的模板 DNA……… ...
本社论旨在简要介绍信息论在计算生物学和生物信息学领域的应用历史;简洁地总结相关研究的现状和面临的挑战;并描述本期《熵》杂志特刊以“计算生物学中的信息论”为主题的特刊所邀请内容的范围。信息论作为一个研究领域,始于 1948 年克劳德·香农 (Claude Shannon) 的开创性专著《通信的数学理论》的出版[ 1 ]。这项工作引入了包括信息熵、互信息(后来由罗伯特·M·法诺 (Roberto M. Fano) [ 2 ] 创造的一个术语)和将信息表示为二进制数字(位,这个术语归功于约翰·图基 (John Tukey))[ 3 ] 等概念。香农的工作超越了哈里·奈奎斯特和拉尔夫·哈特利在 20 世纪 20 年代以及阿兰·图灵和诺伯特·维纳在 20 世纪 40 年代的相关工作 [ 4, 5 ],描述了数据传输和压缩的基本定律 [ 6 ] 以及在噪声信道上通信效率的理论极限 [ 7 ]。作为一个与概率、统计学和计算机科学 [ 6 ] 等许多学科相交叉的统一理论,信息论被用于研究各种系统中信息的提取、传输、处理和使用。香农的概念以及受其启发的概念构成了现代数字信息技术的基础 [ 5 ]。 20 世纪 60 年代,晶体学等实验方法的改进以及分子生物学方法在生物学分支学科的迅速扩展,使生物学家能够加深对各种现象的理解 [8],包括 RNA 密码的特征 [9]、蛋白质的结构 [10,11] 以及基因和蛋白质的进化 [10,12–14]。分子生物学的中心法则 [15] 是在 RNA 转录和翻译过程的基础性发现之后发展起来的。随着 20 世纪 60 年代计算机科学理论的出现和现代计算时代的到来,应用计算策略解决生物学问题,开创了计算生物学领域 [16]。计算方法在生物学问题上的早期应用包括进化的计算研究[17]和蛋白质结构[18],以及第一个序列比对算法的开发[19,20]。我们注意到,计算生物学有时与生物信息学[21-23]互换使用,尽管这些学科也经常以各种方式区分。我们做出以下区分:生物信息学致力于开发算法、数据库、软件工具和其他计算资源,以便对生物数据进行深入分析,包括其获取、存储、量化、注释、视觉探索和其他形式的处理 [ 23 ]。生物信息学项目的单个基于软件的产品通常可以广泛应用于解决各种生物学问题。作为对生物信息学范围的补充,计算生物学旨在