缺失序列:在功能上表征高度保守的DNA的物种特异性缺失。生物学中剩下的一个主要问题是基因组中的基本物种差异是如何编码的。基因组序列技术最近才能比较数百种物种的高质量基因组。然而,由于三个原因,很难解释定义物种的基因组区域:1)准确的基因组比较和比对在计算上是密集的; 2)搜索空间很大,仅哺乳动物就有数百万的可排列碱具不同; 3)这些序列差异主要是在难以预测功能的非编码的,潜在的基因调节区域中。一组可以实验的基因组元素是保守的缺失(Condels) - 由于其强烈的序列保守1所示,该区域显示了功能证据的区域1。condels可能具有独特的信息,因为它们可能会导致缺失驱动的物种特异性功能。首先,我将基于高通量全基因组对齐方式开发新的计算方法,以识别数百种物种的der孔,从而大大扩展了物种特异性基因组元素的目录。使用此新增强的数据集,我将使用大量并行的记者测定法(MPRA)测定多个哺乳动物的100,000多个秃鹰的功能。最后,我将通过识别condels子集的差异结合的转录因子来探讨condel函数如何内源性(图1)。这将使我们和其他研究人员开始审问序列变化和物种形成的相互作用。AIM 1:在计算上识别哺乳动物基因组中的秃鹰及其潜在影响。首先,我将为几种不同的脊椎动物创建对齐方式,以识别特定物种的缺失。虽然已为人类和小鼠等普通物种产生了整个基因组,但已经生成了比较多样的一致性,但锚定在各种分类单元上的组件,这些分类群缺乏各种焦点物种中的缺失。i将使用29个哺乳动物项目和脊椎动物基因组项目中的新基因组建立多个对齐,从卵形群到人类2,3。对于这157种,我将使用每个物种最接近所有其他基因组的多样对齐,从而产生一系列保守元素的列表,这些元素被预测存在于其最新的共同祖先4,5中。目标物种将被排除在此分析之外,以免偏向哪些区域被识别为保守。然后,我将建立一个成对的对准,以识别特定于物种4的缺失。云计算使得将整个基因组对齐方法缩放到可行的数百种新可用的基因组。使用这种高度详细的脊椎动物秃鹰目录,接下来,我将确定影响基因调节性特征和基因表达的秃鹰的子集,进而确定表型。为了识别物种特异性的调节元件重叠的秃鹰,我将首先比较20个哺乳动物6的现有基因调节图,重点是肝脏,因为该组织具有最多的跨物种功能数据。AIM 2:使用高通量报告基因测定法测试来自多个物种的秃鹰。我还将使用组织匹配的转录组数据6将这些秃鹰与整个基因组中的基因表达相关联,因为调节元素可以长距离起作用。虽然大多数调节性和表达变化被预计会导致功能丧失,但在某些情况下,变化可能会删除抑制性调节序列,从而导致功能增长。i将比较condels do的秃鹰,而不是不显示肝脏对调节作用的证据,寻找序列年龄,复杂性,基因组位置或其他功能进化模式的差异。如果我的计算管道失败,我可以调查已发布的1,较小的condel集与最近发表的基因调节数据集7的相关性。在随后的随访中,我可以在人类和小鼠7中使用已经存在的全身调节图富含dy的其他组织,以扩展到肝脏之外。预测非编码元件的潜在功能很困难,因为没有类似于蛋白质编码密码子字母的“语法”。但是,像大量平行的报告基因测定法(MPRA)这样的新的高通量测定法使我们能够直接测量> 50,000个序列构建体对基因表达的单个影响。mpra是一种偶发测定