大数据集为典范以前研究的主题提供了新的见解。我们使用共同进化数据创建了跨膜β桶(TMBB)的大型高质量数据库。通过在生成的进化接触图上应用简单的特征检测,我们的方法(Isitabarrel)在区分蛋白质类别时可以达到95.88%的平衡精度。此外,与Isitabarrel的比较表明,在先前的TMBB算法中,假阳性率很高。除了比以前的数据集更准确之外,我们的数据库(在线可用)还包含来自38个门的1,938,936个细菌TMBB蛋白,比以前的Sets TMBB-DB和OMPDB大17和2.2倍。我们预计,由于其质量和大小,该数据库将作为需要高质量TMBB序列数据的有用资源。我们发现TMBB可以分为11种类型,其中三种尚未报告。我们发现,含TMBB的生物的蛋白质组百分比的巨大差异,其中一些使用其蛋白质组的6.79%用于TMBB,而另一些则使用其蛋白质组的0.27%。TMBBS长度的分布暗示了先前假设的重复事件。此外,我们发现C末端β-信号在不同类别的细菌之间会有所不同,尽管最常见的是LGLGYRF。但是,该β-信号仅是原型TMBB的特征。九种非原型枪管类型具有其他C末端基序,并且这些替代基序是否有助于TMBB插入或执行任何其他信号传导函数,尚待确定。
主要关键词