蛋白质功能推论依赖于通过序列模拟性的注释蛋白质域,通常通过剖面隐藏的Markov模型(配置文件HMM)建模,该模型捕获了相关域内的进化多样性。但是,在以序列进行建模残基时,file-file hmms可以使强大的简化独立性假设。在这里,我们介绍了诗篇(使用语言模型的蛋白质序列注释),一种分层方法,可放松这些假设,并使用蛋白质语言模型学到的蛋白质序列的表示,以启用高敏,高特异性残基级蛋白质序列。我们还为蛋白质序列结构域注释开发了一个基准,在该序列身份的给定阈值下,训练和测试序列进行了严格的分裂,以在其任何域之间没有相似性。一次分配一个域家族的基准测试分析不支持注释多域蛋白的方法,其中训练和测试序列需要来自不同家族的多个域。我们在此基准测试中验证了诗篇的表现,并突出显示诗篇作为HMMER的有希望的替代方法,即一种基于最新的基于HMM的方法,用于蛋白质序列注释。
无监督的域适应性在将知识从标记的源域转移到未标记的目标域,在时间序列应用中起关键作用。现有的时间序列域适应方法要么忽略频率特征,要么平等地处理时间和频率特征,这使得充分利用这两种功能的优势变得具有挑战性。在本文中,我们深入研究了可传递性和可区分性,这是传递表示学习中的两个至关重要的特性。可以洞悉频率特征在特定域内更具歧视性,而时间特征则在跨域上显示出更好的可传递性。基于发现,我们提出了一个dversarial co-co-co-n n etworks(acon),以通过协作学习方式在三个方面通过协作学习方式来增强可转移的表示:(1)考虑到时代的多个过度差异,提出了多个频率频率特征学习,以增强频率特征的辨别能力; (2)提出了时间域互助学习,以增强源域中时间特征的可区分性,并提高目标域中频率特征的可传递性; (3)域对抗学习是在时间频率特征的相关子空间中进行的,而不是原始特征空间,以进一步增强这两个特征的可传递性。在广泛的时间序列数据集和五个常见范围内进行的广泛实验证明了ACON的最新性能。代码可从https://github.com/mingyangliu1124/acon获得。
蛋白质功能推论依赖于通过序列模拟性的注释蛋白质域,通常通过剖面隐藏的Markov模型(配置文件HMM)建模,该模型捕获了相关域内的进化多样性。但是,在以序列进行建模残基时,file-file hmms可以使强大的简化独立性假设。在这里,我们介绍了诗篇(使用语言模型的蛋白质序列注释),这是一种层次方法,可放松这些假设,并使用蛋白质语言模型学到的蛋白质序列的表示,以实现高敏感性,高特异性残基级蛋白序列注释。我们在由基于轮廓HMM的方法确定的一组策划的“地面真实”注释中验证了诗篇的表现,并突出显示诗篇作为蛋白质序列注释的有希望的替代方法。