结果:我们表明,我们的Enzbert Transformer模型通过蛋白质语言模型的专业化而受过训练,可预测酶佣金(EC)数量,仅基于序列而优于单功能酶类预测的最先进的工具。在EC40基准上的第二级预测EC数量的预测中,精度从84%提高到95%。为了评估第四级的预测质量,这是最详细的EC数字,我们构建了两个新的基于时间的基准测试,以与最先进的方法ECPRED和DEEPEC进行比较:Macro-F1分别从41%提高到54%,从20%提高到20%。最后,我们还表明,使用一个简单的注意力图与EC预测任务上的其他经典性方法相当,或者比其他经典性方法更好。更具体地,注意图鉴定出的重要残基倾向于对应于已知的催化位点。量化,我们报告的最高F-GEAIN评分为96.05%,而经典的可解释性方法最多达到91.44%。
1 德国慕尼黑工业大学伊萨尔右医院放射肿瘤学系 2 德国慕尼黑德国放射治疗联盟 (DKTK),慕尼黑合作伙伴网站 3 德国慕尼黑亥姆霍兹中心放射医学研究所 (IRM)、放射科学系 (DRS) 4 德国慕尼黑工业大学信息学系 5 德国慕尼黑工业大学 TranslaTUM - 转化癌症研究中心 6 瑞士苏黎世大学医院放射肿瘤学系 7 德国马格德堡大学医院放射肿瘤学系 8 德国耶拿弗里德里希-席勒大学耶拿大学医院放射治疗和放射肿瘤学系 9 瑞士苏黎世大学医院定量生物医学系 10德国慕尼黑工业大学伊萨尔右医院神经放射学系 11 德国慕尼黑工业大学伊萨尔右医院神经外科系 12 德国海德堡大学医院放射肿瘤学系 13 德国海德堡国家放射肿瘤学中心 (NCRO) 海德堡放射肿瘤学研究所 (HIRO) 14 德国哥廷根大学医学中心放射肿瘤学系 15 瑞士阿劳州立大学 KSA-KSB 放射肿瘤学中心 16 德国富尔达综合医院放射肿瘤学系 17 德国基尔石勒苏益格-荷尔斯泰因大学医学中心放射肿瘤学系 18 德国弗莱堡大学医学中心放射肿瘤学系 19 德国癌症联盟(DKTK),弗莱堡合作伙伴网站,德国弗莱堡 20 塞浦路斯欧洲大学德国肿瘤中心放射肿瘤学系,塞浦路斯利马索尔 21 法兰克福和德国北部 Saphir 放射外科中心,德国盖斯特罗 22 法兰克福大学医院神经外科系,德国法兰克福 23 法兰克福工业大学医学人工智能和信息学研究所
摘要 机载遥感由于系统部署的灵活性而在农业监测中具有重要的应用。实际应用中的主要障碍是其高成本。为了降低成本,可以使用小型空中平台(例如微型无人机(mini-UAV))上的单个相机来组装多光谱系统。在这种情况下,即使经过仔细调整,相机仍可能存在移位和旋转错位。平台飞行时会捕获连续的帧。因此,在生成任何商业产品以支持实际决策之前,必须进行单帧内的多波段配准和帧间镶嵌以获得整个监测区域的联合配准多光谱图像。在本文中,我们提出了实现此目标的自动算法。这些算法对于没有明显特征的图像场景特别有用。自动和手动评估均证实了所开发的算法在整体平坦地形无明显特征的多传感器数据融合中的有效性。
在最近的应用中,MSA的构建从有趣的查询顺序开始。该过程涉及搜索数据库以查找类似于查询的序列并将其对齐。DNA/RNA测序技术的最新进展扩大了Pub-LIC数据库,使能够产生具有高序列多样性的MSA [13,14]。通常认为这种MSA提供了更丰富的进化和协调性的见解,因此它们可以提高使用模型来下游任务的模型的有效性[9]。但是,由于MSA可以包含冗余序列,因此序列的数量本身可能不是其多样性的准确反映。“有效序列的数量”的概念,NEFF解决了这种冗余,并评估了MSA的质量。较高的NEFF值通常表明MSA更多样化和信息丰富,从而导致预测接触图和蛋白质或RNA分子的三级结构的精度[15,16]。例如,当NEFF值低于30 [5]时,Alphafold的准确性大大下降。此外,对于使用RNA的MSA作为输入的RNA结构预测模型(例如Trrosettarna),预测准确性与NEFF [7]相关,而对于高质量的MSA,这些模型可以胜过其他方法[17]。我们介绍了Neffy,这是一种快速而专用的独立工具,用于NEFF计算。neffy具有唯一装备的分析MSA,并在蛋白质和核酸序列的多种MSA格式中计算NEFF。它集成了NEFF工具(请参阅表1)中的所有功能,并提供一组新功能。neffy是在C ++中开发的,以实现最佳性能,并作为包装C ++可执行文件的Python库提供。这种方法可以使无缝集成到基于Python的工作流程中,从而简化了更广泛的受众的使用,同时保持效率。
天鹅绒蠕虫(Onychophora)的粘液是一种坚固且完全可生物降解的蛋白质材料,在射精后,它经历了快速的液体向固醇过渡到Ensnare Prey。然而,粘液自组装的分子机制仍未得到充分理解,尤其是因为粘液蛋白的主要结构尚不清楚。结合了转录组和蛋白质组学研究,作者获得了粘液蛋白的完整主要序列以及粘液自组装的识别的关键特征。高分子量粘液蛋白在N-和C末端中含有半胱氨酸残基,可通过二硫化键介导多蛋白质复合物的形成。N末端中的低复杂性结构域也被鉴定出来,并建立了其液态液相分离的倾向,这可能在粘液生物结构中起核心作用。使用固态核磁共振,粘液蛋白的刚性和灵活域映射到特定的肽结构域。主要的粘液蛋白的完整测序是迈向受天鹅绒蠕虫粘液启发的聚合物可持续制造的重要一步。
(‡等等贡献。∗应向谁解决。)9公共存储库中可用的生物测序数据量正在成倍增长,形成了10个宝贵的生物医学研究资源。然而,使其在11种生活和数据科学中的研究人员可以访问且易于访问是一个未解决的问题。在这项工作中,我们利用了最近开发的,非常有效的12个数据结构和算法来表示序列集。我们在所有13个生命的进化枝中制作了DNA序列的石柄,包括病毒,细菌,真菌,植物,动物和人类,都可以完全搜索。我们的索引可供研究社区免费使用。在单个消费者硬盘驱动器(≈100USD)上,输入序列(最多15 5800×)的高度压缩表示形式,使使用可使用的有价值的资源成本效益和16个易于运输。我们提出了一种基本的方法论框架,称为Metagraph,该框架使我们使用注释的DE Bruijn图可缩减索引非常大的DNA或蛋白质序列。我们证明了18个可行性,即索引现有的测序数据的全部范围,并提出新的方法,以实现高效和成本-19有效的全文搜索,按点数为0.10美元,每个查询的MPB $ 0.10。我们探索了几个实际用例20,以挖掘现有的档案,以进行有趣的关联,并证明了我们对综合21分析的索引的实用性。22
收到2024年2月2日; 2024年5月7日接受;于2024年6月7日发布:1 Doherty应用微生物基因组学,微生物学和免疫学系,墨尔本大学Peter Doherty感染与免疫学研究所,792 Elizabeth Street,Melbourne VIC 3000,澳大利亚澳大利亚墨尔本街792号; 2爱尔兰科克摩尔帕克的Teagasc食品研究中心; 3爱尔兰科克大学科克大学科克大学科克大学的APC微生物组和微生物学院; 4 Vistamilk SFI研究中心,爱尔兰科克Teagasc Moorepark。*信件:John G. Kenny,John。Kenny@teagasc。IE关键字:Amplicons;数据库;长阅读测序;微生物组;纳米孔; rRNA。缩写:COV,变异系数; ESV,精确的序列变体; Grond,基因组衍生的核糖体操纵子数据库; GTDB,基因组分类数据库; IQR,四分位数范围;它的内部转录垫片; NR,非冗余; ONT,牛津纳米孔技术; RRN,16S-ITS-23S rRNA操纵子; rRNA,核糖体RNA; SD,标准偏差; Taxlca,集群中所有序列的最低祖先; Taxmaj,最低的分类学等级,其中所有序列中的所有序列都具有简单的多数协议; Taxrep,集群代表序列的源基因组分类学; UMIS,唯一的分子标识符。数据语句:文章或通过补充数据文件中提供了所有支持数据,代码和协议。本文的在线版本可以使用两个补充表。001255©2024作者
基因组测序技术和较低成本的抽象进步使得探索了许多已知和新颖的环境和微生物组。这导致了存放在在线存储库中的原始序列数据的指数增长。宏基因组和元文字数据集通常在特定的生物学问题上进行分析。然而,人们普遍认为,这些数据集由一定比例的序列组成,这些序列与任何当前已知的生物学序列没有相似之处,并且这种所谓的“暗物质”通常被排除在下游分析中。在这项研究中,开发了一个系统框架来组装,识别和测量不同人类微生物中存在的未知序列的比例。该框架应用于40个不同的研究,包括963个样本,涵盖了10种不同的人类微生物组,包括粪便,口腔,肺,皮肤和循环系统微生物群。我们发现,尽管人类微生物组是研究最广泛的研究组之一,但平均有2%的组装序列尚未在分类学上定义。然而,这一比例在不同的微生物组之间变化很大,对于与环境有更多相互作用的皮肤和口服微生物组的高达25%。根据本研究中发现的这些分类未知序列计算出1.64%的未知序列的分类表征率。跨研究比较导致不同样品和/或微生物组中类似未知序列的鉴定。我们的计算框架和生产的新型未知序列都是公开的,可用于将来的交叉引用。我们的方法导致发现了几种与公共数据库中序列没有相似性的新型病毒基因组。其中一些是广泛的,因为它们在不同的微生物组和研究中发现。因此,我们的研究说明了未知序列的系统表征如何帮助发现新型微生物,我们呼吁研究界有系统地整理并共享来自元基因组研究的未知序列,以提高未知序列空间的速率。
抽象背景:Boltzmann机器是基于能量的模型,已显示出对进化相关蛋白质和RNA家族的域的准确统计描述。它们是根据局部偏见的参数化,该局部偏向残留物保守性,以及对残基之间的上皮共进化的成对项。从模型参数中,可以提取目标域的三维触点图的准确预测。最近,这些模型的准确性也已根据它们在预测突变效应和在计算机功能序列中产生的能力方面进行了评估。结果:我们对Boltzmann机器学习的自适应实现,ADABMDCA通常可以应用于蛋白质和RNA家族,并根据输入数据的复杂性以及用户需求完成了几个学习设置。该代码可在https://github。com/anna-pa-m/adabm DCA上完全获得。举例来说,我们已经学习了三台Boltzmann机器模式 - Kunitz和beta-lactamase2蛋白结构域以及TPP-riboswitch RNA结构域。结论:ADABMDCA学到的模型与最先进的技术在此任务中获得的模型相当,就推论触点图的质量以及合成生成的序列而言。此外,该代码同时实现平衡和平衡性学习,这可以在平衡时进行准确而无损的训练,并在统一时间上过于态度,并允许使用基于信息的标准来修剪不相关的参数。
基于抽象的分子序列特征测定量度为蛋白质和DNA的研究提供了多功能辅助工具。它们由许多序列数据基搜索程序以及识别单个序列的独特属性使用。对于任何这种措施,重要的是要知道可以纯粹偶然地发生什么。高分段的统计分布已被描述为否则。但是,分子序列将经常产生一些高分段,其中一些合并的序列是顺序进行的。本文介绍了多个HIH得分段得分之和的统计分布,并说明了其应用于识别可能的跨膜段的应用以及评估主体相似性。