Loading...
机构名称:
¥ 1.0

非编码 RNA(ncRNA)占人类基因产物的大多数,参与各种重要的生物过程,被认为是相关的疾病生物标志物和治疗剂。然而,有关这些生物分子的信息仍然分布稀疏,大多以科学研究文章的形式存在。因此,汇总和总结现有信息至关重要。应用于文本挖掘的自然语言处理(NLP)方法可以从文本数据中自动提取和总结信息。这些技术可用于生成表达实体之间关系的带注释句子集合,称为关系语料库。在这项工作中,我们开发了一个文本挖掘管道,使用远程监督关系提取 (DSRE) 生成 ncRNA-表型关系语料库 (ncoRP),包括 21,608 篇带注释的文章、2,835 个独特的 ncRNA、1,118 个独特的表型和 35,295 个独特的关系,精度为 0.761,F1 分数为 0.593,通过人工验证计算。DSRE 方法需要一组预先记录的关系才能发挥作用,因此,通过聚合五个全面的 ncRNA 疾病功能注释数据库,创建了一个高保真 ncRNA-表型关系数据集,该数据集包含 214,300 个独特的关系。然后,ncoRP 和关系数据集都对解决 ncRNA 信息稀疏问题做出了重要贡献。大型语言模型 (LLM) 是一种新兴的语言模型,通过文本生成表现出强大的一般任务解决能力,而无需使用大型数据集进行微调。与数据密集型的最先进的深度学习方法相比,这一优势在关系提取 (RE) 中的应用前景广阔。在这项工作中,提出并评估了一种 LLM RE 方法,通过将 RE 任务与前一句过滤任务相结合并应用提示原则(例如上下文学习和思维链自我解释),实现了 0.978 的 F1 分数。

使用人工智能预测非编码 RNA 功能

使用人工智能预测非编码 RNA 功能PDF文件第1页

使用人工智能预测非编码 RNA 功能PDF文件第2页

使用人工智能预测非编码 RNA 功能PDF文件第3页

使用人工智能预测非编码 RNA 功能PDF文件第4页

使用人工智能预测非编码 RNA 功能PDF文件第5页

相关文件推荐

2023 年
¥1.0