摘要生物关系网络包含丰富的信息,以了解基因,蛋白质,疾病和化学物质等实体关系背后的生物学机制。生物医学文献的广泛增长提出了更新网络知识的重大挑战。最近的生物医学关系提取数据集(Biored)提供了有价值的手动注释,从而促进了机器学习和预训练的语言模型方法的发展,以自动识别新颖的文档级别(阶段上下文)关系。尽管如此,其注释缺乏实体角色的方向性(主题/对象),这对于研究复杂的生物网络至关重要。在这里,我们注释了关系中关系的实体角色,随后提出了一种具有软提交学习的新型多任务语言模型,以共同识别关系,新发现和实体角色。我们的结果包括具有10,864个方向性注释的富集生物库。此外,我们提出的方法超过了现有的大型语言模型,例如最先进的GPT-4和Llama-3在两个基准测试任务上。我们的源代码和数据集可在https://github.com/ncbi-nlp/bioredirect上找到。联系人:zhiyong.lu@nih.gov
主要关键词