抽象的高通量技术导致了有关人类基因组中调节性DNA元素的大量数据。但是,疾病驱动的研究的结果主要以文本形式作为科学文章共享。信息提取(IE)算法允许(半)自动访问此信息。他们的发展取决于注释的语料库的可用性。因此,我们引入了Regel(reg ulatory element),这是第一个免费提供的语料库,其中包含305个PubMed摘要的调节性DNA元素,总共有2690个句子。我们专注于增强子,启动子和转录因子结合位点。三个注释者在两个阶段工作,达到了总体0.73 F1通道一致性,调节元素为0.46。取决于实体类型,IE基准的实体检测达到0.48–0.91的F1-分数,实体归一化的基准为0.48-0.91,0.71–0.88达到0.71–0.88。接下来,我们将实体检测模型应用于整个PubMed收集,并提取基因或与调节元素的疾病的共发生。这产生了与137 870个独特基因和7420疾病相关的大量调节元素,我们可以公开使用。数据库URL:https://zenodo.org/record/6418451#.yqclhvexvqg
主要关键词