本文继承了十年前编辑维基百科的十条简单规则[1]。它介绍了维基百科的机器可读表亲:维基数据——从计算生物学的角度来看,这个项目可能更具相关性。维基数据是一个免费的协作知识库[2],为每个维基百科页面及其他页面提供结构化数据。它依赖于与维基百科相同的同行生产原则:任何人都可以做出贡献。开放的协作模式在实践中往往出人意料地高效,尽管在理论上它们似乎不太可能奏效。尽管如此,它们在学术圈仍然遭到很多抵制和怀疑[3,4]。自 2012 年上线以来,维基数据已迅速发展成为一个跨学科的开放知识库,内容涵盖从基因到细胞类型再到研究人员[2,5-7]。它具有广泛的应用,例如验证有关疾病爆发的统计信息[8]、协调人类冠状病毒资源[9]或评估生物多样性[10,11]。它可以被认为是一个巨大的网络图(图1A),其中的项目作为节点(现在超过1亿个),通过超过十亿条语句相互链接,并通过数十亿条语句进一步链接到更广泛的网络。我们将在文中用斜体字链接到示例维基数据项目和属性(图1)。在线界面使项目本身具有一定的人性化可读性(图1B),但它们的结构化特性使其能够以完全用散文编写的信息源无法实现的方式查询和组合信息。这种多功能性使其在计算生物学中的应用比仅仅依赖维基百科更加通用和灵活[12]。维基数据上的查询范围很广,从哪些基因变异可以预测结直肠癌的阳性预后,到按荷兰以其名字命名的街道数量对分类单元进行分类。我们将尝试使用与计算生物学相关的例子,但请记住,几乎所有东西都可以这样做,从苏格兰中世纪女巫处决地图到按使用人口划分的紧急电话号码,再到描绘青蛙的画作。由于它属于 CC0 版权豁免,因此 Wikidata 的结构化内容基本上已发布到公共领域以用于其他项目 [ 13 ]。您可能已经在搜索引擎结果的顶部看到了它的结构化数据,但它也在幕后使用
简介整合数据和知识是生物医学研究中的一项艰巨挑战。尽管新的科学发现正在迅速发现,但很大一部分知识要么被锁定在数据孤岛中(不同的命名法、数据模型和许可条款阻碍了整合;Wilkinson 等人,2016 年),要么被锁定在自由文本中。缺乏集成和结构化的生物医学知识版本会阻碍对这些信息的有效查询或挖掘,从而阻碍我们充分利用积累的科学知识。最近,科学界越来越强调确保所有科学数据的公平性——可查找、可访问、可互操作和可重用——并且越来越多地就一套具体的原则达成共识以确保公平性(Wilkinson 等人,2019 年;Wilkinson 等人,2016 年)。这些原则的广泛实施将极大地
Wikidata和Wikipedia一样,都是任何人都可以编辑的知识基础。这种开放的协作模型非常有力,因为它减少了参与的障碍,并允许大量人做出贡献。但是,它使知识基础暴露于故意破坏和低质量贡献的风险。在这项工作中,我们以过去的作品为基础检测维基百科的破坏行为,以检测维基达塔的故意破坏。这项工作是新颖的,因为确定结构化知识基础的破坏性变化需要与Wikipedia这样的基于文本的Wiki中的特征启动工作实质性不同。我们还讨论了这些分类者的实用性,以减少Wikidata中的故意破坏巡逻者的整体工作量。我们描述了一种机器分类策略,该策略能够捕获89%的故意破坏者,同时通过从编辑的上下文特征轻轻地汲取自编辑的特征,从而减少巡逻者的工作量98%。
[1] Gabriel Amaral,Rodrigues的Odinal和Elena Symperl。WDV:国家数据数据数据构建编织。在Ulrike Sattles,Aidan Hogan,Maria Keet,Valentine Presutti,JoãoPauloA. Almeida。 2022。内部Springer Publishing。
查询知识库是知识表示中最重要和最基本的任务之一。尽管查询知识库的大部分工作都集中在连接查询上,但通常需要使用一种简单的递归形式,例如常规路径查询 (RPQ) 提供的递归形式,它要求由给定的常规语言定义的路径。连接 RPQ (CRPQ) 可以理解为具有这种递归形式的连接查询的泛化。CRPQ 是 SPARQL 的一部分,SPARQL 是用于查询 RDF 数据的 W3C 标准,包括众所周知的知识库,如 DBpedia 和 Wikidata。特别是,RPQ 在查询 Wikidata 方面非常流行。根据最近的研究 (Malyshev 等人,2018 年;Bonifati 等人,2019 年),它们用于超过 24% 的查询(以及超过 38% 的独特查询)。更一般地说,CRPQ 是查询图形结构数据库的基本构建块 (Barcel´o,2013 年)。随着知识库变得越来越大,对查询的推理(例如用于优化)变得越来越重要。最基本的推理任务之一是查询
大脑。 人工智能和神经科学的广泛研究E-ISSN:2067-3957 | P-SISSN:2068-0473涵盖:Web of Science(ESCI); ebsco; Jerih Plus(hkdir.no); indexcopernicus; Google Scholar; Sherpa/Romeo; Articlereach Direct;世界猫; Crossref; Peeref;知识桥(Mostwiedzy.pl); abcdindex.com;编辑; Ingenta Connect出版物; oalib; scite.ai; Scholar9;科学和技术信息门户; FID移动;高级科学指数(欧洲科学评估中心,neredataltics.org); ivysci; exaly.com;期刊选择器工具(letpub.com); citefactor.org;胖子! ; ZDB目录;目录sudoc(abes.fr); Openalex; wikidata; ISSN门户;社交KVK-Volltitel(kit.edu)2025,第16卷,第1期,第10-21页。 提交:2024年1月2日|接受出版:2025年1月25日大脑。人工智能和神经科学的广泛研究E-ISSN:2067-3957 | P-SISSN:2068-0473涵盖:Web of Science(ESCI); ebsco; Jerih Plus(hkdir.no); indexcopernicus; Google Scholar; Sherpa/Romeo; Articlereach Direct;世界猫; Crossref; Peeref;知识桥(Mostwiedzy.pl); abcdindex.com;编辑; Ingenta Connect出版物; oalib; scite.ai; Scholar9;科学和技术信息门户; FID移动;高级科学指数(欧洲科学评估中心,neredataltics.org); ivysci; exaly.com;期刊选择器工具(letpub.com); citefactor.org;胖子!; ZDB目录;目录sudoc(abes.fr); Openalex; wikidata; ISSN门户;社交KVK-Volltitel(kit.edu)2025,第16卷,第1期,第10-21页。提交:2024年1月2日|接受出版:2025年1月25日
大脑。 人工智能和神经科学的广泛研究E-ISSN:2067-3957 | P-SISSN:2068-0473涵盖:Web of Science(ESCI); ebsco; Jerih Plus(hkdir.no); indexcopernicus; Google Scholar; Sherpa/Romeo; Articlereach Direct;世界猫; Crossref; Peeref;知识桥(Mostwiedzy.pl); abcdindex.com;编辑; Ingenta Connect出版物; oalib; scite.ai; Scholar9;科学和技术信息门户; FID移动;高级科学指数(欧洲科学评估中心,neredataltics.org); ivysci; exaly.com;期刊选择器工具(letpub.com); citefactor.org;胖子! ; ZDB目录;目录sudoc(abes.fr); Openalex; wikidata; ISSN门户;社交KVK-Volltitel(kit.edu)2025,第16卷,第1期,第272-285页。 提交:2024年9月2日|接受出版:2025年1月11日大脑。人工智能和神经科学的广泛研究E-ISSN:2067-3957 | P-SISSN:2068-0473涵盖:Web of Science(ESCI); ebsco; Jerih Plus(hkdir.no); indexcopernicus; Google Scholar; Sherpa/Romeo; Articlereach Direct;世界猫; Crossref; Peeref;知识桥(Mostwiedzy.pl); abcdindex.com;编辑; Ingenta Connect出版物; oalib; scite.ai; Scholar9;科学和技术信息门户; FID移动;高级科学指数(欧洲科学评估中心,neredataltics.org); ivysci; exaly.com;期刊选择器工具(letpub.com); citefactor.org;胖子!; ZDB目录;目录sudoc(abes.fr); Openalex; wikidata; ISSN门户;社交KVK-Volltitel(kit.edu)2025,第16卷,第1期,第272-285页。提交:2024年9月2日|接受出版:2025年1月11日
大脑。 人工智能和神经科学的广泛研究E-ISSN:2067-3957 | P-SISSN:2068-0473涵盖:Web of Science(ESCI); ebsco; Jerih Plus(hkdir.no); indexcopernicus; Google Scholar; Sherpa/Romeo; Articlereach Direct;世界猫; Crossref; Peeref;知识桥(Mostwiedzy.pl); abcdindex.com;编辑; Ingenta Connect出版物; oalib; scite.ai; Scholar9;科学和技术信息门户; FID移动;高级科学指数(欧洲科学评估中心,neredataltics.org); ivysci; exaly.com;期刊选择器工具(letpub.com); citefactor.org;胖子! ; ZDB目录;目录sudoc(abes.fr); Openalex; wikidata; ISSN门户;社交KVK-Volltitel(kit.edu)2024,第15卷,第4期,第375-386页。 提交:2024年9月2日|接受出版:2024年11月5日大脑。人工智能和神经科学的广泛研究E-ISSN:2067-3957 | P-SISSN:2068-0473涵盖:Web of Science(ESCI); ebsco; Jerih Plus(hkdir.no); indexcopernicus; Google Scholar; Sherpa/Romeo; Articlereach Direct;世界猫; Crossref; Peeref;知识桥(Mostwiedzy.pl); abcdindex.com;编辑; Ingenta Connect出版物; oalib; scite.ai; Scholar9;科学和技术信息门户; FID移动;高级科学指数(欧洲科学评估中心,neredataltics.org); ivysci; exaly.com;期刊选择器工具(letpub.com); citefactor.org;胖子!; ZDB目录;目录sudoc(abes.fr); Openalex; wikidata; ISSN门户;社交KVK-Volltitel(kit.edu)2024,第15卷,第4期,第375-386页。提交:2024年9月2日|接受出版:2024年11月5日
摘要在本文中,我们解决了回答用户自然语言提出的复杂问题的问题。由于传统信息检索系统不适合复杂问题,因此这些问题通常在知识库(例如Wikidata或dbpe-dia)上运行。我们提出了一种半自动方法,将自然语言问题转换为可以在知识库中轻松处理的SPARQL查询。该方法应用了分类技术,将自然语言问题与一组预先固定模板的正确查询模板相关联。我们方法的性质是半自动的,因为查询模板是由人类评估者手动编写的,他们是知识库的专家,而分类和查询处理步骤是完全自动的。我们在大规模CSQA数据集上进行了提问的实验证实了我们方法的有效性。
图 1:适应症来源和模型训练范式示意图 a) 适应症最初来自两个数据源,Wikidata 和 NCATS Inxight Drugs。Inxight Drugs 是一个数据聚合器,它汇编了来自多个来源的数据,包括 DrugBank 和 DrugCentral,从而产生了许多适应症。临床毒理基因组学数据库 (CTD) 包含超过 14,000 种适应症,全部来自文本挖掘,结果由人工确认。沿着化合物 - 治疗 - 疾病 - 逆子类 - 疾病路径的路径收缩总共产生 69,639 种适应症。b) 最初,20% 的已知适应症化合物被移除并放置在保留集中。剩余的 15% 的已知适应症化合物子集用于超参数调整和元路径选择。选定的 160 个元路径用于对不在保留集中的所有适应症进行模型训练,以验证模型。最后,所有迹象都被用来生成用于机械评估的最终模型。