[1] Gabriel Amaral,Rodrigues的Odinal和Elena Symperl。WDV:国家数据数据数据构建编织。在Ulrike Sattles,Aidan Hogan,Maria Keet,Valentine Presutti,JoãoPauloA. Almeida。 2022。内部Springer Publishing。
本文继承了十年前编辑维基百科的十条简单规则[1]。它介绍了维基百科的机器可读表亲:维基数据——从计算生物学的角度来看,这个项目可能更具相关性。维基数据是一个免费的协作知识库[2],为每个维基百科页面及其他页面提供结构化数据。它依赖于与维基百科相同的同行生产原则:任何人都可以做出贡献。开放的协作模式在实践中往往出人意料地高效,尽管在理论上它们似乎不太可能奏效。尽管如此,它们在学术圈仍然遭到很多抵制和怀疑[3,4]。自 2012 年上线以来,维基数据已迅速发展成为一个跨学科的开放知识库,内容涵盖从基因到细胞类型再到研究人员[2,5-7]。它具有广泛的应用,例如验证有关疾病爆发的统计信息[8]、协调人类冠状病毒资源[9]或评估生物多样性[10,11]。它可以被认为是一个巨大的网络图(图1A),其中的项目作为节点(现在超过1亿个),通过超过十亿条语句相互链接,并通过数十亿条语句进一步链接到更广泛的网络。我们将在文中用斜体字链接到示例维基数据项目和属性(图1)。在线界面使项目本身具有一定的人性化可读性(图1B),但它们的结构化特性使其能够以完全用散文编写的信息源无法实现的方式查询和组合信息。这种多功能性使其在计算生物学中的应用比仅仅依赖维基百科更加通用和灵活[12]。维基数据上的查询范围很广,从哪些基因变异可以预测结直肠癌的阳性预后,到按荷兰以其名字命名的街道数量对分类单元进行分类。我们将尝试使用与计算生物学相关的例子,但请记住,几乎所有东西都可以这样做,从苏格兰中世纪女巫处决地图到按使用人口划分的紧急电话号码,再到描绘青蛙的画作。由于它属于 CC0 版权豁免,因此 Wikidata 的结构化内容基本上已发布到公共领域以用于其他项目 [ 13 ]。您可能已经在搜索引擎结果的顶部看到了它的结构化数据,但它也在幕后使用
简介整合数据和知识是生物医学研究中的一项艰巨挑战。尽管新的科学发现正在迅速发现,但很大一部分知识要么被锁定在数据孤岛中(不同的命名法、数据模型和许可条款阻碍了整合;Wilkinson 等人,2016 年),要么被锁定在自由文本中。缺乏集成和结构化的生物医学知识版本会阻碍对这些信息的有效查询或挖掘,从而阻碍我们充分利用积累的科学知识。最近,科学界越来越强调确保所有科学数据的公平性——可查找、可访问、可互操作和可重用——并且越来越多地就一套具体的原则达成共识以确保公平性(Wilkinson 等人,2019 年;Wilkinson 等人,2016 年)。这些原则的广泛实施将极大地
Wikidata和Wikipedia一样,都是任何人都可以编辑的知识基础。这种开放的协作模型非常有力,因为它减少了参与的障碍,并允许大量人做出贡献。但是,它使知识基础暴露于故意破坏和低质量贡献的风险。在这项工作中,我们以过去的作品为基础检测维基百科的破坏行为,以检测维基达塔的故意破坏。这项工作是新颖的,因为确定结构化知识基础的破坏性变化需要与Wikipedia这样的基于文本的Wiki中的特征启动工作实质性不同。我们还讨论了这些分类者的实用性,以减少Wikidata中的故意破坏巡逻者的整体工作量。我们描述了一种机器分类策略,该策略能够捕获89%的故意破坏者,同时通过从编辑的上下文特征轻轻地汲取自编辑的特征,从而减少巡逻者的工作量98%。