罕见病 (RD) 是指影响一小部分人口的任何疾病。在欧洲,如果一种疾病或病症影响不到 2,000 名公民中的 1 名,则该疾病或病症被定义为罕见疾病。全世界有 7,000 多种罕见病。尽管个别罕见病很少见,但据估计,全球共有 3.5 亿人患有罕见病。大多数罕见病都是遗传性的,即使症状不会立即出现,也会在人的一生中存在。罕见病的特点是每种症状都多种多样,并且因患者而异。罕见病的症状也可能与常见疾病的症状相似。这些因素意味着罕见病经常被误诊。根据全球基因组织的数据,10 个 RD 中有 8 个是由基因缺陷引起的,大约 75% 会影响儿童,但平均需要 4.8 年才能得到准确的诊断。这也是 30% 的 RD 儿童活不到五岁的原因之一。需要解决的挑战和问题很多,从技术角度到理论角度都有,例如患者数量少(通常是儿童)、疾病的异质性以及国家/国际数据资源数量有限。新技术的发展,例如通过下一代测序 (NGS) 和其他“组学技术”进行基因组分析,促进了对 RD 的分子理解和诊断。然而,越来越需要开发新方法来整合来自不同技术的多组学数据。此外,AI 技术整合和分析来自不同来源(例如多组学、患者登记处)的数据的能力可用于克服进一步的挑战,例如诊断率低、患者数量减少和地理分散。最终,AI 介导的知识可以显著促进 RD 的治疗发展。得益于这一进步,我们的研究主题收集了贡献者,他们描述了当前的方法、应用、RD 诊断面临的挑战、改进数据分析技术的实用见解以及生物信息学和 AI 方法在 RD 生物医学研究中的进展。本研究主题共收集了五篇文章,包括四篇综合评论和一篇原创研究文章。这些文章涵盖了多种罕见疾病,从线粒体疾病到神经肌肉疾病和肝细胞癌。值得注意的是,他们不仅提出了生物信息学和人工智能的多种方法,而且还由从事罕见疾病的学术机构和医院贡献,展示了对这一热门领域的极大兴趣和应用。为了使计算生物学家和生物信息学家社区开发的大量多组学集成工具更加丰富,我们的团队进行了全面的审查,特别关注线粒体疾病的应用,提出了一种新的数据驱动分类
主要关键词