在强大的联合模型设定主管中利用机器学习:Karen Cairns博士和Lisa McFetridge博士自2020年4月以来,贝尔法斯特皇后大学的研究人员通过贝尔法斯特皇家护理部门(ICU)的贝尔法斯特皇后学院的研究人员收集了大量数据。拟议的博士将开发新的统计理论,以更好地说明和分析此类数据的复杂性,并与贝尔法斯特皇家维多利亚医院的呼吸医学顾问紧密合作,计算机科学的高级讲师查尔斯·吉兰(Charles Gillan)将这一理论付诸实践。因此,这是对ICU患者产生现实世界影响的一个令人兴奋的机会。该项目将开发的新方法将用于确定严重不良事件的风险因素,并产生动态预测,这些预测将被纳入预警系统中以帮助ICU员工。机械通气是一种挽救生命的疗法,但不幸的是,它确实对患者构成风险。预防策略的早期鉴定和发展对于最终改善需要机械通气的患者的生存预后至关重要。该项目将开发新的鲁棒关节建模方法来同时分析ICU患者在住院期间从ICU患者收集的重复测量(纵向数据),并且这些生物标志物的动态变化对患者预后的影响(McFetridge 2021)。生存森林是一种合奏技术,类似于随机森林(Breiman 2001),它在事实上的环境中应用(Ishwaran 2008)。尤其是,这项工作将通过掺入生存树和随机生存森林来利用机器学习技术的准确性,以更好地捕获活动时间的过程。与标准生存模型(例如COX回归)相比,它们已显示出高度准确的集合预测指标,提高了预测精度。因此,它们在健壮的关节模型设置中的利用将提供更精确的动态个性化的生存预测,同时考虑了生物标志物随时间的发展,并且有可能存在趋势不符合人群平均值的外围个体的共同存在的潜力。这种强大的方法将在ICU中为严重的不良事件奠定急需的预警系统的基础。该博士将融入针对预警系统开发和完善的更广泛的项目集合,学生与整个研究团队紧密合作,以实施所需的现实世界影响。有关该项目的更多详细信息,请联系主要主管(k.cairns@qub.ac.uk)。McFetridge,L.M.,Asar,Ö。和沃林(J. 63(8),1587-1606。 Breiman,L。随机森林,机器学习,2001年; 45,5-32。McFetridge,L.M.,Asar,Ö。和沃林(J. 63(8),1587-1606。Breiman,L。随机森林,机器学习,2001年; 45,5-32。
使用生物医学大数据的核心是一个数据库,用于存储和管理生物和人类的生物学和物理测量。数据库有各种形状和大小,可以结构化(例如MySQL和Oracle),半结构(例如Neo4J和MongoDB)或未经验证(例如,Amazon S3和Google Cloud Storage)。这些数据库选项中的每一个都有优点和缺点。例如,可以使用诸如结构化查询语言(SQL)之类的工具轻松查询结构化的关系数据库,但可以为新数据元素进行设置和修改。半结构化和非结构化数据库更加灵活,但很难查询。在生物医学DO-MAIN中确定数据库解决方案可能会具有挑战性,因为数据具有许多不同的方式可能非常复杂。可以结构或非结构化的不同方式,这可能会为数据处理,数据输入,数据集成,数据库设计以及当然构建强大的查询构成挑战。
全球生物多样性受到多种压力源的威胁,包括污染和气候变化等人为压力[1,2]。成功有效地减轻对特定物种的威胁需要了解其生态学的知识,但是这些信息并不总是可用。一种解决方案是使用生态模型来解释和预测物种的存在。该目标的一个有力的工具是物种分布模型(SDM),它们是试图使用环境特征的预测和解释物种发生的统计模型[3,4]。响应变量是物种的发生,解释性变量通常是环境特征,其中包括非生物环境的各种描述。研究人员基于统计模型和机器学习发展了越来越复杂的SDM技术[5,6]。SDM拟合到空间数据,其中空间自动校正是一种特征,应考虑到统计推断[7,8]和词语[9-11]。有关SDM和相关统计问题的更完整描述,我们将读者推荐给评论[12,13]。描述环境条件的数据集变得越来越多[14]。更多的数据在更充分地捕获物种的栖息地特征方面提供了希望,这可能会导致更准确的地图和对物种发生的新预测指标的检测[15-17]。这些预测因子很容易在SDM或其他生态模型中使用。对未知值的简单解决方案是两级方法。然而,环境数据通常是从其他模型中预测的,该模型以错误或从测量点进行了插值。GIS层[18-20]存在固有的不确定性,从气象站[21,22]插值的局部气候,主题分辨率和土地利用[23]的变化以及历史数据中物种发生的坐标[24]。最近的研究表明,模型性能差可以归因于环境数据中的高度不确定性[25]。空间未对准环境因素的测量结果与物种观察数据不正确,这是研究环境因素对物种分布的影响的关键来源[26]。预测精确的栖息地图图需要在研究区域的每个可能点上进行准确的环境条件。在第一阶段,人们可以预测每个空间位置的环境因素。典型的解决方案使用的是地统计学模型,例如Kriging,机器学习模型,例如随机森林或将每个观察结果缩放到完整的覆盖网格中。在第二阶段,这些预测的环境因素被视为特殊分布模型中的基础真理。但是,这种方法不考虑协变量值的不确定性,这可能导致错误的统计推断[27]。很少有研究试图评估环境变量对SDM模型的不确定性影响[26-32]。